데이터 과학을 위한 통계(2판)

  • 숫자를 싫어하고, 수학 및 통계에 대한 지식이 없는 사람이더라도 의사소통이 숫자로 이뤄지는 것을 더 편하다고 생각하는 사람들이 있습니다. 특히 사회생활을 하거나 경제활동을 하는 사람이라면 숫자로 말하고 듣고 하는 것을 중요하게 생각합니다.

  • 특히 어떤 결과에 대해 보고를 하거나, 의견을 나눌 때 숫자는 반드시 필요한 요소입니다. 대화에 숫자를 제외하면 다음과 같이 애매모호한 상황이 발생합니다.

    • 이번 프로젝트 성과는 전년도 보다 많이 좋아졌습니다. (그래서 얼마나 좋아졌는지?)
    • 전년도 매출 대비 금년도 매출 실적이 하락하였습니다. (그래서 얼마나 하락했는지?)
  • 통계학은 다른 사람에게 명확한 결과를 받아들이고, 불필요한 커뮤니케이션 비용을 줄이는데 효과적입니다. 때로는 부차적인 설명 보단 숫자로 결과를 얘기하는 것이 매우 효과적이고, 사실적입니다.

  • 때로는 통계학은 범람하는 숫자들 속에서 유의미한 요소를 찾을 수 있습니다.

  • 사람은 숫자로 얘기하는 것을 추상적인 표현으로 얘기하는 것보다 받아들이기 쉽지만, 단순한 숫자들의 나열은 숫자가 내포하는 핵심을 파악하기는 힘들어합니다. 그래서 주어진 숫자들을 그림으로 표현하는 작업을 수행합니다. 그림은 빠른 시간 내에 생각보다 많은 정보를 획득할 수 있도록 도와줍니다.

데이터 과학이란?

  • 이제는 데이터 과학, 빅데이터, 머신러닝과 같은 단어들이 상당히 많은 사람들에게 친숙한 상황이 되었습니다.
  • 제가 생각하는 데이터 과학이란 주어진 데이터 속에서 유의미한 정보를 찾아내고, 이를 활용하는 것이라고 생각합니다. 그렇기 때문에 데이터 과학은 상당수 많은 부분을 통계학과 공유합니다. (통계학을 다른 말로 표현하거나, 통계학을 사용한 하나의 응용 분야이기도 합니다.)

데이터 과학을 위한 통계(2판)는 어떤 책이었나?

  • 통계학의 무서운 수학으로부터 안전하다.
    • 파이썬 코드를 기반으로 통계학에서 사용하는 기초적인 개념부터 머신러닝 알고리즘까지 개념코드를 주로 다룹니다. 주로 통계학을 사용한 다양한 사용법을 공부하는 응용에 집중하였습니다.
  • 각 예제에 대한 시각화가 매우 잘 되어있다.
    • 개발자가 변수(또는 함수 등) 이름을 어떻게 지으면 좋을까? 하며 고민하는 것과 같이, 시각화는 데이터를 다루는 사람이라면 어떻게 표현하는 것이 좋을까?를 고민합니다. 주어진 결과를 바탕으로 어떤 의사결정을 내릴 자료이기 때문입니다.
    • 이 책을 보면서 ‘굳이 관련 전공자가 아니어도 읽어봐도 좋겠는데?‘라는 생각이 들었습니다. 복잡한 알고리즘을 이해하지 못하더라도(또는 필요하지 않더라도) 데이터의 형식과 이를 그래프로 표현하는 방법을 배우는데 매우 효과적이라 생각합니다.
  • 더 읽을 거리를 제공하여 추가적인 학습에 대한 방향을 제시한다.

통계는 정말 필요할까?

  • 숫자를 잘 다루는 기술은 강력한 무기를 들고 있는 것과 같은 것이라 생각합니다.

  • 이러한 무기를 들고 있다면, 필요한 상황에서 긍정적인 부분을 강조할 수 있고, 불필요한 상황에선 부정적인 부분을 감출 수 있습니다.

  • 즉 통계학은 자신이 활용할 때는 예리한 무기로 사용할 수 있고, 상대방이 활용할 때는 단단한 방패가 되어 현혹되지 않도록 도와줍니다. 따라서 강력한 무기와 방패를 사용할 수 있도록, 통계 공부는 가히 필수라고 얘기하고 싶습니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.