통계의 미학 by 최제호 |
숫자는 거짓말을 하지 않는다고들 하지만,, 이에 대한 반론은 사람들은 보고 싶은 것만 본다는 사실이다.
어떤 사안에 대해서 논리적인 뒷받침 자료로 통계를 활용하곤 한다. 전체의 몇 %가 찬성했기 때문에 통과된다든지, 평균 얼마니깐 이정도가 적당하다 든지, 알든 모르던 생활 속에서 다양한 방법으로 이런 통계가 적용된다.
하지만, 이 통계에 담겨진 정확한 의미를 모를 경우 거짓말 하는 숫자에 속을 수 있는 것 같다.
단적으로 샘플링이 잘못된 경우, 이에 대한 통계 결과는 믿을 수 없는 것이 된다는 이야기가 눈에 쏙~ 들어온다. 인터넷이 발달하면서 사람들의 여론이 인터넷을 통해 많이 반영되곤 한다.
그런데, 이 여론이라는게 보통 악성 댓글이나 몇몇 강력한 자기 주장을 가진 소수에 의해 주도되기 쉬운 것이 사실이다. 그러다보니 전체를 반영할만한 여론이 아닌 적극성을 갖춘 소수의 의견이 여론이로 비춰지기 십상이다.
비슷한 예가 미국 대선 결과 예측에서도 있었다고 한다. 나름 샘플링 잘한다고 알바들 고용해서 방문 조사를 벌였지만 막상 결과가 뒤집혔던 것. (자세한 스토리는 책에서. ^_^;;) 당시 통계상 지지도는 공화당 후보가 압도적이었지만 실제 선거 결과는 민주당 후부 승리로 나타났다.
왜? 알바들이 조사를 하는 과정에서 상대적으로 좀 잘살고 여유있는 공화당 지지자들이 응답에 잘 대응해주는 반면 살기 바쁜 민주당 지지자들은 설문 응답을 거부했던 것이다. 그덕에 공화당 지지자들 의견이 많이 반영되면서 예측 결과가 틀리게 나왔던 것이다.
이것 이외에도 평균에 따른 오류도 많다. 일반적인 이야기, 모두가 납득할 수 있는 이야기를 풀어쓸때 평균을 많이 언급하는데, 사실 평균이라는건 최빈값(가장 빈도수가 많은 값)과 중앙값(전체 개체 중 중간에 위치한 값)이 일치할때 의미가 있는거지 그렇지 않은 경우는 평균이 전체를 왜곡할 수 도 있다.
신문 기사를 보면서, 또는 보고서들을 보면서.. 아니 막상 보고서를 쓰는 입장에서 사실 어떠한 통계 자료도 내가 원하는 방향으로 활용해 쓰는 것이 가능하다. 그래서 보통 신문이나 보고서에서 나온 자료는 될 수 있으면 자료 출처를 추적해 실제 통계 값을 확인하기도 하는데..
그냥 쉽게 지나칠 뻔 했었던 통계에 대한 기본적인 개념들을 이 책을 통해 정리 할 수 있었다. 그리 어렵지도 않고, 양도 많아보이지만 쉽게 책장이 넘어간다.
통계를 전공한 사람에게는 너무 쉬운 이야기가 되겠지만 이제 입문하는 사람에게는 좋은 입문서가 되지 싶다. ^_^
한 번 읽어 봐야겠다. 감솨~
그리고 나 쇳물 쇳물!!
아, 쇳물.. ^^ 날렸으..~