“거짓말에는 세 종류가 있다. 거짓말, 빌어먹을 거짓말, 그리고 통계다.”
벤저민 디즈레일리
대럴 허프(Darrel Huff)의 책 “How to lie with statistics(번역서: 새빨간 거짓말, 통계)”은 1954년 처음 출간되었다. 하지만 그 내용은 오늘날에도 아주 잘 적용되며, 언론, 정치인 그리고 기타 다른 이들이 어떻게 통계를 사용해 무비판적인 독자들을 속일 수 있는지 설명해 준다.
1. 편향된 샘플
리터러리 다이제스트(Literary Digest)는 미국에서 인기 있는 매거진이었다. 이 매거진에서는 1936년 대통령 선거 전 1천만 명의 독자들을 대상으로 누구에게 투표할 것인지 전화 설문조사를 실시했다. 설문 조사 결과, 랜든이 370표, 루스벨트가 161표를 받는 것으로 나왔다. 하지만, 실제 결과는 완전히 달랐다. 랜든이 8표를 얻었고, 루스벨트가 523표를 얻었다. 설문 조사가 왜 틀린 것일까? 그 당시에 전화는 부유층의 전유물이었고, 이들은 공화당의 린든을 선호했던 것이다. 선택한 샘플이 전체 미국인들을 대표하지 못 했던 것이다. 편향된 샘플의 사례였다.
샘플이 예측성을 얻기 위해서는, (1) 전체 인구를 대표해야 하며, (2) 모집단은 전체 인구에서 무작위로 선택되어야 한다.
2. 평균의 함정
부시 행정부가 세금 감면 계획을 내놓은 적이 있다. 이 계획이 실현되면, 미국 가정의 평균 세금 감면 혜택이 1,083달러에 이를 것이라고 주장했다. 하지만, 미국 가정 중 50% 이상이 단 100달러로 세금 감면 혜택을 보지 못 했다. 부시 행정부가 거짓말을 한 것일까?
그렇지 않다. 행정부가 주장한 1,083달러는 평균값이었고, 이상치에 의해 왜곡된 것이었기 때문에, 이 수치가 대부분의 가정에 적용되지 못했던 것이다. 중간값은 100달러 미만이었다. 평균은 자격을 갖춰야 한다. 그렇지 못한 경우, 보고된 수치는 큰 가치를 얻을 수 없게 된다.
때로는 자격을 갖춘 평균도 위험하다. 평균 4피트 깊이의 수영장에서 키 6피트인 사람이 익사했다. 어떻게 가능할까? 수용장 깊이의 범위가 3피트에서 10피트 사이였기 때문이다.
아래 그림에 평균의 3가지 경우를 명확하게 설명해 준다.
3. 작은 샘플은 극단적인 결과를 가져올 수 있다.
공정한 동전 던지기를 하면, 앞면이 나올 확률은 1/2이다. 하지만 동전 던지기를 5번 하면, 모두 앞면이 나올 수도 있다. 그럼에도, 동전 던지기를 훨씬 더 많이 한다면, 실제 결과는 1/2의 확률에 수렴하게 된다.
가장 좋은 학교는 평균적으로 소규모 학교였다는 연구가 있었다. 이 데이터를 바탕으로 게이츠 재단은 소규모 학교 설립에 상당한 투자를 했다. 그렇다면, 소규모 학교가 정말로 더 나았을까? 그렇지 않았다. 게이츠 재단에 보고한 통계학자에게 가장 안 좋은 학교의 특성에 대해 물어 봤더니, 안 좋은 학교 또한 평균보다 소규모인 경향이 있었다. 진실은 소규모 학교가 평균 보다 나을 것이 없었다. 학교의 성향은 아주 다양했을 뿐이다. 작은 샘플에서 얻은 결과는 극단적인 결과일 수 있기 때문에, 거기에 의존해서는 안 된다.
2부에서 계속
This page is synchronized from the post: ‘통계로 거짓말 하는 방법 (1)’