통계로 거짓말하는 방법 (1)에서 계속
https://steemit.com/kr/@pius.pius/4rxybg-1
그래프와 그림
아래 차트는 한 기업의 1990년부터 1999년까지 수익 성장세를 나타낸 것이다. 이 차트는 이 기업의 수익이 폭발적으로 성장하고 있음을 보여준다. 실적 수치에는 세로축이 빠져있다. 의도적으로 빼본 것이다. 1990년 수익을 1달러로, 1999년 수익률 1.1달러로 그린 것이다. 10년 동안 수익 성장률은 단 0.96%에 불과했다. 어떤 그래프를 볼 때, 세로축과 가로축 모두가 표현돼 있는지 확인해야 한다.
같은 기업의 2000년-2005년 수익 성장세를 살펴보자.
6년 동안 수익은 20달러에서 22달러고 성장했다. 연평균 성장률은 1.60%로 그리 큰 것이 아니다. 차트는 아주 편평해 보인다.
같은 데이터를 사용해 차트를 다시 그려보았다. 아주 폭발적으로 보인다. 어떻게 이런 일이 가능한 것일까? 차트를 0달러 대신 20달러부터 시작하고 세로축의 증분을 0.2로 했기 때문에, 엄청난 성장을 한 것 같은 환상을 만들어 낸 것이다. 어떤 차트를 볼 때, 시작 값과 증분에 주의해야 한다.
미국에서 목수의 평균(중앙값) 주간 임금이 60달러이며, 로툰디아에서는 30달러라고 가정해 보자. 이 데이터를 나타낸 막대그래프는 분명하게 이 사실을 보여주고 있다. 미국의 막대 높이가 로툰다이의 두 배다.
이 이야기를 좀 더 극적으로 보이고 싶다면, 그림으로 표현하면 된다. 아래 그림은 우리에게 미국이 로툰디아보다 훨씬 더 잘 산다는 인상을 준다. 그 이유는 무엇일까? 미국의 그림 높이는 2배인 것은 맞다. 하지만 미국의 그림 폭 또한 2배로 늘어났다. 따라서 이 그림은 미국이 로툰디아보다 8배 더 잘 산다는 환상을 가져다준다. 왜 8배인가? 부피는 한 변 X 3이기 때문이다. 그림을 볼 때, 폭이 변하지는 않았는지 확인해야 한다.
반쪽짜리 수치
자신이 입증하고 싶은 것을 입증할 수 없을 경우, 뭔가 다른 것을 보여주고, 같은 것인 양 할 수 있다. 예를 들어, 여러분이 감기를 치료약을 발명했다고 해보자. 하지만, 입증할 방법이 없다. 어떻게 해야 할까? 그 약을 투여한 시험관에서 32,868마리의 세균이 죽었다는 보고서를 내놓고, 이 보고서를 공공 기관에서 인증받으면 된다. 그리고 그 약이 시험관에서 세균을 죽였고, 따라서 감기도 치료할 수 있을 거라고 광고를 하면 된다. 잊지 말고 주장하는 것과 판매되고 있는 것 사이의 관계에 의문을 제기해 봐야 한다.
상관관계는 인과관계를 설명해주지 못한다.
두 변수 사이의 상관관계는 인과관계를 설명할 필요가 없다.
이런 뉴스 제목을 보자. “병에 든 생수를 마신 아이들이 더 건강하다.” 이 말이 정말 사실인가? 떠올려야 할 의문은 “누가 생수를 구입했는가?“ 하는 것이다. 부모가 부자라면 생수를 마시고, 아이들이 건강할 가능성 모두 다 높다.
뉴헤브리디스(호주 북동 남태평양상의 군도) 사람들은 몸에 이가 있어야 건강하다고 믿고 있다. 이 사람들이 몇 세기 동안 경험한 바, 건강에 사람들은 일반적으로 몸에 이가 있었고, 아픈 사람들은 거의 그렇지 않았다는 것이다. 실제 이유는 무엇일까? 아픈 사람은 열이 있고, 따라서 몸이 너무 뜨거워진다. 이가 뜨거운 몸에는 살지 않기 때문에, 아픈 사람에게는 이가 없는 것이다.
…………..
통계는 유용한 도구이다. 아마존, 넷플릭스, 페이스북 같은 사이트는 우리가 좋아하는 품목을 예측하기 위해 통계를 이용한다. 하지만, 어떤 유용한 도구와 마찬가지로, 통계도 오용될 수 있다. 통계가 진실인지, 거짓인지 알아내는 것이 우리가 할 일이다. 앞으로 어떤 통계 정보를 접하게 되더라도, 이런 생각을 해봐야 한다. (1) 누가 그 통계를 내놓았고, 또 그 동기는 무언가? (2) 어떤 방법으로 통계를 냈는가? (3) 앞뒤가 맞는 통계인가?
This page is synchronized from the post: ‘통계로 거짓말하는 방법 (2)’