728x90

제가 소싯적 회계팀원이던 시절의 이야기입니다. 저희 직속 임원이셨던 CFO께서 다른 임원들을 설득하기 위해서 '숫자는 거짓말을 안 한다'라고 주문처럼 외우고 다니셨는데 그 밑에서 직접 숫자를 만지는 직원들은 '숫자만큼 거짓말하는 게 어딨어'하고 킬킬거렸습니다. 아, 물론 숫자 자체는 거짓말을 안 하는 경우가 거의 다였습니다만(분식회계하면 엄청나게 외부징계로 깨지는 곳이라 하기도 힘들었;) 그 재무 수치를 보여주고 설명하는 순서, 퍼센테이지, 설명, 표를 적당히 예쁘게 하면 유리한 사실만 눈에 띄게 만들 수 있었습니다.

그래서였을 겁니다. 발간되지 않은 이 책 제목에 끌려서 집어든 건 과거의 추억을 반추하고자...(아님) 요쪽은 재무 숫자가 아니라, 현대의 각종 통계를 차트로 보여줄 때 어떤 오류와 조작이 있을 수 있는지 지적하고, 소비자인 독자들이 주관을 가지고 통계를 제대로 이해하게 도와주는 쪽이죠.

알베르토 카이로 (지은이)
박슬라 (옮긴이)
출판사: 웅진지식하우스
국내발간일: 2020-10-13
원제 : How Charts Lie: Getting Smarter about Visual Information

======목차======

들어가며. 숫자는 거짓말하지 않는다는 거짓말
서론. 차트는 어떻게 우리를 눈멀게 하는가
1장. 차트란 무엇인가 : 차트의 요소와 시각적 부호화
2장. 같은 데이터, 다른 그래프 : 척도와 비례
3장. 무엇을 측정하고 어떻게 집계했는가 : 데이터 신뢰도
4장. 편집된 진실에 속지 않으려면 : 데이터 선별과 모집단
5장. 신뢰도 95%의 비밀 : 미래 예측과 불확실성
6장. 상관관계는 인과관계가 아니다 : 데이터 패턴 읽기
결론. 좋은 차트는 더 나은 세상을 만든다
==============

이 책은 세계 통계학, 설문조사계에 레전드로 남는 트럼프-클린턴 대선 이야기로 시작합니다(근데 도대체 인상적인 통계학 책의 오프닝으로 이걸 뛰어넘는 이야기가 어딨겠어요)

바로 이렇게 생긴  지도였는데요, 트럼프의 공화당은 빨간색, 힐러리의 민주당은 파란색으로 해서 각 미국 카운티 별로 우세 정도를 명도차로 표시한 지도죠. 당연히(...) 트럼프는 이 지도를 무척이나 마음에 들어했습니다. 나중에 트럼프 탄핵 움직임이 있자 이 지도의 주 버전(보기에 좀 더 단순하고 아주 빨갛죠)을 올리면서 '이걸 탄핵해 봐라'라고 자신의 지지기반을 자랑했을 정도니까요.

그러나 이 지도에는 오류가 여러가지 있습니다. 일단 이 표는 인구 밀도를 무시하고 카운티 기준으로만 승리를 표시해놨구요, 승리만 표시한 나머지 2등(또는 3등 등등)과 얼마나 차이가 나는지를  표시하지 않았습니다. 따라서 진보 성향의 타임지 등에서는 인구 수를 표시한 거품 차트(한국에서도 종종 쓰이죠)를 쓰지만, 여기에도 역시나 후보별 표 차이는 나타나지 않습니다.

 

저자는 한국 독자들을 위한 깜짝 선물로 한국판 서문에서 한국 대학원생의 도움을 받아(...이거 상투적인 의미로는 얘가 만들었다; 정도일텐데요) 최근 대선의 도별 지지율 지도를 만들었습니다. 하지만 여기에도 인구 밀도와 표 차이가 빠져 있죠. 그래서 대안으로 지도 모양으로 각 당별 의원 당선수를 같은 면적으로 재구성한다든가, 미국에서는 선거인단의 수를 적용해 각 주의 크기를 조절한 지도를 선호하기도 합니다.

 

이와 같이 차트는 부정확한 정보를 대중에게 전달할 수 있을 뿐 아니라, 더한 파급력을 가져오기도 합니다. 왜냐하면 소셜 미디어의 시대에서는 대중 하나하나가 뉴스의 가공자, 재전달자가 될 수 있기 때문이죠. 지금도 트위터와 페이스북을 포함한 각종 소셜 미디어에서는 타겟 성별 범죄율, 소득 차이, 백신 효과와 부작용에 대한 각종 차트가 돌아다닙니다. 이런 정보는 디지털 풍화를 겪으며 범례와 척도, 차트 소스조차 사라지고 심지어는 차트 그 조차도 없어져서 이를 설명하는 선동적인 메시지만 남아서 돌아다녀요, 이에 대해서 저자는 기본적인 차트 읽는 법부터 차근차근 설명합니다.

1. 제목, 설명, 출처

2. 측정 대상, 단위, 척도, 범례

3. 시각적 부호화

4.주석 읽기

5.폭넓은 시야로 패턴과 동향, 관계를 이해

이 순서에 뒷목을 잡으면 안 됩니다. 왜냐하면 이 차트가 만들어진 원 소스, 데이터 신뢰도에 대해서도 검증하는 법이 나오기 때문입니다ㅋ 저자는 하드록과 헤비메탈의, 특히 주다스 프리스트(소싯적에 저도 쫌 들었죠)의 팬인데 유럽의 헤비메탈 지도가 맘에 들어서 지인들에게 퍼뜨리다가 '가만, 여기 락 밴드라고 되어 있는 밴드들이 정말 메탈 밴드가 맞나? 하고 원 소스에 들어가서 나열된 밴드들이 자신의 헤비메탈(어...근데 블랙메탈쪽에 더 가깝지 않나여) 원형인 주다스 프리스트의 특질을 얼마나 가지고 있는지 검증해 봅니다. 별다른 오류없이 잘 분류된 걸 확인하고 다시 락덕 친구들에게 그 지도를 퍼뜨립니다.

 

여기에 뒷목을 잡고 '락덕과 통계덕이 만나면 이런 짓을 한단 말야?'라고 나가떨어지지 말라고 일반화된 데이터 검증 방법론을 얘기합니다. 출처가 낯선 차트는 출처를 조사하기 전엔 믿지 않는다, 출처를 명시하지 않거나 링크를 걸지 않은 차트는 믿지 않는다, 다양한 미디어를 접한다, 견해가 다른 출처를 접하면 왜곡이 아니라 선의를 가정하라, 정정보도를 공개적으로 알리는 매체를 이용하라, 당파성이 지나치게 강한 출처를 피하라, 메시지의 어조가 지나치게 과장되고 공격적이면 관심을 꺼라, 전문분야가 다른 전문가를 조심하라, 이념이 입맛에 맞을수록 출처를 비판적으로 바라보라, 

 

선생님... 이렇게 하면 남조선 레거시 미디어와 뉴 미디어 중 신뢰할 수 있는 소스는 거의 없는 거 같은데요...

 

나머지 장들도 유용합니다. '상관성'과 '인과 관계'에 대한 장에서는 가난한 사람들이 보수 정당에 투표하는 경향성에 대해서 말하는데요, 사실은 가난한 카운티도 안의 계층을 뜯어보고, 투표율을 뜯어봐야한다고 해요. 그 카운티에서 비교적 소득수준이 높은 경찰, 공무원들은 투표 시간과 정보가 보장되므로 성향대로 보수 정당에 투표하지만 정말 가난한 사람들은 까다로운 선거등록 제도와 바쁜 근무시간 때문에 아예 선거를 하지 않을 경향이 높습니다. 또 표준오차(신뢰수준 95% 그거요)는 간단하지만 이해하기 쉬운 설명으로 통계학을 아예 모르는 사람도 이해하게 돕습니다.

근데 이렇게 숫자가 거짓말을 하면 차라리 그냥 차트와 숫자를 불신하는 게 낫지 않을까요?라고 염세의 늪에 빠질 때쯤 저자는 멱살을 잡고 끌어올리면서 잘 디자인된 차트를 올바로 읽고 차트는 차트 그 자체로 받아들일 때, 그리고 목적에 맞는 도구로 차트를 사용해서 올바른 논의로 이끌어갈 때 차트는 더 나은 세상을 만들 수 있으니 포기하지 말라고 합니다. 쫌 포기하고 싶지만; 저자가 너무나 열성적으로 주석에 자신의 논거와 더 공부할 수 있는 소스들을 적어놔서 이분에 대한 의리에서라도 좀 더 이 책을 체화시켜야겠습니다.

그리고 출처가 불분명하고 선동적인 통계를 1초만에 리트윗하는 짓은 하지말...아니 줄이도록 하자;;;

덧. 찰스 월런의 '벌거벗은 통계학' 밴 골드에이커의 '배드 사이언스' 조던 엘런버그의 '틀리지 않는 법'은 데이터 추론에 대해 텍스트북으로 읽어 보도록 하자.

덧2. 차트는 목적에 따라 0에서 시작하지 않아도 된다/데이터에 로그를 먹이는 게 유용한 때와 같은 전문적인 내용이 좀 나오기는 하는데, 설명이 잘 돼서 이해하긴 그리 어렵지 않습니다.

+ Recent posts