Visualization: Exploring & Explaining
이전 글에서 이어진다.
시각화는 기술통계로 보기 어려운 자료의 특징을 이해하고
자료의 정보를 직관적으로 전달하기 위해 사용한다.
Anscombe's quartet은 상관계수의 의미를 시각화한 전설적이 예이다.
이후 아래와 같은 그림도 등장하였다.
Exploratory Data Analysis로 구분하는 exploring기능은 다른 기회에 정리하고,
발표와 관련된 교과서적인 시각화 방법을 정리한다.
百聞이 不如一見
A picture is worth a thousand words
흔히 보는 infographics는 긴 설명이 필요한 내용을 간결하게 전달하는 것이 주목적이고,
Data visualization은 양적 자료의 요약, 비교, 인과관계나 상관관계 설명에 주로 사용한다.
시각화와 같이 자주 등장하는 단어는 정직과 단순, integrity & simplicity, 이다.
정직은 신뢰, 단순함은 주제에 초점을 맞추기 쉽게 한다.
1. Lie, Damned Lie, and statistics - Benjamin Disraeli
"People in this country have had enough of experts". - Michael Gove
Britain has had enough of experts, says Gove
Brexit campaigner offers to have disputed EU contribution figure audited
www.ft.com
“Data is a language. It’s a means to convey an opinion, an argument.”
- Kim Rees, co-founder of Periscopic
“It’s easy to lie with statistics, but it’s hard to tell the truth without them.”
이 인용문의 출처는 분명하지 않다. 인터넷에는 통계학자인 Andrejs Dunkels, Frederick Mosteller, 혹은 Naked Statistics의 저자 Charles Wheelan 이 세 명이 각축을 벌이고 있다. Wiki를 보면 Frederick Mosteller일 가능성이 많은 것 같긴 하다. 이런 종류의 오류는 기준의 상이함이나 오해에 기인하는데 의외로 '진실'이 밀리는 경우도 꽤 되는 것 같다.
Lie, Dammed Lie, and statistics 역시 마찬가지인데, 예전에 비슷한 말들이 많아 정리가 어려웠던 것 같다. 입을 거치면서 느낌이 달라지는 것 같다. Jef Mallett.
"While it is easy to lie with statistics, it is even easier to lie without them."
- Frederick Mosteller
2. 정보의 시각화
몇 가지 기억해둘 만한 지침
1. 연필과 종이
2. Data-ink ratio
$$\text{data-ink ratio} = \frac{\text{data-ink}}{\text{total ink used to print the graphic}}$$
Graphics | Financial Times
US presidential electionAugust 12, 2020 Organisation: Democratic Party US Person: Kamala Harris, Joe Biden
www.ft.com
많은 내용을 좁은 지면에 꼭 담아야 한다면 색의 수를 줄이고 명도나 채도에 변화를 준다.
3. 착시
일관성 없는 scale과 time index은 오해를 불러일으킨다.
그래프의 축은 가능하면 0을 기준으로 한다.
수준과 비율은 명확히 구분
4. 비교를 위한 도표 선택
범주형 category | bar chart |
비율 proportion | pie graph (Nightingale's graph), donut graph, stacked-bar graph, grouped-bar graph, slope graph |
상관관계 correlation | scatter plot |
분포 distribution | histogram (fix bin sizes), kernel density estimation |
5. 효과적인 비교방법
위치, 길이, 기울기, 각도, 면적, 부피, 색 순으로 비교가 어렵다.
각각 4.75배, 3배, 6.25배가 더 크다.
6. 참고 블로그
- visualization 사례
- 바람직하지 못한 visualization 사례
junkcharts - 자세한 평가