prezentation

Visualization: Exploring & Explaining

2020. 8. 25. 13:40

이전 글에서 이어진다.

 

시각화는 기술통계로 보기 어려운 자료의 특징을 이해하고

자료의 정보를 직관적으로 전달하기 위해 사용한다.

 

Anscombe's quartet은 상관계수의 의미를 시각화한 전설적이 예이다.

이후 아래와 같은 그림도 등장하였다.

 

 Datasaurus, autodeskresearch

 

 

Exploratory Data Analysis로 구분하는 exploring기능은 다른 기회에 정리하고,

발표와 관련된 교과서적인 시각화 방법을 정리한다.

 

百聞 

A picture is worth a thousand words

We soon have enough of experts?

흔히 보는 infographics는 긴 설명이 필요한 내용을 간결하게 전달하는 것이 주목적이고,

Data visualization은 양적 자료의 요약, 비교, 인과관계나 상관관계 설명에 주로 사용한다.

 

시각화와 같이 자주 등장하는 단어는 정직과 단순, integrity & simplicity, 이다.

정직은 신뢰, 단순함은 주제에 초점을 맞추기 쉽게 한다.

1. Lie, Damned Lie, and statistics - Benjamin Disraeli

"People in this country have had enough of experts". - Michael Gove

 

Britain has had enough of experts, says Gove

Brexit campaigner offers to have disputed EU contribution figure audited

www.ft.com

“Data is a language. It’s a means to convey an opinion, an argument.”

- Kim Rees, co-founder of Periscopic

 

“It’s easy to lie with statistics, but it’s hard to tell the truth without them.”

더보기

이 인용문의 출처는 분명하지 않다. 인터넷에는 통계학자인 Andrejs Dunkels, Frederick Mosteller, 혹은 Naked Statistics의 저자 Charles Wheelan 이 세 명이 각축을 벌이고 있다. Wiki를 보면 Frederick Mosteller일 가능성이 많은 것 같긴 하다. 이런 종류의 오류는 기준의 상이함이나 오해에 기인하는데 의외로 '진실'이 밀리는 경우도 꽤 되는 것 같다.

Lie, Dammed Lie, and statistics 역시 마찬가지인데, 예전에 비슷한 말들이 많아 정리가 어려웠던 것 같다. 입을 거치면서 느낌이 달라지는 것 같다. Jef Mallett.

"While it is easy to lie with statistics, it is even easier to lie without them."

- Frederick Mosteller

2. 정보의 시각화

몇 가지 기억해둘 만한 지침

1. 연필과 종이

2. Data-ink ratio

$$\text{data-ink ratio} = \frac{\text{data-ink}}{\text{total ink used to print the graphic}}$$

 

 

Graphics | Financial Times

US presidential electionAugust 12, 2020 Organisation: Democratic Party US Person: Kamala Harris, Joe Biden

www.ft.com

 

management score by ownership, Econ2005

많은 내용을 좁은 지면에 꼭 담아야 한다면 색의 수를 줄이고 명도나 채도에 변화를 준다.

3. 착시

일관성 없는 scale과 time index은 오해를 불러일으킨다.

그래프의 축은 가능하면 0을 기준으로 한다.

수준과 비율은 명확히 구분

 

시간 당 등록되는 Youtube 비디오 길이 - 의심

4. 비교를 위한 도표 선택

범주형 category bar chart
비율 proportion pie graph (Nightingale's graph), donut graph, 
stacked-bar graph, grouped-bar graph, slope graph
상관관계 correlation scatter plot
분포 distribution histogram (fix bin sizes), kernel density estimation

5. 효과적인 비교방법

위치, 길이, 기울기, 각도, 면적, 부피, 색 순으로 비교가 어렵다.

 

길이, 각도, 면적

각각 4.75배, 3배, 6.25배가 더 크다.

6. 참고 블로그

- visualization 사례

flowingdata.com

http://polygraph.cool

 

- 바람직하지 못한 visualization 사례

WTF visualization

junkcharts - 자세한 평가

 

Google Analytics and Google Data Studio