본문 바로가기

분류 전체보기

(5)
Eigenvalues & Eigenvectors 행렬은 여러 원소를 사각틀 안에 격자형태로 배치하고 열과 행으로 각 원소를 구분하는 표기법이다. 여러 개의 숫자로 이루어져 있으므로, 사각행렬의 경우에는 몇 개의 숫자로으로 그 특징을 잡아내기도 한다. Eigenvalue와 eigenvector의 행렬의 곱과 관련된 다음의 성질 때문에 dynamic system과 quadractic programming을 이해하는데 도움이 된다. $$ A x = \lambda x \quad \Rightarrow \quad A^2 x = A \lambda x = \lambda A x = \lambda^2 x $$ 통계모형에서 흔히 사용하는 기본개념이므로 익숙해지도록 노력해야 한다. 여기에서 이 성질을 시각화한 것을 볼 수 있다. 1. 선형차분연립방정식 linear diff..
python 관리 특별한 이유가 없다면 python 설치와 관리는 Anaconda를 사용하는 것이 편리하다. 설치 상의 어려움도 없고 특히 conda environment는 관리도 간편하다. Virtual environment의 필요성을 딱히 느끼지 못하다가 pymc를 설치하면서 therano와 씨름하다가 OS를 새로 깔았던 적이 있다. 이때 처음으로 conda environment를 사용하였는데 지금은 별 필요를 느끼지 못한다. 오래 전에 만들었던 code나 web에서 가져온 시간이 지난 code를 실행시키다보면 DeprecationWarning이나 module ... has no attribute ... 같은 오류를 볼 수 있다. 굳이 여러가지 version을 관리해야 하는 것이 아니라면 그때그때 손을 보는 것이 간편..
지식과 통계모형 Domain knonledge와 모형, 그리고 통계와 자료를 떼어놓고 생각하면 쉽게 사달이 난다. 1. 인과관계 교육기간과 임금은 어떤 방식으로던 관련이 있는 것이 일반적일 것이다. 이 관계를 파악하기 위해 다음 두 모형 중 어떤 것을 사용하는 것이 바람직할지 생각해 보자. $$\begin{eqnarray} &\text{years of education} = a + b \cdot \text{wage} + \varepsilon_1\\ \\ &\text{wage} = \alpha + \beta \cdot \text{years of education} + \varepsilon_2\\ \end{eqnarray}$$ 실험실에서 완벽한 통제하에 수집한 자료가 아니라면 통계적인 방법으로 인과관계를 설명하기 어렵다. ..
Colab setup Colab은 설치가 필요 없고, jupyter notebook과 98% 호완, 12GB memory, 100GB disk sapce, GPU(Nvidia K80s, T4s, P4s and P100s), TPU 등의 하드웨어 제공, 공동작업에 편리하다는 장점이 있다. Keras, Tensorflow, PyTorch 등의 설치와 이용 역시 어렵지 않다. Colab은 Google Drive와 GitHub gist, GitHub repository와 연동이 되어 있어 Google Drive의 Colab Notebooks folder에서 작업 파일을 생성하거나 저장하는 것은 별다른 설정이 필요 없다. 다만 자료 파일을 읽거나 결과물을 파일 형식으로 저장할 때 Colab VM의 drive에서 파일을 넣고 빼는 것이..
Visualization: Exploring & Explaining 이전 글에서 이어진다. 시각화는 기술통계로 보기 어려운 자료의 특징을 이해하고 자료의 정보를 직관적으로 전달하기 위해 사용한다. Anscombe's quartet은 상관계수의 의미를 시각화한 전설적이 예이다. 이후 아래와 같은 그림도 등장하였다. Exploratory Data Analysis로 구분하는 exploring기능은 다른 기회에 정리하고, 발표와 관련된 교과서적인 시각화 방법을 정리한다. 百聞이 不如一見 A picture is worth a thousand words 흔히 보는 infographics는 긴 설명이 필요한 내용을 간결하게 전달하는 것이 주목적이고, Data visualization은 양적 자료의 요약, 비교, 인과관계나 상관관계 설명에 주로 사용한다. 시각화와 같이 자주 등장하는 ..