행렬은 여러 원소를 사각틀 안에 격자형태로 배치하고 열과 행으로 각 원소를 구분하는 표기법이다.
여러 개의 숫자로 이루어져 있으므로, 사각행렬의 경우에는 몇 개의 숫자로으로 그 특징을 잡아내기도 한다.
Eigenvalue와 eigenvector의 행렬의 곱과 관련된 다음의 성질 때문에 dynamic system과 quadractic programming을 이해하는데 도움이 된다.
$$ A x = \lambda x \quad \Rightarrow \quad A^2 x = A \lambda x = \lambda A x = \lambda^2 x $$
통계모형에서 흔히 사용하는 기본개념이므로 익숙해지도록 노력해야 한다. 여기에서 이 성질을 시각화한 것을 볼 수 있다.
1. 선형차분연립방정식 linear difference equation system
선형차분연립방정식의 해가 존재한다면 해는 다음과 같다.
$$\begin{eqnarray}
x_t &=& A x_{t-1} + b \\
&=& A^t \left( x_0 - (I-A)^{-1} b \right)
\end{eqnarray}$$
따라서 차분방정식의 해를 구하기 위해서는 행렬의 곱에 대한 일반적인 표현이 필요하다.
1. 행렬의 곱
$$ A = \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix}, \quad A^2 = \begin{bmatrix} 5 & 4 \\ 4 & 5 \end{bmatrix}$$
그럼 $A^{100}$은 얼마일까?
가장 손쉽게 사용할 수 있는 계산 방법은 대각화를 이용한 행렬의 분해이다.
대각행렬의 곱은 실수의 곱만으로 계산이 가능하므로 그 성질을 이용한다.
2. Diagonalization
사각행렬 $B$를 $B = P^{-1} A P$와 같이 대각행열 $A$와 비특이행렬 $P$의 곱으로 표시할 수 있다면 B는 대각화가능행렬이라고 한다.
대각화의 조건 중에서 $A$가 대칭행렬이고 모든 원소가 실수라는 조건을 가장 흔히 가정한다. 이 경우 다음과 같은 조건을 만족하는 orthogonal matrix $Q$가 존재한다.
$$Q^\intercal A Q = \Lambda, \quad A = Q \Lambda Q^\intercal$$
$Q^\intercal Q = I$ 이므로
$$ A^t = \left(Q \Lambda Q^\intercal \right)^t = \left(Q \Lambda Q^\intercal \right) \cdots\left(Q \Lambda Q^\intercal \right)
= Q \Lambda Q^\intercal Q \Lambda Q^\intercal Q \Lambda Q^\intercal \cdots Q \Lambda Q^\intercal = Q \Lambda^t Q^\intercal$$
$\Lambda$는 대각원소들이 eigenvalue인 대각행렬이므로 행렬의 곱을 쉽게 계산할 수 있다.
잘 살펴보면 어떤 eigenvalue의 절대값이 0보다 작으면 해당 $x_i$는 0으로 수렴하는 것을 알 수 있다.
유사한 유도과정을 통해 선형미분연립방정식 linear differential equation system의 경우 모든 eigenvalue의 부호가 음수이면 system이 수렴한다는 것을 보일 수 있다.
2. 목적함수가 quadractic form인 최적화 문제의 해
Quadratic programming의 일반적인 형태는 다음과 같다.
$$ \min_x \frac{1}{2} x^\intercal A x + c^\intercal x \\
\text{subject to } Bx = b $$
이 문제에서 $c=0$, $x$를 unit vector로 제한하면 극소화된 함수값은 eigenvalue 중 가장 작은 값이 된다.
$$\begin{eqnarray} \min_x x^\intercal A x &=& \min_x x^\intercal Q \Lambda Q^\intercal x
= \min_x (Q^\intercal x)^\intercal \Lambda (Q^\intercal x) \\
&=& \min_y y^\intercal \Lambda y = \min_y \sum_i \lambda_i y^2_i = \lambda_{min} \end{eqnarray}$$
$\lambda_i$는 행렬 $A$의 $i$번째 eigenvalue이므로 마지막 등호가 성립한다.
$$ \sum_i \lambda_i y^2_i \ge \sum_i \lambda_{min} y^2_i = \lambda_{min} \sum_i y^2_i = \lambda_{min}$$
$$ \left\Vert Q^\intercal x \right\Vert = x^\intercal Q Q^\intercal x = \left\Vert x \right\Vert $$
이 두 번째 성질은 principal component analysis나 linear discriminant analysis의 유도과정 뿐아니라 안면인식과 같은 분산이 관련된 최적화 문제에서 많이 사용한다.