파이썬을 이용하여 커널법 배우기/선형 주성분 분석 이론

$d$ 차원 벡터 샘플 집합 $𝐗 = [𝐱_{1}, \dots, 𝐱_{l}]^{⊤} \in ℜ^{d \times l}$ 가 있다고 하자. 이 샘플 집합과의 거리의 합이 가장 적은 하나의 벡터를 $𝐱_{0}$ 라 하면, 이는 제곱오차(squared-error) 척도 $J_{0} (𝐱_{0})$ 를 최소화하는 값이다.

J_{0} (𝐱_{0}) = \sum_{k = 1}^{l} | | 𝐱_{0} - 𝐱_{k} | |^{2}

이 문제의 최적값은 샘플의 평균 값 $𝐦$ 으로 구할 수 있는데 (즉 $𝐱_{0} = 𝐦$ ),

𝐦 = \frac{1}{l} \sum_{k = 1}^{l} 𝐱_{k}

다음과 같이 쉽게 증명할 수 있다.

\begin{matrix} J_{0} (𝐱_{0}) & = \sum_{k = 1}^{l} | | (𝐱_{0} - 𝐦) - (𝐱_{k} - 𝐦) | |^{2} \\ = \sum_{k = 1}^{l} | | 𝐱_{0} - 𝐦 | |^{2} - 2 (𝐱_{0} - 𝐦)^{⊤} \sum_{k = 1}^{l} (𝐱_{k} - 𝐦) + \sum_{k = 1}^{l} | | 𝐱_{k} - 𝐦 | |^{2} \\ = \sum_{k = 1}^{l} | | 𝐱_{0} - 𝐦 | |^{2} + \underset{independent of 𝐱_{0}}{\underset{⏟}{\sum_{k = 1}^{l} | | 𝐱_{k} - 𝐦 | |^{2}}} . \end{matrix}

$𝐯$ 를 특정 방향을 나타내는 단위 벡터라 하자. 샘플 $𝐱_{i}$ 는 샘플 평균 $𝐦$ 에서 $𝐯$ 방향으로 $a_{i}$ 만큼 이동했다고 표현할 수 있다.

𝐱_{i} = 𝐦 + a_{i} 𝐯

만약 이 값을 만족시키는 최적의 $a_{i}$ 집합은 앞에서와 마찬가지로 제곱오차 척도를 최소화하는 값으로 구할 수 있다.

\begin{matrix} J_{1} (a_{1}, \dots, a_{l}, 𝐯) & = \sum_{k = 1}^{l} | | (𝐦 + a_{k} 𝐯) - 𝐱_{k} | |^{2} \\ = \sum_{k = 1}^{l} | | a_{k} 𝐯 - (𝐱_{k} - 𝐦) | |^{2} \\ = \sum_{k = 1}^{l} a_{k}^{2} | | 𝐯 | |^{2} - 2 \sum_{k = 1}^{l} a_{k} 𝐯^{⊤} (𝐱_{k} - 𝐦) + \underset{independent of J_{1}}{\underset{⏟}{\sum_{k = 1}^{l} | | 𝐱_{k} - 𝐦 | |^{2}}} \end{matrix}

위 식을 $a_{i}$ 에 대해서 편미분 수행하고, $| | 𝐯 | |^{2} = 1$ 이란 사실을 통해 다음 식을 얻을 수 있다.

\frac{\partial}{\partial a_{i}} J_{1} (a_{1}, \dots, a_{l}, 𝐯) = 2 a_{i} - 2 𝐯^{⊤} (𝐱_{i} - 𝐦)

목적함수 $J_{1}$ 을 최소화하는 값은 식 위식이 0인 경우이다. 따라서 최적의 값을 다음과 같다.

a_{i} = 𝐯^{⊤} (𝐱_{i} - 𝐦)

공분산 행렬 $𝐂$ 를 다음과 같이 정의하고,

𝐂 = \sum_{k = 1}^{l} (𝐱_{k} - 𝐦) (𝐱_{k} - 𝐦)^{⊤}

식 ()과 ()를 식 ()에 대입하면 다음 식을 얻을 수 있다.

\begin{matrix} J_{1} (𝐯) & = \sum_{k = 1}^{l} a_{k}^{2} - 2 \sum_{k = 1}^{l} a_{k}^{2} \\ = - \sum_{k = 1}^{l} 𝐯^{⊤} (𝐱_{k} - 𝐦) (𝐱_{k} - 𝐦)^{⊤} 𝐯 \\ = - 𝐯^{⊤} 𝐂 𝐯 \end{matrix}

이제 위 식의 최소화 문제는 $𝐯^{⊤} 𝐂 𝐯$ 의 최대화 문제로 해결 가능하다. 라그랑제 승수(Lagrange multipliers) $λ$ 를 이용하여 다음 식을 나타내고,

L (λ, 𝐯) = 𝐯^{⊤} 𝐂 𝐯 - λ (𝐯^{⊤} 𝐯 - 1)

$𝐯^{⊤} 𝐂 𝐯$ 최대화 문제는 위 식을 $𝐯$ 로 미분하여 얻을 수 있다.

\frac{\partial L}{\partial 𝐯} = 2 𝐂 𝐯 - 2 λ 𝐯

위 식을 0으로 설정하면, $J_{1}$ 최소화 문제는 공분산 행렬 $𝐂$ 의 고유값 문제로 해결 가능하다.

𝐂 𝐯 = λ 𝐯

실제로 $𝐯^{⊤} 𝐂 𝐯 = λ 𝐯^{⊤} 𝐯 = λ$ 이기 때문에 가장 큰 고유값에 대응하는 고유벡터가 최적의 값이 된다. 또한 고유값의 내림차순에 대응하는 고유벡터 몇개를 취함으로써 목적함수 $J_{1}$ 을 더욱 만족시킬 수 있다. 여기서 선택된 고유벡터를 주성분(principal components)라 한다.

주성분 즉, $q$ 개의 선택된 고유값을 $𝐕 = [𝐯_{1}, \dots, 𝐯_{q}] \in ℜ^{d \times q}$ 라 하면, 이 주성분으로 특징 샘플 $𝐲 \in ℜ^{d}$ 을 사상하면 $P_{V} (𝐲)$ 를 얻을 수 있다.

P_{V} (𝐲) = 𝐕^{⊤} (𝐲 - 𝐦) \in ℜ^{q}

또한 원래 샘플 복원은 다음과 같이 수행한다.

𝐲^{'} = 𝐕 𝐕^{⊤} (𝐲 - 𝐦) + 𝐦

여기서 $𝐲^{'}$ 는 복원된 샘플을 의미한다.

파이썬을 이용하여 커널법 배우기/선형 주성분 분석 이론

둘러보기 메뉴

검색