# Chap 3.2 (Bias-Variance Decomposition)
- 기저 함수의 갯수와 형태가 고정돼있는 회귀 선형 모델에 관해 이야기했는데, 이는 데이터가 제한돼있는 상태에서 복잡한 모델 (파라미터가 많은 모델)을 학습시키는 경우 오버피팅이 일어날 수 있음.
1. 에러 함수에 정규화 항을 넣는 경우, 정규화 효과로 인해 오버피팅을 방지할 수 있지만 정규화 계수를 설정해주는 것이 문제가 됨. (하이퍼파라미터)
2. 파라미터를 줄이는 경우, 즉 기저 함수를 줄여 오버피팅을 방지할 수 있지만 이는 모델이 데이터의 피쳐를 잘 학습하는 것을 방해할 수 있음. (모델 의 표현력)
3. 가중치 벡터 $\textbf{w}$와 정규화 계수 $\lambda$에 대해 정규화된 에러 함수를 최소화하는 것은 정규화 계수 $\lambda$를 0으로 만들어 정규화되지 않은 에러 함수를 최적화하는 것과 같아 적합하지 않는 접근법이다.
- 오버피팅은 MLE의 데이터에 의존하는 특성 때문에 일어난다. 베이지안 셋팅을 사용하는 경우 파라미터를 marginalize해주기 때문에 발생하지 않음.
- 이번 장에서는 모델 복잡도를 '빈도론자' 관점에서 보는, **'Bias-Variacne Dcomposition'**에 대해 알아볼 것임.
- 이전 챕터에서 최적의 예측 모델을 만들기 위해 조건부 분포 $p(t|\textbf{x})$를 이용하여 손실 함수를 만들었다. 손실 함수에서 주로 사용되는 **'squared loss function'**을 이용하여 다음과 같은 식을 얻었음.
$$\displaystyle h(\textbf{x})=\mathbb{E}[t|\textbf{x}]=\int tp(t|\textbf{x}) dt$$
- 여기서 '결정이론'에서 **'squared loss function'**과 모델의 파라미터에 MLE를 사용하기 위해 **'sum-of-squares error function'**을 구분하는 것이 좋음.
- 1.5.5절에서 'expected squared loss'는 다음과 같은 형태로 쓸 수 있다.
$$\displaystyle \mathbb{E}[L]=\int \{y(\textbf{x})-h(\textbf{x})\}^{2}p(\textbf{x})d\textbf{x}+\int\{h(\textbf{x})-t \}^{2}p(\textbf{x},t)d\textbf{x}dt$$
- 위 식의 두 번째 항은 $y(\textbf{x})$와 독립적으로 데이터에 내재적인 노이즈를 뜻한다. 이는 expected loss가 가질 수 있는 최솟값이 된다.
- 위 식의 첫 번째 항은 $y(\textbf{x})$를 뭘 선택하냐에 따라 달라짐.
1. 음수가 아닌 값이기 때문에 0으로 만드는 것이 목표.
2. 데이터를 무한정 사용하면 원하는 원하는 정확도에 도달할 수 있게끔 $h(\textbf{x})$를 찾을 수 있음. 이것이 최적의 $y(\textbf{x})$를 선택한 것을 나타냄.
2-1. 실제로는 데이터가 제한돼있기 때문에 우리는 $h(\textbf{x})$를 정확히 알 수 없음. 근사할 뿐임.
- 매개변수화된 함수 $y(\textbf{x},\textbf{w})$로 $h(\textbf{x})$를 모델링하는 경우, **베이지안 관점**에서 모델의 불확실성은 $\textbf{w}$에 대한 사후분포를 통해 표현됨.
- 반면, **빈도론자 관점**에서는 데이터 집합에 기반하여 갖고 있는 가중치 $\textbf{w}$로 추정하고 실험을 여러번 반복하여 불확실성을 추정하려고 함.
>> 이 두가지 점이 베이지안과 빈도론자의 차이를 보여줌.
베이지안: 사후 분포로 알아보자.
빈도론자: 실험 때려박자.
- 데이터 집합을 $\mathcal{D}$라 하고 $\mathbb{E}[L]$의 첫 번째 항을 다음과 같이 작성해보자.
$$\displaystyle \{y(\textbf{x};\mathcal{D})-h(\textbf{x})\}^{2}$$
- 이 값은 데이터 집합에 디펜드 함. 이 식 내부에서 $\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D}]$를 더하고 뺀 뒤 전개하면 다음과 같음.
$$\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]+\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2} \\ = \{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]\}^{2}+\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2} \\ +2\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})\}\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}$$
- 여기서 $\mathcal{D}$에 대해 기대값을 취해주면, 마지막 항은 사라질 것이고 식은 다음과 같이 정리된다.
$$\mathbb{E}_{\mathcal{D}}[\{y(\textbf{x};\mathcal{D})-h(\textbf{x}\}^{2}] \\=\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2}+\mathbb{E}_{\mathcal{D}}[\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]\}^{2}]$$
- 첫 번째 항은 **squared bias**라고 불린다.
- 이는 desired regression function $h(\textbf{x})$와 전체 데이터 집합에 대한 prediction function $y(\textbf{x};\mathcal{D})$의 다른 정도를 평균낸 값으로 볼 수 있음.
- 두 번째 항은 **variance**라고 불린다.
- 이는 각 데이터 집합에 대해 솔루션 $y(\textbf{x};\mathcal{D})$이 평균 주변에서 얼마나 변하는지 그 정도를 나타냄. 즉, 모델이 데이터 집합에 대해 민감한 정도를 나타냄.
- 이를 요약하면 아래와 같음.
$$expected\;loss=(bias)^{2}+variance+noise$$
'인공지능 > 패턴인식' 카테고리의 다른 글
Log Likelihood Decomposition for EM (로그 가능도 함수 분해) (0) | 2020.10.05 |
---|