인공지능/패턴인식

편향-분산 분해 (Bias-Variance Decomposition)

xeskin 2020. 9. 3. 15:07
반응형

# Chap 3.2 (Bias-Variance Decomposition)

 

- 기저 함수의 갯수와 형태가 고정돼있는 회귀 선형 모델에 관해 이야기했는데, 이는 데이터가 제한돼있는 상태에서 복잡한 모델 (파라미터가 많은 모델) 학습시키는 경우 오버피팅이 일어날 있음.

1. 에러 함수에 정규화 항을 넣는 경우, 정규화 효과로 인해 오버피팅을 방지할 있지만 정규화 계수를 설정해주는 것이 문제가 . (하이퍼파라미터)

2. 파라미터를 줄이는 경우, 기저 함수를 줄여 오버피팅을 방지할 있지만 이는 모델이 데이터의 피쳐를 학습하는 것을 방해할 있음. (모델 표현력)

3. 가중치 벡터 $\textbf{w}$ 정규화 계수 $\lambda$ 대해 정규화된 에러 함수를 최소화하는 것은 정규화 계수 $\lambda$ 0으로 만들어 정규화되지 않은 에러 함수를 최적화하는 것과 같아 적합하지 않는 접근법이다.

- 오버피팅은 MLE 데이터에 의존하는 특성 때문에 일어난다. 베이지안 셋팅을 사용하는 경우 파라미터를 marginalize해주기 때문에 발생하지 않음.

- 이번 장에서는 모델 복잡도를 '빈도론자' 관점에서 보는, **'Bias-Variacne Dcomposition'** 대해 알아볼 것임.

- 이전 챕터에서 최적의 예측 모델을 만들기 위해 조건부 분포  $p(t|\textbf{x})$ 이용하여 손실 함수를 만들었다. 손실 함수에서 주로 사용되는 **'squared loss function'** 이용하여 다음과 같은 식을 얻었음.

 

$$\displaystyle h(\textbf{x})=\mathbb{E}[t|\textbf{x}]=\int tp(t|\textbf{x}) dt$$

 

- 여기서 '결정이론'에서 **'squared loss function'** 모델의 파라미터에 MLE 사용하기 위해 **'sum-of-squares error function'** 구분하는 것이 좋음.

- 1.5.5절에서 'expected squared loss' 다음과 같은 형태로 있다.

 

$$\displaystyle \mathbb{E}[L]=\int \{y(\textbf{x})-h(\textbf{x})\}^{2}p(\textbf{x})d\textbf{x}+\int\{h(\textbf{x})-t \}^{2}p(\textbf{x},t)d\textbf{x}dt$$

 

- 식의 번째 항은 $y(\textbf{x})$ 독립적으로 데이터에 내재적인 노이즈를 뜻한다. 이는 expected loss 가질 있는 최솟값이 된다.

- 식의 번째 항은 $y(\textbf{x})$ 선택하냐에 따라 달라짐.

1. 음수가 아닌 값이기 때문에 0으로 만드는 것이 목표.

2. 데이터를 무한정 사용하면 원하는 원하는 정확도에 도달할 있게끔 $h(\textbf{x})$ 찾을 있음. 이것이 최적의 $y(\textbf{x})$ 선택한 것을 나타냄.

2-1. 실제로는 데이터가 제한돼있기 때문에 우리는 $h(\textbf{x})$ 정확히 없음. 근사할 뿐임.

- 매개변수화된 함수 $y(\textbf{x},\textbf{w})$ $h(\textbf{x})$ 모델링하는 경우, **베이지안 관점**에서 모델의 불확실성은 $\textbf{w}$ 대한 사후분포를 통해 표현됨.

- 반면, **빈도론자 관점**에서는 데이터 집합에 기반하여 갖고 있는 가중치 $\textbf{w}$ 추정하고 실험을 여러번 반복하여 불확실성을 추정하려고 .

>> 두가지 점이 베이지안과 빈도론자의 차이를 보여줌.

베이지안: 사후 분포로 알아보자.

빈도론자: 실험 때려박자.

- 데이터 집합을 $\mathcal{D}$ 하고 $\mathbb{E}[L]$ 번째 항을 다음과 같이 작성해보자.

 

$$\displaystyle \{y(\textbf{x};\mathcal{D})-h(\textbf{x})\}^{2}$$

 

- 값은 데이터 집합에 디펜드 . 내부에서  $\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D}]$ 더하고 전개하면 다음과 같음.

 

$$\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]+\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2} \\ = \{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]\}^{2}+\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2} \\ +2\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})\}\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}$$

 

- 여기서 $\mathcal{D}$ 대해 기대값을 취해주면, 마지막 항은 사라질 것이고 식은 다음과 같이 정리된다.

 

$$\mathbb{E}_{\mathcal{D}}[\{y(\textbf{x};\mathcal{D})-h(\textbf{x}\}^{2}] \\=\{\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]-h(\textbf{x})\}^{2}+\mathbb{E}_{\mathcal{D}}[\{y(\textbf{x};\mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\textbf{x};\mathcal{D})]\}^{2}]$$

 

- 번째 항은 **squared bias**라고 불린다.

- 이는 desired regression function $h(\textbf{x})$ 전체 데이터 집합에 대한 prediction function $y(\textbf{x};\mathcal{D})$ 다른 정도를 평균낸 값으로 있음.

- 번째 항은 **variance**라고 불린다.

- 이는 데이터 집합에 대해 솔루션 $y(\textbf{x};\mathcal{D})$ 평균 주변에서 얼마나 변하는지 정도를 나타냄. , 모델이 데이터 집합에 대해 민감한 정도를 나타냄.

- 이를 요약하면 아래와 같음.

 

$$expected\;loss=(bias)^{2}+variance+noise$$

반응형