반응형

인공지능/패턴인식 2

Log Likelihood Decomposition for EM (로그 가능도 함수 분해)

비숍 10단원에 로그 가능도 함수를 분해한다. 이는 다음과 같이 분해된다. $$\ln p(\textbf{X}|\theta)=L(q,\theta)+KL(q||p) $$ 처음엔 왜 이렇게 분해되는 건지 좀 당황스럽다. 그런데 삽질을 조금 해보면 1) 로그 가능도 함수를 잠재 변수 $z$에 대해 marginalize를 해준 것에 젠센 부등식을 사용해서 나오는 하한을 $L(q,\theta)$로 잡은 것이다. 그리고 2) 로그 가능도 함수에 $L(q,\theta)$를 빼주면 KL divergence가 나온다. 이를 알기 위해서는 젠센 부등식, 깁스 부등식, KL divergence가 무엇인지 알아보자. KL Divergence (Kullback-Leibler divergence) 이산확률분포 $P, Q$에 대해 ..

편향-분산 분해 (Bias-Variance Decomposition)

# Chap 3.2 (Bias-Variance Decomposition) - 기저 함수의 갯수와 형태가 고정돼있는 회귀 선형 모델에 관해 이야기했는데, 이는 데이터가 제한돼있는 상태에서 복잡한 모델 (파라미터가 많은 모델)을 학습시키는 경우 오버피팅이 일어날 수 있음. 1. 에러 함수에 정규화 항을 넣는 경우, 정규화 효과로 인해 오버피팅을 방지할 수 있지만 정규화 계수를 설정해주는 것이 문제가 됨. (하이퍼파라미터) 2. 파라미터를 줄이는 경우, 즉 기저 함수를 줄여 오버피팅을 방지할 수 있지만 이는 모델이 데이터의 피쳐를 잘 학습하는 것을 방해할 수 있음. (모델 의 표현력) 3. 가중치 벡터 $\textbf{w}$와 정규화 계수 $\lambda$에 대해 정규화된 에러 함수를 최소화하는 것은 정규화 ..

반응형