비숍 10단원에 로그 가능도 함수를 분해한다. 이는 다음과 같이 분해된다. $$\ln p(\textbf{X}|\theta)=L(q,\theta)+KL(q||p) $$ 처음엔 왜 이렇게 분해되는 건지 좀 당황스럽다. 그런데 삽질을 조금 해보면 1) 로그 가능도 함수를 잠재 변수 $z$에 대해 marginalize를 해준 것에 젠센 부등식을 사용해서 나오는 하한을 $L(q,\theta)$로 잡은 것이다. 그리고 2) 로그 가능도 함수에 $L(q,\theta)$를 빼주면 KL divergence가 나온다. 이를 알기 위해서는 젠센 부등식, 깁스 부등식, KL divergence가 무엇인지 알아보자. KL Divergence (Kullback-Leibler divergence) 이산확률분포 $P, Q$에 대해 ..