정보이론은 1948년 Claude Shannon이 이라는 논문을 통해 창시한 이론입니다. Shannon은 어떻게 하면 통신채널 간의 정보를 '잘' 주고받을 수 있을지 고민을 했었습니다. Shannon은 이 논문에서 통신채널의 입력과 출력을 확률변수로 모델링하고 통신채널은 이들 사이의 변환으로 모델링하였습니다. 머신러닝을 공부할 때, 특히 밀도 추정(특히 생성모델)을 공부할 때 KL Divergence라는 용어를 많이 보셨을 겁니다. 간단한 예로 시작하여 self-information, entopy, KL Divegence 등이 무엇인지 알아보도록 하겠습니다. 정보이론에서는 발생 가능성이 적은 사건에 대해서 발생 가능성이 큰 사건을 아는 것보다 더 많은 정보를 얻을 수 있다고 생각합니다. 예를 들어서, "..