반응형

인공지능/Etc 5

Epoch, Step, Batch size

Epoch: 전체 데이터를 1회 훑어 학습하는 거. Step: 파라미터를 1회 업데이트하는 거. Batch size: Step 1회에 사용되는 데이터 개수. 훈련하고 싶은 데이터가 2048개 있는 경우 Batch size를 32로 잡으면 한 Epoch에 몇 번의 Step이 필요한가? 2048/32 = 64 Step (number_of_data/batch_size=number_of_step) 위의 가정을 그대로 가져오고 100 Epoch 학습을 시킨다면 파라미터는 몇 번 업데이트 되는가? 64*100 = 6400 훈련하고 싶은 데이터가 2048개 있고, Batch size를 16으로 잡고, 10 Epoch 학습을 시키면 파라미터는 몇 번 업데이트 되는가? (2048/16)*10 = 1280 *보통 step..

인공지능/Etc 2020.05.17

CNN 모델 간단 정리

GoogLeNet (ILSVRC 2014) - AlexNet이 갖는 computation cost를 줄이기 위해 FC layer를 AvgPooling으로 대체 (Network In Network) - Inception 모듈 도입 > 모델이 깊어짐에 따른 경사 소실/폭발로 인한 성능 저하 ResNet (ILSVRC 2015) - 깊은 신경망을 효율적으로 학습시키기 위한 residual connection 도입 DenseNet (CVPR 2017) - residual connection을 개선한 dense connectivity 도입 SENet (ILSCRC 2017) - Recalibration을 위해 어떤 채널이 중요한지 고려하는 self attetion 모듈 도입 > 모델 성능이 향상되었지만 모델 사이..

인공지능/Etc 2020.01.19

MLE (Maximum Likelihood Estimation)

Intro 우리는 흔히 머신러닝 공부를 하다보면 MLE, MAP를 접해보게 될 기회가 많습니다. 다른 기초가 없이 공부를 할 때 MLE, MAP와 같은 것을 접한다면 꽤나 난감합니다. 머신러닝, neural network를 갖고 우리가 원하는 것은 training data를 갖고 그게 DNN, CNN, RNN이든 뭐든간에 적당한 함수를 하나 잘 근사하는 것입니다. 하지만 이걸 확률의 관점으로 본다면 우리는 true probability distribution을 찾는 과정으로 생각을 할 수가 있습니다. 그러면 우린 여기서 이 distribution을 표현하는 parameter를 어떻게 찾을 것인가에 대한 need가 생기는데, 여기서 MLE나 MAP라는 방법론을 사용합니다. MLE 압정을 던졌을 때 압정이 ..

인공지능/Etc 2019.10.12

Information Theory

정보이론은 1948년 Claude Shannon이 이라는 논문을 통해 창시한 이론입니다. Shannon은 어떻게 하면 통신채널 간의 정보를 '잘' 주고받을 수 있을지 고민을 했었습니다. Shannon은 이 논문에서 통신채널의 입력과 출력을 확률변수로 모델링하고 통신채널은 이들 사이의 변환으로 모델링하였습니다. 머신러닝을 공부할 때, 특히 밀도 추정(특히 생성모델)을 공부할 때 KL Divergence라는 용어를 많이 보셨을 겁니다. 간단한 예로 시작하여 self-information, entopy, KL Divegence 등이 무엇인지 알아보도록 하겠습니다. 정보이론에서는 발생 가능성이 적은 사건에 대해서 발생 가능성이 큰 사건을 아는 것보다 더 많은 정보를 얻을 수 있다고 생각합니다. 예를 들어서, "..

인공지능/Etc 2019.08.04
반응형