반응형

2020/01 10

CNN 모델 간단 정리

GoogLeNet (ILSVRC 2014) - AlexNet이 갖는 computation cost를 줄이기 위해 FC layer를 AvgPooling으로 대체 (Network In Network) - Inception 모듈 도입 > 모델이 깊어짐에 따른 경사 소실/폭발로 인한 성능 저하 ResNet (ILSVRC 2015) - 깊은 신경망을 효율적으로 학습시키기 위한 residual connection 도입 DenseNet (CVPR 2017) - residual connection을 개선한 dense connectivity 도입 SENet (ILSCRC 2017) - Recalibration을 위해 어떤 채널이 중요한지 고려하는 self attetion 모듈 도입 > 모델 성능이 향상되었지만 모델 사이..

인공지능/Etc 2020.01.19

Tool for Model Compression

(2020.05.11 수정) Google - ML Kit (https://developers.google.com/ml-kit) - 구글에서 제공하는 모델 압축 툴 - 구체적으로 어떤 알고리즘을 사용하고 있는지 제시하지 않음 Tencent - Pocket Flow (www.github.com/Tencent/PocketFlow) - MIT의 Song.Han이 주도하여 진행하는 텐센트의 모델 압축 툴 - Tensorflow를 지원함 - 공식 docs를 제공함(www.pocketflow.github.io) Intel - Neural Network Distiller (https://github.com/NervanaSystems/distiller) - 인텔에서 제공하는 모델 압축 툴 - Pytorch를 지원함 - ..

잡동사니 2020.01.17

[동성로] 유이쯔

유투브에서 백종원 영상보다 땡겨서 텐동 먹으러 유이쯔 왔습니다. 도마29 사장님이 오픈한 곳이랍니다. 믿고 와봄. 갔더니 웨이팅이 있어서 예약해두면 불러준답니다. 기다렸다가 텐동, 장어텐동, 양배추 샐러드, 생맥주 1잔 시켰습니다. 메뉴판이 코팅돼있어서 깔끔하네요. 내부 모습입니다. 그림은 사장님인 것 같습니다. 저것만 보면 김광석 닮음. 바로 미소된장국이 나옵니다. 칼칼해요. 이어서 텐동도 나옵니다. 텐동(0.9) 장어텐동(1.3) 장어가 엄청 커요. 중간에 있는 양배추 샐러드가 완맛. 마냥 달달한 샐러드가 아니라 소스에 땅콩이 들어가서 고소해요. 두번이나 리필해먹음. 장어튀김 단면 장어는 반 잘라서 몸통 부분은 친구 줬습니다. (꼬리가 더 맛있어서가 아니..) 새우튀김 단면 새우가 탱탱해요. 꼭 드세..

일상/음식 2020.01.14

Deep Compression, Image Compression

Song Han이 제안한 deep compression 방법은 neural network를 pruning > quantization(look-up table) > huffman coding 을 통해 압축하는 방법이다. 그런데, 이 방법이 그냥 경량화 할 수 있는 거 다 때려박은 게 아니라 기존에 있는 걸 그대로 가져다 쓴 거라고 한다. 그럼 어디서 쓰였던 거냐면, 이게 image compression에서 쓰이는 방법이랑 똑같다고 한다. Image compression도 총 3단계로 이뤄진다. DCT(Discrete Cosine Transformation) > quantization(look-up table) > huffman coding 이걸 보면 deep compression에서 제안한 방법과 prun..

잡동사니 2020.01.08

numpy, tensorflow vs pytorch

numpy vs pytorch - x, y, z 세 변수에 대해 학습하는 예시 생각 - 이때 gradient를 계산하기 위해 연산 그래프를 따라 미분 계산 - numpy는 모든 미분식을 직접 계산 후, 코드 작성 - pytorch는 backward()를 한번 호출해주면 끝 - 그리고 numpy는 GPU 사용이 불가능 (이부분이 크리티컬하다) tensorflow vs pytorch - 둘 다 GPU 사용 가능 - tensorflow는 연산 그래프를 먼저 만들고 실제 연산할 때 값을 전달하여 연산 결과를 얻음 - 연산 그래프를 만드는 부분과 연산하는 부분이 분리됨 - pytorch는 연산 그래프를 만듦과 동시에 값이 할당됨 - 연산 그래프와 연산을 분리해 생각할 필요가 없음 - tensorflow에 올라온 ..

컴퓨터/Etc 2020.01.07

[ICLR 2017] Deep Information Propagation

Paper Link: https://arxiv.org/abs/1611.01232 - mean field theory를 이용해 randomly initialized된 untrained neural network의 behavior를 연구함 - signal propagation의 maximum depth가 존재함을 보임 - information이 network의 끝까지 전파되면 잘 훈련됨을 practical하게 보임 - 즉, depth scale은 network를 얼마나 깊게 할 수 있는 지에 대한 bound를 보여줌 - 그런데 depth scale이 발산할 수도 있음 - 발산하면 정보가 끝까지 잘 전파되지 않아 학습이 잘 안됨 - dropout을 쓰면 critical point(?)를 파괴해, random ..

Mean-field theory 간단 정리

Formalism이 정확하게 있는 것이 아니라 fluctuation을 없애는 분석 방법을 mean-field라고 부른다. 고전적인 사례로는 다음이 있다. 저 논문은 neural network는 다루는 것이 아니라 노드를 하나씩 확률적으로 붙여가는 complex network인데, 그러면 샘플이 다양할 수가 있다. 근데, 매 샘플마다 하나의 example을 보는게 아니라 '평균적인 하나의 네트워크'처럼 보는 것. 그걸 mean-field라고 한다. 예전에 probabilistic method 수업을 들을 때 random graph에서 edge 갯수의 기댓값을 생각해서 하한을 보여서 그래프의 존재성 증명했던 것이 어렴풋이 기억나는데, 이런 sense와도 맞닿은 부분이 있는 것 같다. 통계역학(자유도 6N)에..

잡동사니 2020.01.03
반응형