연구/읽을 논문

[ICLR 2017] Deep Information Propagation

xeskin 2020. 1. 6. 04:51
반응형

Paper Link: https://arxiv.org/abs/1611.01232

- mean field theory를 이용해 randomly initialized된 untrained neural network의 behavior를 연구함

- signal propagation의 maximum depth가 존재함을 보임

- information이 network의 끝까지 전파되면 잘 훈련됨을 practical하게 보임

- 즉, depth scale은 network를 얼마나 깊게 할 수 있는 지에 대한 bound를 보여줌

- 그런데 depth scale이 발산할 수도 있음

- 발산하면 정보가 끝까지 잘 전파되지 않아 학습이 잘 안됨

- dropout을 쓰면 critical point(?)를 파괴해, random network의 maximum trainable depth를 제한함

- backprop에 대한 mean field theory를 개발하여 ordered phase와 chaotic phase가 각각 vanishing gradient와 exploding gradient에 대응되는 걸 보임

반응형

'연구 > 읽을 논문' 카테고리의 다른 글

[ICML 2016] Expressiveness of Rectifier Networks  (0) 2020.04.27
[USENIX 2018] Meltdown  (0) 2020.04.17