반응형
Paper Link: https://arxiv.org/abs/1611.01232
- mean field theory를 이용해 randomly initialized된 untrained neural network의 behavior를 연구함
- signal propagation의 maximum depth가 존재함을 보임
- information이 network의 끝까지 전파되면 잘 훈련됨을 practical하게 보임
- 즉, depth scale은 network를 얼마나 깊게 할 수 있는 지에 대한 bound를 보여줌
- 그런데 depth scale이 발산할 수도 있음
- 발산하면 정보가 끝까지 잘 전파되지 않아 학습이 잘 안됨
- dropout을 쓰면 critical point(?)를 파괴해, random network의 maximum trainable depth를 제한함
- backprop에 대한 mean field theory를 개발하여 ordered phase와 chaotic phase가 각각 vanishing gradient와 exploding gradient에 대응되는 걸 보임
반응형
'연구 > 읽을 논문' 카테고리의 다른 글
[ICML 2016] Expressiveness of Rectifier Networks (0) | 2020.04.27 |
---|---|
[USENIX 2018] Meltdown (0) | 2020.04.17 |