Paper Link: https://arxiv.org/abs/1811.00250
Github: https://github.com/he-y/filter-pruning-geometric-median
Introduction
본 논문은 CVPR 2019에서 발표된 filter pruning 논문입니다. Pruning은 종류에 따라서 개별적인 weight을 없애는 unstructured pruning, 모델의 architecture(filter, subkernel, channel...)를 없애는 structured pruning이 있습니다. 그 중에서 가장 regularity가 높은 filter pruning은 모델을 경량화할 뿐만 아니라 가속화에도 상당한 이점을 줍니다. 본 논문은 기존에 제시된 연구들에서 차용하는 "small-norm-less-important" criterion에 대해 분석하고, 이것이 갖는 한계점들을 비판하며 "geometric median"이라는 새로운 criteron을 제시하였습니다.
Analysis of Norm-based Criterion
윗 그림은 norm-based criterion을 잘 활용하려면 주어져야 할 두가지 전제에 대해 이야기하고 있습니다.
1. norm의 분산이 충분히 커야 한다.
2. norm값들 중 가장 작은 값은 0에 가까워야 한다.
하지만 training시에, norm이 꽤 강력해 보이는 두 전제를 항상 만족하는 것은 어려워보입니다. 논문에서는 다음과 같은 두 경우를 짚습니다.
첫 번째로는 norm의 분산이 작은 경우입니다. 이 경우에는 norm의 interval이 작기 때문에 pruning할 때 적절한 threshold를 잡기 힘든 문제점이 있습니다.
두 번째는 minimum norm이 0보다 훨씬 큰 값을 가지는 경우입니다. 이 경우에는 "분포 내에서" 작은 값을 가지는 filter들이 실질적으로는 모두 큰 값을 갖고, 큰 값을 갖는 norm은 많은 정보를 갖고 있기 때문에 해당 filter를 pruning을 하게 되면 network에 큰 accuracy drop을 가져올 수 있는 문제점이 있습니다.
논문에서는 ResNet-110과 ResNet-18의 첫 번째 그리고 마지막 convolution layer의 norm distribution을 보았을 때 특정값에 집중되어 있어 분산이 작다던가, minimum norm값이 0보다 훨씬 큰 값을 갖는 경우가 있는 것을 보여주었습니다. 이를 통해 norm-based criterion은 한계를 갖고 있다는 것을 practical하게 보여주었고, 이 점을 해결하기 geometric median에 기반한 filter pruning 기법을 소개하였습니다.
Filter Pruning via Geometric Median
Geometric median은 R^d에 n개의 점이 주어졌을 때, 이들의 sum of euclidean distance를 최소화 시켜주는 점을 찾는 문제입니다. 이는 다음과 같습니다.
이를 사용하게 되면 임의의 euclidean space내에서 어떤 녀석들이 흔히 분포돼있는 지에 robust하게 추정할 수 있습니다. 여기서 우리가 해결하려는 문제로 포맷을 조금 바꿔주면, 특정 layer에서 필터들이 어떤 정보를 많이 갖고 있는 지에 대해서 추정을 할 수 있습니다.
그리고 그 layer내에서 geometric median주위에 있는 filter들을 찾게 된다면 이들은 다 비슷한 정보를 갖고 있을 것이라 생각할 수 있고, 이들을 pruning하면 network performance에는 큰 영향을 끼치지 않으면서 효율적으로 pruning을 진행할 수 있게됩니다.
우리의 경우에는 i번째 layer의 filter들 중에 있으니까 이 문제는 다음과 같이 됩니다.
이제 윗 식을 만족하는 pruning 알고리즘을 하나 생각해본다면 이는 다음과 같습니다.
Experiments
실험은 CIFAR-10, ILSVRC-2012 dataset에 대해 VGGNet, ResNet model을 이용하여 진행됐습니다. FPGM-only는 본 논문에서 제시된 방법만을 사용한 것이고, FPGM-mix 40%는 30%는 norm-based criterion으로 나머지 10% 제시된 방법으로 pruning을 한 것입니다.
모든 경우에 대해 제시된 방법이 outperform하는 것을 볼 수 있습니다.
Feature Map Visualization
ResNet-50의 첫 번째 convolution layer의 feature map을 시각화한 것입니다. 빨간 박스가 쳐진 것이 이제 pruning할 것들인데, 이들은 모두 사진에서 대나무, 판다 머리 그리고 몸통의 outline을 갖고 있습니다. 다른 feature map을 봤을 때, 충분히 대체될 수 있는 녀석들입니다. 이런 redundancy를 줄이기 위해 geometric median을 통해 pruning을 도입한 것이 적절했다고 분석할 수 있었습니다.
Summary
- Norm-based filter pruning은 제약이 있음
- Geometric median을 이용하면 이를 해결 가능
- 실험적으로 다른 기법들을 outperform함
- 시각화를 통해 설명이 가능함