Paper Link:https://arxiv.org/abs/1802.03494
Introduction
- Model Compression을 위해서 AutoML, 그 중에서도 강화학습을 이용한 논문이다.
- Model Compression중에서 Channel Pruning을, Agent로는 DDPG model을 이용했다.
Method
- State space는 위와 같다.
- Action space는 continuous하게 설계햇다.
- 여기서 action은 얼마나 pruning을 할거냐를 묻는 것이다.
- 이전 연구들이 action space를 discrete하게 설계를 하니, compression ratio와 accuracy를 둘 다 옵티멀하게 가져가지 못하는 것 같아서 continous하게 설계했다고 한다.
DDPG Agent
1. 에이전트는 t번째 레이어의 embedding state s_t를 받는다.
2. 에이전트는 action으로 sparsity ratio를 뱉는다.
3. 에이전트는 (t+1)번째 레이어로 이동하고, state s_(t+1)을 받는다.
4. 1-3을 마지막 레이어까지 진행하고난 뒤, validation set으로 reward accuracy를 측정한다. (fine-tuning없이 측정한다.)
5. 그리고 이걸 에이전트에게 보낸다.
- Search Protocol로 Resource와 Accuracy를 고려했다.
Resource-Constrained Compression
- Action space를 제한하여, target sparsity ratio를 맞춰주었다.
- Agressive한 전략으로 레이어를 압축한 이후에도, budget이 충분하지 않은 경우에는 action space를 추가적으로 제한했다.
Accuracy-Guranteed Compression
- Reward function은 에러에 민감하다.
- FLOPs과 모델 사이즈를 줄이는 것이 작은 인센티브가 되어 이를 키우기 위해 reward function을 위와 같이 설계했다.
Algorithm for AMC