Self-training with Noisy Student improves ImageNet classification

ディープラーニングは、近年の画像認識で顕著な成功を示しているが最新のモデルは、教師付き学習で訓練されており、適切に機能するにはラベル付き画像の大きなコーパスが必要。
最先端のモデルの精度と堅牢性を向上させるためには、ラベルなし画像も大量に使用するできるようにしたい。

ImageNetで87.4％のtop1精度を達成した簡単な自己学習方法。

ラベル付き画像 { $(x_1,y_1),(x_2,y_2),(x_n,y_n)$ } とし,ラベルなし画像を{ $x_1,x_2,...,x_m$ }とする。

ラベル付き画像を使用して、一般の Cross Entropy Loss を使用して教師モデルを学習。

次に、教師モデルを使用して、ラベルなし画像に擬似ラベルをつける。

次に、ラベル付き画像とラベルなし画像の両方の Cross Entropy Loss の合計を最小化するStudentモデルを学習。
この時Studentモデルにはノイズ（RandAugment、Dropout、Stochastic Depth）を加えて学習させる。

最後に、新しい疑似ラベルを生成し、新しいStudentモデルを訓練するために、StudentモデルをTeacherモデルとして戻すことで処理を繰り返す。

ImageNetで87.4％のtop1精度を達成した。

ココアのお勉強ブログ