データはどれくらいあれば足りるのか

Publish Date
Tags
日本語機械学習

深層学習はデータが多くてなんぼ

Courseraの機械学習コースの講師だったAndrew Ngは次の2本線を用いて深層学習と従来の機械学習の違いを説明しました。

image

従来の機械学習(ロジスティック回帰・SVM)では十分なデータが得られた後にパフォーマンスが停滞するが、深層学習は向上し続ける、という趣旨です。

逆にいうとデータが足りない場合はどちらの手法も対して変わらない、むしろ従来の機械学習の方が良いです。図中においても従来の機械学習(青線)と深層学習(赤線)が交差し、深層学習が優位になるまでは従来の機械学習の方がパフォーマンス高いというのは意図しているのでしょう。

どれくらいデータがあれば良いのか

どこから深層学習に切り替わるべきなのか

「十分なデータ」とはどれくらいのなのでしょうか?いろんな議論ができますが、深層学習に比べれば従来の機械学習は学習コストが少なく、データが少なければ深層学習も大した計算量を必要としません。そのため、単純に両方使ってみて決めればいいと思います。興味本位でMNISTを使って比べました。

Jupyter Notebook (Github)

結果を見るとデータが少ない状況でも深層学習モデルのパフォーマンスが優位なようですね。

Interesting Research

Double Deep Descent - Sample wise non monotonicity
image

参考文献