こんにちは、サイオステクノロジーの藤井です。

この記事では、ディープラーニングが具体的にどのようなアルゴリズムで動いているかを書いていこうと思います。ディープラーニングを使ったことのない方や、私と同じように動かしたことはあるけどなんで動いているかわからない方が、ディープラーニングを理解する助けになれれば良いなと思っております。

前回の「[AI入門] ディープラーニングの仕組み　～その1：ニューラルネットワークってなに？～」では、ニューラルネットワークの仕組みについて書きました。

今回は、ニューラルネットワークの学習を高速化するために計算量を減らす手法として、ミニバッチ学習と誤差逆伝播法について学んだので、その仕組みについて書いていきます。

1 ミニバッチ学習
- 1.1 ミニバッチ学習の概要
  - 1.1.1 汎化能力の獲得のためには
  - 1.1.2 損失関数の値を求めるためには
- 1.2 ミニバッチ学習の仕組み
2 誤差逆伝播法
- 2.1 自動微分
  - 2.1.1 計算グラフ
  - 2.1.2 連鎖律
- 2.2 ニューラルネットワークの逆伝播
3 まとめ

ミニバッチ学習

ミニバッチ学習は、結果をあまり変えずに損失関数の値や勾配を求める時の計算量を減らす手法です。

ミニバッチ学習の概要

ミニバッチ学習を簡単に説明すると、

「汎化能力獲得のためにはたくさんの種類のデータが必要だが、損失関数の値や勾配を求めるためにはあまりたくさんのデータはいらない」というジレンマを解決するために、学習1stepで使うデータはデータセットのうち一部だけにする。

というものです。

汎化能力の獲得のためには

機械学習では、①学習用データ(データと答えのセット)を用いてモデルを学習、②学習されたモデルを用いてテストデータや実際のデータから答えを予測、という手順を踏みます。

この時、学習用データに含まれているデータなら答えが予測できるが、未知のデータ(テストデータなど)からは答えを予測できない状態になることがあります。これを過学習(over fitting)といいます。逆に、未知のデータに対しても答えを予測できる能力を汎化能力といいます。

基本的に、未知のデータに対して答えを予測するために機械学習を行うので、機械学習では汎化能力を獲得することが大きな目標となります。

過学習が起こる(=汎化能力が不足する)原因は、主に、モデルの複雑さに対して学習データ数が少ないことです。(学習データ数に対してモデルが複雑すぎるとも言えます)　特に、ディープラーニングのモデルは複雑になることが多いので、過学習が起きやすくなります。

これを防ぐ方法として、学習率を調整したり、正則化を行ったりなどいろいろありますが、最も効果があるのは、学習データの種類を増やすことです。

ということで、ディープラーニングで汎化能力を獲得するためにはたくさんの種類の学習データが必要です。

損失関数の値を求めるためには

損失関数の値を求める方法は前回書きましたが、データごとに予測結果と正解の誤差を求め、その平均を求めます。

この計算速度は、データ数が少なければ少ないほど速くなります。

ミニバッチ学習の仕組み

しかし、損失関数の値は平均値なので、ある程度のデータ数があれば、それ以上データ数を増やしても大きく変わることはありません。例えば、10種類に分類する学習データが10万個あった場合、「10万個のデータそれぞれの予測結果と正解の誤差の平均」と、10万個の中からランダムに1000個取り出してその「1000個のデータそれぞれの予測結果と正解の誤差の平均」は、ほとんど同じですが、計算にかかる時間は約100分の1です。

勾配を求める場合も同様です。

この性質を利用してミニバッチ学習では以下の手順で学習を進めます

①N個の学習データをn個に分けます。この時分けたそれぞれのデータをミニバッチといいます。