こんにちは、サイオステクノロジーの藤井です。

この記事では、ディープラーニングが具体的にどのようなアルゴリズムで動いているかを書いていこうと思います。ディープラーニングを使ったことのない方や、私と同じように動かしたことはあるけどなんで動いているかわからない方が、ディープラーニングを理解する助けになれれば良いなと思っております。

今までの記事では、ニューラルネットワークの学習について「勾配を求め、勾配の方向にパラメータを動かす」と書きました。

今回は、その「パラメータを動かす」の部分について詳しく書いていきます。

「パラメータをどう動かすか」を決める部分を最適化アルゴリズムといいます。この記事ではいくつかの最適化アルゴリズムとその考え方を紹介したいと思います。最後におまけとして各最適化アルゴリズムの比較を載せています。

1 結論
2 最適化アルゴリズムとは
3 それぞれの最適化関数の仕組み
4 最適化関数を比較してみた
- 4.1 条件
- 4.2 結果
5 まとめ

結論

それぞれの最適化アルゴリズムはこんな考え方のもとパラメータを動かしています。

SGD	最も基本となるアルゴリズム・勾配の方向に進む
momentumSGD	SGD＋「速度」と「慣性」の概念
AdaGrad	学習が進むほど学習率を小さくしていく
RMSprop	AdaGrad＋最近の勾配ほど強く影響
AdaDelta	単位をそろえる
Adam	momentumSGD＋RMSprop

最適化アルゴリズムとは

ディープラーニングにおいて、最適化アルゴリズム(optimizer)とは主に損失関数の最小値(とその時のパラメータ)を求めるアルゴリズムです。

その1でニューラルネットワークを「重みとバイアスを変数として、lossを求める関数」として解釈すると書きました。

この時最適化アルゴリズムが行うのは以下のようなことです。

パラメータ（上の図の場合は、w1~w10,b1~b4の14個の変数）の値を変更して、lossの値を出来る限り小さくする
最適化アルゴリズムが使うことのできる情報は、「パラメータの勾配」と「これまでにパラメータを動かした記録」のみ（関数の中身の構造などは見れない）

「パラメータの勾配」とは、それぞれのパラメータごとにあり、他のパラメータを動かさずにそのパラメータだけ増やしたときlossがどれだけ増えます。

例えば、w1の勾配が0.3の場合、w1以外を変えずにw1のみを1増やすとlossが約0.3増えます。
逆に、w1の勾配が-0.3の場合、w1のみを1増やすとlossが約0.3減ります。

実際にはw1とlossの関係は線形ではないので、ぴったり0.3ではないです。(なので「約」と付けています)

それぞれの最適化関数の仕組み

デフォルトパラメーター等はKerasのドキュメントを参考にしています。

コード内で出てくる変数や関数については以下の通りです。

steps	学習回数（整数）
parameter	学習するパラメータ（行列）
grad	パラメータの勾配（行列）
lr	学習率（learning rate）（小数）
sqrt(x)	xの平方根

SGD

SGDはstochastic gradient descent（確率的勾配降下法）の略です。

SGDの考え方は、

「勾配を見ればどちらに動かせばlossが減るのか分かるなら、勾配の分だけパラメーターの値を減らせばよい」

です。

for i in range(steps):
    parameter = parameter - lr * grad

デフォルトパラメータ lr = 0.01

パラメータを勾配×学習率だけ減らします。
学習率は一度のパラメータの更新でどのぐらい学習を進めるかを調整します。小さすぎると学習が全然進まず、大きすぎるとパラメータが最適値（lossが最小になるときの値）を通り過ぎてしまいうまく学習できません。

もっとも簡単で基本的なアルゴリズムです。これ以降に紹介する最適化アルゴリズムは基本的にこれを改良していったものです。

確率的勾配降下法だけでなく、最急降下法やミニバッチSGDもSGDとして扱われることもあるため、この記事では、この3つをまとめてSGDとして書きます。

この3つの違いは、データが複数あった時に

最急降下法　→　全部のデータを一気に使う
確率的勾配降下法　→　ランダムにデータを一個ずつ選び出し使う
ミニバッチSGD　→　ランダムにデータをミニバッチに分けミニバッチごとに使う

といった違いです。(ちなみにKerasでは次に紹介するmomentumSGDまで、SGDに含まれています)

momentumSGD

momentumSGDは、SGDに「慣性」や「速度」の概念を付け足したアルゴリズムです。

v=0 #gradと同じサイズの行列
for i in range(steps):
    v = v * momentum - lr * grad
    parameter = parameter + v

デフォルトパラメータ lr = 0.01
momentum = 0.9

vは速度を表します。momentumSGDでは、速度を勾配×学習率だけ減らします。
momentumは、速度の減衰です。物体の運動における摩擦のようなものです。一定の割合で速度を減らしていきます。

速度の概念を導入することで、
何回も勾配が一定の方向を指す（＝最適値はまだ遠い）場合は、パラメータの更新量が大きくなり、
勾配が＋になったりーになったりを繰り返す（＝最適値付近で行ったり来たりしている）場合は、パラメータの更新量が小さくなる。
という効果があり、SGDと比較してパラメータの振動が減り学習が速く進みます。

また、あるパラメーターを動かした場合のlossの値が下のグラフのようになる場合

赤矢印のところで勾配が0になってしまうためSGDでは学習がそこで止まってしまいますが、momentumSGDでは赤矢印のところを通り過ぎてさらにlossが小さくなるポイントまで進むことができます。

AdaGrad

パラメータが最適値までまだまだ遠い時（学習初期）は大きくパラメータを更新したいが、パラメータが最適値に近づいた時（学習終盤）は最適値を通り過ぎないようにパラメータの更新量を小さくしたい。という考えで学習が進むほど学習率を小さくしていくテクニックがあります。

これをパラメータごとに独立して行っているのがAdaGradです。Adagradでは、今までの更新量の大きいパラメータ（正確には今までの勾配が大きいパラメータ）ほど、更新量が小さくなります。

h=0 #gradと同じサイズの行列
for i in range(steps):
    h = h + grad * grad
    parameter = parameter - lr * grad / (sqrt(h) + epsilon)

デフォルトパラメータ lr = 0.01
epsilon = 0.0000001　0で割ることにならないために微小値を分母に足しています

パラメータごとに固有の値hを持ちます。↑のコードではparameterと同じサイズの行列に値を保存しています。hは、学習のたびに勾配の2乗ずつ増加していきます。そして、hの平方根でパラメータ更新量を割っているので、hが大きいほどパラメータ更新量は小さくなります。

ちなみにAdaGradは、adaptive gradient algorithmの略です。直訳すると、「適応性のある勾配アルゴリズム」となります。

RMSprop

AdaGradでは、hは増えていく一方、つまり学習率はどんどん小さくなっていきます。もし仮に、学習最初期にとても大きな勾配があった場合、そのパラメータは、その後ほとんど更新されなくなります。

この問題を解決するために、最近の勾配ほど強くhの大きさに影響するように（昔の勾配の影響がどんどん減っていくように）、したのがRMSPropです。

h=0 #gradと同じサイズの行列
for i in range(steps):
    h = rho * h + (1 - rho) * grad * grad
    parameter = parameter - lr * grad / (sqrt(h) + epsilon)

デフォルトパラメータ lr = 0.001
rho = 0.9 どの程度hを保存するか
epsilon = 0.0000001　0で割ることにならないために微小値を分母に足しています

デフォルトパラメータの場合、hに加算された勾配の情報は1ステップごとに0.9倍されていくので、昔の勾配ほど影響が少なくなります。これを指数移動平均といいます。あとはAdaGradと同じです。

AdaDelta

AdaDeltaは単位をそろえたアルゴリズムです。

例えば、x[秒]後の移動距離をy[m]とした時、y=axと書けます。
この時、xの単位は[秒] yの単位は[m] さらに、yの微分は、y’=(ax)’=aとなり、これは速さを意味します。
つまりy’の単位は[m/s]です。

話を戻して、SGDでは、パラメータから勾配を引いています。（実際には学習率がかかっていますが、”率”は単位がないのでここでは無視します）勾配はパラメータの微分であり、これは距離から速さを引いているようなもので単位がそろっていません。

この単位をそろえようという考えで出来たのがアルゴリズムがAdaDeltaです。

h=0 #gradと同じサイズの行列
s=0 #gradと同じサイズの行列
for i in range(steps):
    h = rho * h + (1 - rho) * grad * grad
    v = grad * sqrt(s+epsilon) / sqrt(h+epsilon)
    s = rho * s + (1 - rho) * v * v
    parameter = parameter - v

デフォルトパラメータ rho = 0.95 どの程度hやsを保存するか
epsilon = 0.0000001　0で割ることにならないために微小値を分母に足しています

hは過去の勾配の2乗の合計（の指数移動平均）、sは過去のパラメータ更新量の2乗の合計（の指数移動平均）を表しています。
vは「勾配×過去のパラメータ更新量÷過去の勾配」なので、パラメータと単位が一致します。

AdaDeltaは学習率を持たないという特徴もあります。

Adam

Adaptive Moment Estimationの略です。

AdamはmomentumSGDとRMSpropを合わせたようなアルゴリズムです。

m=0 #gradと同じサイズの行列
v=0 #gradと同じサイズの行列
for i in range(steps):
    m = beta_1 * m + (1 - beta_1) * grad
    v = beta_2 * v + (1 - beta_2) * grad^2
    om = m / (1 - beta_1)
    ov = v / (1 - beta_2)
    parameter = parameter - lr * om / sqrt(ov + epsilon)

デフォルトパラメータ lr = 0.001
beta_1 = 0.9
beta_2 = 0.999 epsilon = 0.0000001　0で割ることにならないために微小値を分母に足しています

mによってmomentumSGDのようにこれまでの勾配の情報をため込みます。また、vによってRMSpropのように勾配の2乗の情報をため込みます。それぞれ指数移動平均で昔の情報は少しずつ影響が小さくなっていきます。

mでは勾配の情報をため込む前に、(1 – beta_1)がかけられてしまいます。(デフォルトパラメータなら0.1倍）そこで、omでは、mを(1 – beta_1)で割ることで勾配の影響の大きさをもとに戻します。ovも同様です。

最適化関数を比較してみた

ここまでで紹介した6つの最適化アルゴリズムを比較したので実際に比較します。

条件

・データセット Mnist手書き数字画像 0~9の10個に分類します・モデル入力784ノード ⇒ 全結合層 ⇒ 100ノード ⇒ 全結合層 ⇒ 100ノード ⇒ 全結合層 ⇒ 出力10ノード活性化関数はReLU ・パラメータ学習率はすべて0.01で統一（AdaDeltaを除く）それ以外のパラメータはデフォルトパラメーミニバッチ学習すると収束が速すぎて比較しずらいのでバッチサイズは60000 ・実行環境 Anaconda 3 Python 3.7.7 Numpy 1.19.1 ディープラーニング用ライブラリは、Dezeroをもとに自作したライブラリを使用