Machene Learning Crash Course 3 - Reducing Loss

機械学習はiterative approachによって損失を減らす。iterative approachというのは若干直訳しにくいところがあるけれども、まあ要はたくさんのsampleを処理することによって徐々に損失の少ないweightとbiasによせていく、ということだろう。で、ずっと計算し続けていくとどこかのタイミングでもうweightとbiasがほぼ変わらない段階にたどり着いたら、そのモデルはconverged（収束）したと言える。

ではどのようにモデルをconvergeさせるか。
$y' = b + w_1x_1$
という最もシンプルなモデルを考えた時に、w₁の全ての値についてその損失を計算すると以下のような値の分布になる。
f:id:kuniaki12:20180815164555p:plain
この分布は唯一つの最小値を持ちそこでは傾きが０になるが、まさにそこがこのモデルの収束点である。
（と元の記事では書いてあるけれど、うっかりこれがn次関数で複数の極小点を持つようなexampleだったらどうするんだろう・・・）

このconvergenceをより効率的に求めるために使われる手法がgradient descent（最急降下法）というもの。
これは、このグラフの中でどこか１点を最初に決めて、そこから点をちょっとずつ動かしつつ計算をしてconvergenceを探すアプローチらしい。てかこれなら微分で一発なのでは？？これは扱っているモデルがシンプルだからなのか？まあとにかく、実際にTensorFlowを使う際にはこの部分は全部カプセル化されてるから気にする必要ないらしい。

で、次にこの「ちょっとずつ」動かすと言った場合に実際のところどの程度点を移動させるんだろうか。というのがlearning rate（学習率、step sizeとも言うらしい）。このlearning rateのチューニングがキモで、ここを小さくしすぎると永遠にconvergenceに届かないしこれを大きくしてしまうとconvergenceを通り越してしまう（Optimizing Learning Rate | Machine Learning Crash Course | Google Developersで試してみるとわかる）。現実にはlearning rateを最適化することよりもconvergenceにたどり着くことが目的なので、そこそこのlearning rateを見つけるのが重要らしい。（ただここで具体的にどうやってそのそこそこなlearning rateを見つけるかという話には至っていない）

このgradient descentを行う際に一度のiterationで勾配を計算するのに使用するexampleの数をバッチというらしい。ここまでの説明だと上のようなグラフを書くのに使用するexample数って聞こえると思うんだけど、そのさきを読むと

Stochastic gradient descent（確率的勾配降下法、一度のiterationで１つのexampleを使用する＝バッチサイズ１）
Mini-batch stochastic gradient descent（バッチサイズを１０～１０００としたもの）

らしい。バッチサイズを１にしたらそもそもグラフとか書けないし、となると結局バッチサイズというのはなんなんだ？？という疑問が残る。でも機械学習の仕組み (Vol.4)を見るとややわかりやすいが、やはりここでいうバッチサイズはexample数っぽい。何かしら数学的な調整がうまいこと効いてより少ない計算量でより正確なモデル構築ができるらしい。（全然ピンときてないけど汗）

おれの技術日記

元はJava＋SQLがメインのエンジニア、フロントエンドは軽くかじった程度で苦手。最近忘れっぽいので覚えたことをいろいろメモするためにブログ開始。

Machene Learning Crash Course 3 - Reducing Loss