確率的最適化手法Adamの論文のLemma 10.3

Posted: 2016-03-30

Adam: A Method for Stochastic OptimizationLemma 10.3が、少し腑に落ちなかったので自分用に書いたメモです。

論文中の証明では、帰納法の仮定から導かれる式 t=1Tgt,i2t2Gg1:T,i22gT,i2+gT,i2T に、以下の不等式 g1:T,i22gT,i2g1:T,i2gT,i22TG2 を代入して t=1Tgt,i2t2Gg1:T,i2 を示す、と書いてあります。

しかし実際に代入してみると t=1Tgt,i2t2Gg1:T,i22gT,i2+gT,i2T2G(g1:T,i2gT,i22TG2)+gT,i2T=2Gg1:T,i2gT,i2T+gT,i2T=2Gg1:T,i2+gT,i2gT,i2T となるので、0<|gT,i|<1 のとき成り立たないような気がします。大きな誤差にはならないのでこれでもいいのかもしれませんが、せっかくなので別な方法を考えてみたいと思います。

上から抑える方法として以下のCauchy–Schwarzの不等式を使う方法が考えられます。

t=1Tgt,i2t=(g1,i2gT,i2)(1/11/T)(g1,i2gT,i2)2(1/11/T)2=g1:T,i2t=1T1tg1:T,i21T(1+1t)dt=g1:T,i2T1+logT

この変更を行ってもT1+logTO(T)なので以降の議論に大きな影響はないはずです(あとできちんと確認します)。とりあえず自分の中ではこれで納得したいと思います。