Source: Preferred Networks Blog

Preferred Networks Blog 深層学習モデルを用いたノンパラメトリック回帰問題に関する最近の研究

深層学習モデルはこれまで様々な機械学習タスクにおいて成功を収めてきています.それに触発され,深層学習モデルの成功要因を理論面から解明する試みが盛んに行われています.特に深層学習の理論研究(特に統計的学習理論と呼ばれる分野)では,主に3つの問題提起がなされ,それに対する様々な回答がなされています [Poggio et al., 2016]: 表現能力:深層学習モデルはどんな関数を(効率的に)推定できるのか [Cybenko, 1989; Telgarsky, 2016; Eldan and Shamir, 2016; Sonoda and Murata, 2017] 最適化:なぜ(確率的)勾配法が「良い」解を見つけることができるのか [Li et al., 2017; Jacot et al, 2018; Du et al., 2018; Allen-Zhu et al., 2018] 汎化能力:深層学習モデルは多数のパラメータを持つにも関わらず,なぜ過学習せずに汎化するのか [Hardt et al., 2016; Belkin et al., 2018; Arora et al., 2018] (関連文献を網羅することはできませんので代表的な研究や最近注目されている論文のみを挙げました,それぞれのトピックに興味のある方は上記の論文の関連研究を参照ください.また,[Suzuki, 2019b]も参考にしてください)本稿では,ノンパラメトリックな回帰問題における,表現能力と汎化性能に関する一連の研究を紹介します. 問題設定 問題設定を正確に記述するため,いくつか記号を導入します.XをD次元の入力とし(簡単のため各次元は[0, 1]に値を取るとします),出力YがY=f(X)+ξという関数で与えられると仮定します.ここで,fは推定したい対象の未知関数,ξは適当な仮定を満たすノイズ(例えばガウシアンノイズなど)です.また,回帰の問題を考えるので,Yは1次元の実数値とします.ここでの目標は,fに適当な仮定(例えば関数の滑らかさなど)を置いた時,未知分布から独立同分布でサンプリングされた入出力の組(Xi, Yi)(i=1, ..., N)から,fを推定することです. 深層モデルのミニマックス最適性 Yarotskyは,未知関数fがHölder関数というある種の滑らかさを持つ関数である場合,ReLUを活性化関数として持つ多層パーセプトロン(ReLU-MLP)が,効率的に(つまり,少ないパラメータ数で)fを近似できることを示しました [Yarotsky, 2017].この論文の証明技法はReLUを用いた深層モデルのノンパラメトリック回帰に関する一連の研究で頻繁に利用されています(図1).Yarotskyの結果を用いて,Schmidt-Hieberは,未知関数fがHolder関数である場合に,ReLU-MLPは(logのオーダーを無視して)「ミニマックス最適」という,未知関数の推定に関するある種の理論的限界を達成できることを示しました(ミニマックス最適性は推定量の「良さ」を判定する基準で,統計学などでよく利用されます) [Schmidt-Hieber, 2017].Schmidt-Hieberは,その最適性を達成できるReLU-MLPの深さや幅も決定しています(ただし,それには未知関数fがどの程度滑らかかという情報が必要です).畳み込みニューラルネットワーク(CNN)に関しても,活性化関数がReLUの場合,ReLU-MLPと同じオーダーのパラメータ数で同じ関数を表現できることも示されています [Petersen and Voigtlaender, 2018] (正確に言うとReLU-MLPで表現した関数の同変バージョンを表現します).インフォーマルに言えば,ネットワークのパラメータ数のオーダーが同じ場合,ReLU-CNNはReLU-MLPと少なくとも同等以上の表現能力と予測性能を持つことを示しています. 深層モデルの優越性 Yarotsky, Schmidt-Hieberによる解析はノンパラメトリック回帰問題における深層モデルのミニマックス最適性を示したという点で画期的でした.しかし,カーネル法など他の機械学習の手法でも,同様にミニマックス最適性が達成できることが知られています.そのため,これだけでは「なぜ深層学習が他手法に比べて良いか」に対する回答としては不十分でした.すると次に「どのような未知関数ならば,深層モデルの構造が他手法を優越するか」という問いが自然に生じます.これに関しては,日本の研究グループが成果を挙げています.例えば未知関数が「区分的に滑らかな関数」[Imaizumi and Fukumizu, 2017],「Besov関数」[Suzuki, 2019; Suzuki and Nitanda, 2019],「ステップ関数」[Hayakawa and Suzuki, 2019]の場合,深層モデルはミニマックス最適性を達成できるが,カーネル法などの手法は一般には達成できないことが示されています.これらの解析に共通するのは,真の関数がある種の不連続さを持つ場合,深層モデルがその他の手法を優越しやすいという結果が得られているということです(図2). ResNet構造を持つ深層モデルの最適性 Yarotsky, Schmidt-Hieberの解析のもう一つの欠点は,理論的限界(ミニマックス最適)を達成できる最適なネットワークを得る手段が現実的とは言いづらい点です.理論的に最適なネットワークは「ネットワークが持てる最大の非ゼロパラメータを固定し,その非ゼロパラメータ数で実現できるネットワークのうち経験誤差を最小化するもの」として得られます(幅や深さなどのアーキテクチャは一つ固定します).具体的には,全パラメータのうち 100 × O(N^{-α})%のパラメータのみが非ゼロでなければなりません.ここで,Nはサンプル数,αは未知関数の滑らかさによって決まる正の定数です.これは,確率的勾配降下法(SGD)など,パラメータがスパースにならない一般の深層学習の訓練を説明できていません.この問題に関しては,通常のReLU-MLPやReLU-CNNではなく,ResNet構造を持つネットワークを考えると,そのような不自然なスパース性を仮定せず,単純に経験誤差最小解を取るだけでミニマックス最適性を達成できることを我々は示しました [Oono and Suzuki, 2019].証明においてキーとなるのは,Yarotskyの方法で得られる最適なネットワークはスパースなのですが,ランダムに非ゼロの重みの配置されているのではなく,「ブロックスパース」とでも呼ぶべき特殊なスパース構造を持っていることです.その構造をうまく利用すると,ミニマック最適性を保ったまま,ブロックスパースなネットワークを密なResNet構造を持つネットワークに変換することができます(図3).この論文に関しては,先日開催されたICLR/ICML2019読み会で発表しましたので,そちらのスライドもご参照ください: ICLR/ICML2019読み会:https://connpass.com/event/138672/ 発表資料:https://speakerdeck.com/delta2323/approximation-and-non-parametric-estimation-of-resnet-type-convolutional-neural-networks-icml-2019 まとめ 本エントリでは,深層学習の理論研究の一例として,深層モデルを用いたノンパラメトリック回帰問題に関する研究を紹介しました.深層モデルの理論解析は,日進月歩で進んでおり,この1, 2年だけでも,「Neural Tangent Kernel(NTK)」「過剰パラメータネットワーク(overparametrized)の大域解への収束」「二重降下(double descent)現象」「ネットワークの内在的次元(intrinsic dimension)による汎化性能改善」「グラフネットワーク(もしくはそれを一般化した不変ネットワーク)の表現能力」などさまざまなトピックが議論されています(機会があれば自分の勉強のためにもこのようなトピックについて解説したいと思っています).本エントリがそのような理論研究の理解の一助になれば幸いです. 参考文献 [Allen-Zhu et [...]

Read full article »
Est. Annual Revenue
$5.0-25M
Est. Employees
1-25
Toru Nishikawa's photo - President & CEO of Preferred Networks, Inc

President & CEO

Toru Nishikawa

CEO Approval Rating

77/100

Read more