人工知能の奇跡的な復権SYSTEM DESIGN JOURNAL(6/7 ページ)

» 2016年04月21日 09時00分 公開
[Ron Wilson(Editor-in-chief,Altera),MONOist]

 プログラマーはこの障壁を2つの方式で攻撃してきました。よく知られている方式は、ルールベースのシステムを使用して現在の局面のパターンを解析し、先読みせずに次の手を提案する方式です。囲碁の対戦をしたことがある方なら、このアプローチでは有望な初心者のレベルから大して上達できないことが予測できます。

 もう1つの方式は(ある局面から始まる全ての手順を試すことはできないため)、ランダムにまたは戦略アルゴリズムのいずれかによってできるだけ多くを選択し、何手か試してから最も有望な局面につながるものを選択するモンテカルロ法です。

 モンテカルロ手法は無作為であり、全ての最良の手順を見逃さない保証はないように思われますが、サンプル数が増加するにつれて多くの種類のゲームで実際に最適な手に収束します。モンテカルロ法を囲碁に適用すると、中級者に適した相手のレベルになります。

 しかし、DeepMindは練習相手ではなくチャンピオンを目指していました。設計者は、モンテカルロ手法と2つの異なる CNN(戦略統制のためのCNNと局面評価のためのCNN)を統合することに決めました。大まかに言えば、DeepMindのシステムは今後の手を探し出すガイドになる戦略CNNと、その結果で得られた局面に定量値を与える評価ネットワークを使用して、実際にチャンピオンを負かしたのです。

 CNNを採用するとトレーニング方法という問題が生じます。インテルのDubey氏は「基本的なトレーニング方法には、監視付き学習、強化学習、監視なし学習の3つがあります」と説明しています。DeepMindには最初の2つが採用されました。設計者は、上級者が打った実対戦の膨大なデータセットを検証しながら2つのネットワークを監視したのです。つまり、碁盤の局面と人間が実際に打った次の手を多くの対戦で何度も繰り返して示すことによってネットワークをトレーニングしたのです。

 その後、トレーニングの幅を広げるために各対戦の結果を補強材料として使用し、ランダムに選択したそれ自体の旧バージョンと対戦するようにシステムを設定しました。これはCNNの経験の幅を広げただけでなく、人間の打ち手の模倣ではなく、最終結果である勝負にトレーニングを集中させました。設計者は、従来の勾配上昇関数または勾配下降関数を使用してトレーニング中にネットワークの畳み込み係数とニューラルの重み付けを調整しました。

 DeepMindのいずれのネットワークも、多くの畳み込みレイヤーの後ろに多くのレイヤーが続く従来の構造を持っていました。独自性の多くは、学習プロセス、とりわけシステムがそれ自体の旧バージョンと対戦する強化学習に由来します。

 Dubey氏は、これほど大きな規模の学習ネットワークは活用され始めたばかりであると考えています。超並列システムでネットワークをトレーニングした後、そのネットワークをはるかに小さなシステムで複製する機会には有望な将来が開けています。Dubey氏は、「トレーニングが済んだモデルは極めてコンパクトにできます」と述べています。

関連キーワード

人工知能


Copyright © ITmedia, Inc. All Rights Reserved.