2017年5月、グーグルは第2世代のTPUとなる「TPU v2」を発表した。TPU v2の最大の特徴は、推論だけでなく学習にも対応したことだ。そのため、演算器は16ビットとなり、集積数は3万2768個となった。TPU v1とは異なり、製造プロセスや動作周波数などの情報は公開していないが、処理能力は180TFlopsを達成しているという。
このTPU v2は、クラウド上でディープラーニングを行うグーグルのサービス「Cloud TPU」に利用されている。Cloud TPUは、初期費用なし、1時間当たり6.5米ドルという料金で利用可能だ。また、Cloud TPUはコスト効率も高く、スタンフォード大学が公開しているベンチマーク「DAWNBench」に掲載されているGPUを用いたディープラーニングの10分の1に抑えられている(画像認識のディープラーニングのベンチマークに用いられている「ResNet-50」で精度93%まで学習時で比較)。ユーザーとして、ヘッジファンド運用企業のツー・シグマ(Two Sigma)やライドシェアリングサービスのリフト(Lyft)などからの評価も得られているという。
さらに、TPU v2を64ユニット組み合わせたAIスーパーコンピュータ「TPU v2 Pod」は、11.5PFLOPSという処理性能を達成した。ユニット間の接続にはスーパーコンピュータと同等のネットワーク技術を用いており、CPUやGPUでは難しい「使用するユニット数に比例して性能が伸びるリニアな性能向上を実現できている」(佐藤氏)。
なお、TPU v2 Podの性能は、半分の32ユニットを用いた場合で先述のDAWNBenchで最速となるスコアをマークしている。
2018年5月のGoogle I/O 2018では、冷却システムをTPU v2の空冷から水冷に変更した「TPU 3.0」を発表している。TPU 3.0は、1ユニット当たりの処理性能よりも、複数のユニットを組み合わせたAIスーパーコンピュータとするときの実装密度の高さにフォーカスしている。「TPU v2の巨大なヒートシンクが不要になることで実装密度が大幅に高まった」(佐藤氏)。
TPU 3.0で構成される「TPU 3.0 Pod」は、TPU v2 Podの8倍に当たる100PFlops以上の性能を実現している。佐藤氏は「理化学研究所の『京』が10PFlopsなので、その10倍の性能だ。ただし京は、科学技術計算のため計算精度は32ビットや64ビットであることも考慮する必要がある」と説明する。
そして、これらのTPUを用いたディープラーニングは、グーグルが開発したTensorFlowを用いることによって最大の力を発揮する。なぜなら、グーグルのクラウドサービスでは、TensorFlowからTPU上で実行するためのTPUコードへの変換を自動で行ってくれるからだ。また、Cloud TPUですぐに使えるもモデルも多数提供されている。
なお、製造業におけるディープラーニングの活用では、クラウドだけでなく、エッジデバイス上で推論実行を行いたいというニーズも多い。これは、製造業のアプリケーションではリアルタイム性が求められることが多く、クラウド利用による遅延時間が問題になることがあるからだ。また、クラウドとの通信データ量の大きさも課題になる。
そういったエッジデバイス対応に向けて、グーグルは推論のためのニューラルネットワークをより軽量化できる「TensorFlow Lite」を発表している。スマートフォンのOSであるAndroidやiOS上での実行に対応するとともに、クアルコムのプロセッサで低遅延を実現した事例もあるという。「IoT(モノのインターネット)活用のPoC(概念実証)で広く利用されている『Raspberry Pi』上でも十分に実行できる」(佐藤氏)としている。
Copyright © ITmedia, Inc. All Rights Reserved.