Preferred Networks(PFN)は、神戸大学と共同開発した深層学習用プロセッサ「MN-Core」について、深層学習のフレームワークとして広く用いられているPyTorchからシームレスにMN-Coreを利用するための専用コンパイラを開発した。深層学習における複数の実用的なワークロードの計算速度で、従来比6倍以上の高速化を実現したという。
Preferred Networks(PFN)は2021年6月14日、神戸大学と共同開発した深層学習用プロセッサ「MN-Core」について、深層学習のフレームワークとして広く用いられているPyTorchからシームレスにMN-Coreを利用するための専用コンパイラを開発したと発表した。深層学習における複数の実用的なワークロードの計算速度で、従来比6倍以上の高速化を実現したという。【訂正あり】
PFNの深層学習専用プロセッサとして開発されたMN-Coreは、スーパーコンピュータの省電力性能を示す「Green500リスト」で2020年6月に1位を獲得したPFNのプライベートスーパーコンピュータ「MN-3」に搭載されている。深層学習ワークロードに特化したアクセラレータであり、深層学習で頻出する畳み込み演算を高速化するために、多数の高効率な行列演算器ユニットを階層的に束ねた構造を持っている。また、各階層間では縮約/放送など深層学習ワークロードでよく用いられる集団通信を行うことができる。
MN-Coreは、単一の命令で全ての計算ユニットを動作させるSIMD(Single Instruction Multiple Data)モデルのアーキテクチャの採用や、一般的なプロセッサではハードウェアが自動的に制御するキャッシュや各演算器間のデータパスなどをプログラマーが制御できることなども特徴となっている。この、大きなSIMDでかつハードウェアによって制御される領域が少ないアーキテクチャは、適切に制御を行うことで非常に高い効率を実現できる反面、高効率に利用するためにはプログラマーが考えるべきことが多いという課題も抱えている。
MN-Coreを搭載するMN-3は、PFNの開発者が手掛けるさまざまなワークロードを実行できることが求められるものの、全ての開発者がMN-Coreのアーキテクチャを理解した上で個別に性能を引き出すプログラミングを行うことは現実的とはいい難い。そこで、MN-Coreを簡単かつ高効率に利用するために開発したのが今回の専用コンパイラになる。
同コンパイラを用いて、従来のPFNのスーパーコンピュータ「MN-2」に搭載されている汎用GPUと比較する形でMN-Coreの性能評価を行った。具体的には、MN-2とMN-3について、それぞれ1アクセラレータボードを利用した場合の実機での実行速度を比較している。まず、コンピュータビジョンの代表的な問題であるインスタンスセグメンテーション(Instance Segmentation)やオブジェクトディテクション(Object Detection)を含めたCNN(畳み込みニューラルネットワーク)ベースのモデルについては、MN-CoreはGPUと比べて6倍以上の性能を達成。グラフ構造の分析に用いられるGCN(グラフ畳み込みニューラルネットワーク)ベースのネットワークを用いた物理シミュレーションは最大3倍、深層学習モデルを設計するための一手法であるNAS(構造自動探索)は平均4倍程度の高速化を実現できたという。
【訂正】PFNの発表文では当初「インスタンスセグメンテーションにおいて6倍以上」となっていましたが、2021年6月23日付で「インスタンスセグメンテーションだけでなく、オブジェクトディテクションのモデルを含めて6倍以上」という訂正がありました。これに合わせて、本記事の表記を修正し、グラフも差し替えました。
なお、今回の研究開発成果は、2021年6月15日に半導体技術の国際会議「2021 Symposia on VLSI Technology and Circuits」で発表する予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.