東大と筑波大のスパコン「Miyabi」はAIで科学を変えていく――JCAHPCの4氏に聞くAIとの融合で進化するスパコンの現在地(4)(2/4 ページ)

» 2025年01月27日 08時00分 公開
[関行宏MONOist]

NVIDIA GH200 Grace Hopper Superchipを採用した理由

―― さて、OFPの後継となるMiyabiは、NVIDIA GH200 Grace Hopper Superchipで構成した「Miyabi-G」と、Intel Xeon CPU Max 9480プロセッサーで構成した「Miyabi-C」という2つのシステムで構成されています(第3回記事の図3)。

朴氏 Miyabi-Gの理論ピーク性能が78.8PFLOPSで、Miyabi-Cが1.3PFLOPSであることからも分かるように、システムの中心はあくまでもMiyabi-Gです。

中島氏 Miyabi-Cはアクセラレータを使わない汎用CPUのみでの実行を想定したプログラム用に設けました。

―― x86 CPUにNVIDIA GPUをアクセラレータとして組み合わせる方法もある中で、CPUとGPUを単一のモジュールに統合したNVIDIA GH200 Grace Hopper Superchipを採用した理由を教えてください。

朴氏 調達仕様では一体化は条件としては求めませんでした。価格要件や電力要件から、最終的にNVIDIA GH200 Grace Hopper Superchipになりました。

中島氏 性能あたりの消費電力はx86 CPUとNVIDIA GPUの組み合わせに比べてNVIDIA GH200 Grace Hopper Superchipの方がかなり低くて、最近は電気料金も上がっていますので、結果的に正しい選択になったと思っています。

東京大学の塙敏博氏 東京大学 情報基盤センター・教授 スーパーコンピューティング研究部門 大学院工学系研究科電気系工学専攻 博士(工学)(JCAHPC 運用支援部門 部門長)の塙敏博氏 出所:東京大学

塙氏 Grace CPUはx86アーキテクチャではなくてArmアーキテクチャですが、ArmコアやArmインストラクションセットを使ったHPC(高性能コンピューティング)に関しては、富岳用に開発された「FUJITSU Processor A64FX」や、Amazonが開発した「AWS Graviton」プロセッサで既に実績がありましたので、Grace CPUも特に問題ないだろうと考えていました。とはいえ、Grace CPUは新しいので、カーネル(Rocky Linux)のリリースが追いついていなかったり、コンパイラがそろったのがギリギリだったりと、幾つかの問題はありましたけど、徐々に解消されています。

建部氏 システムでもうひとつ付け加えると、Miyabiにはオールフラッシュで構成した11.3PBのストレージを接続しています。今まではオールフラッシュはコスト的に合わなかったんですが、より容量密度の高いQLC(クワッドレベルセル)のNANDフラッシュが登場したことで実現できました。また、このオールフラッシュストレージに加えて、共有ストレージとして25.9PBの「Ipomoea-01」というシステムも提供しています。

―― 先ほど、メニーコアのOFP用に書かれたプログラムの移行には2年以上の時間が必要とのお話がありましたが、具体的にはどのような施策を進めたのですか。

中島氏 プログラム移行のためのハッカソン(GPUミニキャンプ)をまずは開催しました(第3回記事の図8)。年に3〜4回ほど実施して、実は今も続けています。東京科学大学(旧・東京工業大学)、名古屋大学、九州大学でもNVIDIA GPUを搭載したスパコンを導入していますので、それらの大学とも協力して、各大学から指導員として若手教員に参加してもらっています。NVIDIAの技術者にも指導員として協力いただきました。また、移行に関するポータルサイトを開設したほか、GPU移行相談会も毎月行っています※2)。ハッカソンは「自分で移行を進める」ことを前提としていますが、多くのユーザーが共通に使うアプリケーションプログラム(コミュニティコード)については、JCAHPCとNVIDIAが中心になって移行をサポートしました。

※2)GPU移行に関するポータルサイト

Miyabi-Gの全景 Miyabi-Gの全景。計画当初はOFPの後継として「OFP II」と呼ばれていたが、2024年4月1日に「Miyabi」と命名された[クリックで拡大] 撮影:関行宏
Miyabi-Gのラック背面と、NVIDIA GH200 Grace Hopper Superchipを2基搭載したSupermicro製のノード Miyabi-Gのラック背面と、NVIDIA GH200 Grace Hopper Superchipを2基搭載したSupermicro製のノード(型番:ARS-111GL-DNHR-LCC)。高さは1U(44.5mm)だが、奥行きは940mmと長い。NVIDIA GH200 Grace Hopper Superchipは直接水冷で、それ以外のコンポーネントは空冷である。ノードを収容しているラックは近年増えている「リアドア水冷式」で、ラック内の発熱はすべて水冷で除去されることになる[クリックで拡大] 撮影:関行宏

Copyright © ITmedia, Inc. All Rights Reserved.