産総研の最新スパコン「ABCI 3.0」が生成AIの研究開発と社会実装を加速するAIとの融合で進化するスパコンの現在地(5)(1/4 ページ)

急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第5回は、2025年1月に一般提供を開始した産総研の「ABCI 3.0」を取り上げる。

» 2025年04月10日 09時00分 公開
[関行宏MONOist]

 いわゆるスーパーコンピュータ(スパコン)をはじめとするHPC(高性能コンピューティング)インフラは、高度なシミュレーションや創薬、ビッグデータ解析など、企業のモノづくりや事業創出に欠かせない存在となっている。さらに、生成AI(人工知能)をはじめとするAI技術の急速な進化により、これらのHPCインフラでAIをどのように活用できるようにするかも大きな課題となっている。

 本連載では、日本国内のスパコン環境の一端を探るべく、大学などの公的機関を中心とした最先端のシステムを紹介していく。第5回は、2025年1月に一般提供を開始した国立研究開発法人 産業技術総合研究所(産総研)の「ABCI 3.0」を取り上げる。

⇒連載「AIとの融合で進化するスパコンの現在地」バックナンバー

AI技術を民間企業へと「橋渡し」するABCI

 「ABCI 3.0」は産総研が構築し、産総研で開発した技術の社会実装を推進するAIST Solutionsが運用している国内トップクラスの性能を誇るGPUスパコンである。生成AIをはじめとする最先端AI技術の研究開発能力の強化と、社会実装の加速を目的に構築された。

 名称のABCIとは「AI Bridging Cloud Infrastructure(AI技術開発/橋渡しのためのオープンな計算インフラストラクチャ)」の意味であり、このうち「B」に相当する「橋渡し(Bridging)」とは、産総研が培った技術を民間へ移転していくこと、すなわち、産総研と民間企業との橋渡し役を担うシステムを意味している。

 その第3世代となるABCI 3.0のハードウェア概要は図1の通りである。2024年夏の調達時点で最新となるNVIDIA H200 Tensor コア GPU SXM5(VRAM容量141GB)を8基搭載した766台のサーバで構成され、総GPU数は6128基である(図2)。

図1 図1 ABCI 3.0のシステム構成。NVIDIA H200 Tensor コア GPU SXM5を8基搭載した766台のサーバの他、75PBのオールフラッシュストレージで構成されている。インターコネクトは200GbpsのInfiniBand NDRである[クリックで拡大] 出所:産総研「ABCI 3.0記者見学会」
図2 図2 ラックに搭載されたABCI 3.0のサーバノード。各サーバに8基のNVIDIA H200 Tensor コア GPU SXM5(VRAM容量141GB)が搭載されている[クリックで拡大] 撮影:関行宏

 各ノードは1GPUにつき200GbpsのInfiniBand NDRを用いてファットツリー構成で接続されていて、フルバイセクションバンド幅(クラスタ内の任意の半数のノードが同時に残り半分のノードにデータを送信してもネットワーク内での競合が発生しないこと)が確保されている。

 この他、75PBの大容量オールフラッシュストレージを有し、各ノードとは100GbpsのInfiniBand HDRを用いて接続される。

 理論ピーク性能は、倍精度(FP64)で415PFLOPS、単精度(FP32/TF32(TensorFloat-32))で3.0EFLOPS、半精度(FP16/BF16)で6.2EFLOPSである。理化学研究所が運用する「富岳」の倍精度性能は488PFLOPS、単精度性能は977PFLOPS、半精度性能は1.95EFLOPSであり※1)、システムの目的や構成に違いはあるが、単純に数字だけを見れば、倍精度を除く理論性能はABCI 3.0の方が高い。

※1)富士通Webサイト:スーパーコンピュータ「富岳」の仕様

 ABCI 3.0の調達額はイニシャルコストと初年度の保守費を合わせておよそ350億円である。その他、施設の電源容量および冷却容量の増強(それぞれおよそ1.6倍)に12億円が投じられた。フリークーリングを主体にした冷却を採用し、データセンターのエネルギー効率を表すPUE※2)は年間平均1.1以下と小さく、トップクラスの省エネ化が図られている。

※2)PUE(Power Usage Effectiveness):冷却設備なども含めたデータセンター全体の消費電力をIT機器の消費電力で除した数値。1.0に近いほどエネルギー効率が高い。データセンターの平均は1.4~1.7程度と言われている。なお、PUEの実績値はABCI 2.0運用時のものである。

       1|2|3|4 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.