産総研の最新スパコン「ABCI 3.0」が生成AIの研究開発と社会実装を加速する:AIとの融合で進化するスパコンの現在地(5)(4/4 ページ)
急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第5回は、2025年1月に一般提供を開始した産総研の「ABCI 3.0」を取り上げる。
エネルギー効率の高いフリークーリング冷却を確立
ABCIのような大規模なクラスタシステムを構築し運用するには、システムを収容する計算機室(データセンター)の設計も重要になる。
ABCI 1.0の設計に際しては、(1)1ラック当たり消費電力70kWに耐える高密度実装を実現する、(2)超グリーンな運用を実現する、(3)データセンター構築ノウハウの技術移転(ブリッジング)を実現する、といった目標が掲げられ、東京大学 柏IIキャンパス内に「AIデータセンター」の建設が進められた。
高密度実装に関しては、一般的なフリーアクセスフロアは採用せず、地盤の上に床面を直接設けて、1m2当たり2トンの耐荷重を実現した。配線はラック上部で行っている。
冷却にはフリークーリングを用いた。ABCI 2.0までは各GPUサーバは直接水冷方式、ABCI 3.0では各GPUサーバは空冷方式となりラック背面のリアドアクーラー(熱交換器)を用いている(図6、図7)。

図6 ABCIの冷却の仕組み。一般にはフリーアクセスフロア下面から冷気を供給し、ホットアイルに排出された暖かい空気をチリングユニットで冷却するが(左)、エネルギー効率は低くなってしまう。ABCIではチリングユニットを用いないフリークーリングを採用し、外部の冷却塔で作った32℃以下の水を、各ノードとラック上部のファンコイルユニット(熱交換器)に流して排気の冷却を行っている。なお、ABCI 3.0のノードは空冷サーバであり、直接水冷ではなくリアドアクーラーを用いて冷却を行っている[クリックで拡大] 出所:産総研 「ABCI 3.0記者見学会」

図8 天井高6mのAIデータセンターに据え付けられたクーリングポットの威容。下側に機器を搭載したラックが置かれている。上部には、電源やネットワークの配線、冷水/温水の給水管、およびファンコイルユニット(熱交換ユニット)などが設置されている[クリックで拡大] 撮影:関行宏
近年は夏の気温上昇が顕著だが、2013〜2016年の4年間で同地区の最高気温となった38.9℃における湿球温度は27.5℃であり、冷却塔を使ったフリークーリングのみで32℃の冷却水を十分に作れるとの見通しでこの方法が選択された。
なお、ストレージ機器およびネットワーク機器は直接水冷に対応するものが一般的ではなく、空冷能力を補うために最小限のチリングユニットを併設している。
こうした工夫の結果、運用コストを抑えつつ年間平均で1.1以下という優れたPUEを得ている。ABCI 3.0は2025年1月に稼働したばかりでまだ夏を経験していないが、冷却塔の増強によって同等の冷却性能が得られるとの見通しである。
産総研では、耐荷重を確保する建屋の構造や、エネルギー効率を高めるフリークーリングなどのノウハウをデータセンター事業者などに提供している。商用として運用する場合は予備系の確保などが必要で、ABCIのやり方をそのまま使うことは難しいと考えられるが、十分参考になるだろう。
システム移行期間を最小限に
最後に、ABCI 2.0からABCI 3.0への移行方法を紹介しておこう。スパコンシステムに限らずITシステムを刷新する場合、一般に旧システムの稼働停止から新システムの稼働開始までに相応の間隔が空いてしまうことがある。旧システムの解体、撤去、新システムの搬入、結線、OSやソフトウェアのデプロイ、種々のテストといったステップを踏まなければならないからだ。例えば、「京」の運用停止は2019年8月16日、後継の「富岳」が運用を開始したのは2021年3月9日で、約1年半の中断期間があった。
産総研ではそうした中断期間をできるだけ作らないように段階的な移行を行った。まず、拡張用として確保されていたAIデータセンターの空きスペースに、ABCI 2.0と同等の性能(0.85EFLOPS)になるようにABCI 3.0の一部のハードウェアを設置し、2024年11月18日から試験運用という形でユーザーに提供した。
その後、ABCI 2.0を撤去したのち、ABCI 3.0の残りのハードウェアを搬入して、システム全体の統合を行った。
結果的に、ABCI 2.0からABCI 3.0(0.85EFLOPS版)への切り替え時の中断期間はおよそ20日間、ABCI 3.0(0.85EFLOPS版)からABCI 3.0(フル版)への切り替え(統合)の中断期間はおよそ25日間に収められた(図8)。

図8 ABCI 2.0からABCI 3.0への移行では中断期間の短縮を図った。初めにABCI 2.0と同等性能を持つABCI 3.0(0.85EFLOPS版)を導入してユーザーに移行してもらい、その後ABCI 2.0を撤去してから、ABCI 3.0の残りの設備を設置して統合した[クリックで拡大] 出所:産総研 「ABCI 3.0記者見学会」
ユーザーへの影響を最小限に抑えるこうした移行方法は他のシステムにも適用できそうだ。
以上、産総研がAIの開発を加速するために開発したABCI 3.0の概要を紹介した。次回の後編では、2016年に始まったABCIの構想から現在まで中心的な役割を担ってきた産総研の高野了成氏のインタビューをお届けする。また、産総研が2025度内の稼働に向けて構築中の量子コンピュータ設備「ABCI-Q」についても紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ≫連載「AIとの融合で進化するスパコンの現在地」バックナンバー
産総研がAIスパコン「ABCI 3.0」を一般提供、産官学の大規模生成AI研究を加速
産業技術総合研究所(産総研)は、柏センター(千葉県柏市)内に構築した大規模AI計算システム「ABCI 3.0」の一般提供を開始したと発表した。東大と筑波大のスパコン「Miyabi」はAIで科学を変えていく――JCAHPCの4氏に聞く
急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第4回は、「Miyabi」の構築を進めた、最先端共同HPC基盤施設(JCAHPC)の朴泰祐氏、中島研吾氏、塙敏博氏、建部修見氏へのインタビューをお送りする。東大と筑波大が共同構築した最新スパコン「Miyabi」がAI for Scienceを推進する
急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第3回は、東京大学と筑波大学が共同で構築した「Miyabi」を紹介する。東工大のスパコン「TSUBAME」の将来像とは――遠藤教授&野村准教授に聞く
急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第2回は、東京工業大学の「TSUBAME 4.0」の構築と運営を担当している同大学 教授の遠藤敏夫氏と准教授の野村哲弘氏のインタビューをお届けする。東工大「TSUBAME 4.0」は“みんなのスパコン”としてどのような進化を遂げたのか
急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第1回は、2024年4月に稼働を開始した東京工業大学の「TSUBAME 4.0」を取り上げる。