産総研の最新スパコン「ABCI 3.0」が生成AIの研究開発と社会実装を加速するAIとの融合で進化するスパコンの現在地(5)(4/4 ページ)

» 2025年04月10日 09時00分 公開
[関行宏MONOist]
前のページへ 1|2|3|4       

エネルギー効率の高いフリークーリング冷却を確立

 ABCIのような大規模なクラスタシステムを構築し運用するには、システムを収容する計算機室(データセンター)の設計も重要になる。

 ABCI 1.0の設計に際しては、(1)1ラック当たり消費電力70kWに耐える高密度実装を実現する、(2)超グリーンな運用を実現する、(3)データセンター構築ノウハウの技術移転(ブリッジング)を実現する、といった目標が掲げられ、東京大学 柏IIキャンパス内に「AIデータセンター」の建設が進められた。

 高密度実装に関しては、一般的なフリーアクセスフロアは採用せず、地盤の上に床面を直接設けて、1m2当たり2トンの耐荷重を実現した。配線はラック上部で行っている。

 冷却にはフリークーリングを用いた。ABCI 2.0までは各GPUサーバは直接水冷方式、ABCI 3.0では各GPUサーバは空冷方式となりラック背面のリアドアクーラー(熱交換器)を用いている(図6、図7)。

図6 図6 ABCIの冷却の仕組み。一般にはフリーアクセスフロア下面から冷気を供給し、ホットアイルに排出された暖かい空気をチリングユニットで冷却するが(左)、エネルギー効率は低くなってしまう。ABCIではチリングユニットを用いないフリークーリングを採用し、外部の冷却塔で作った32℃以下の水を、各ノードとラック上部のファンコイルユニット(熱交換器)に流して排気の冷却を行っている。なお、ABCI 3.0のノードは空冷サーバであり、直接水冷ではなくリアドアクーラーを用いて冷却を行っている[クリックで拡大] 出所:産総研 「ABCI 3.0記者見学会」
図8 図8 天井高6mのAIデータセンターに据え付けられたクーリングポットの威容。下側に機器を搭載したラックが置かれている。上部には、電源やネットワークの配線、冷水/温水の給水管、およびファンコイルユニット(熱交換ユニット)などが設置されている[クリックで拡大] 撮影:関行宏

 近年は夏の気温上昇が顕著だが、2013〜2016年の4年間で同地区の最高気温となった38.9℃における湿球温度は27.5℃であり、冷却塔を使ったフリークーリングのみで32℃の冷却水を十分に作れるとの見通しでこの方法が選択された。

 なお、ストレージ機器およびネットワーク機器は直接水冷に対応するものが一般的ではなく、空冷能力を補うために最小限のチリングユニットを併設している。

 こうした工夫の結果、運用コストを抑えつつ年間平均で1.1以下という優れたPUEを得ている。ABCI 3.0は2025年1月に稼働したばかりでまだ夏を経験していないが、冷却塔の増強によって同等の冷却性能が得られるとの見通しである。

 産総研では、耐荷重を確保する建屋の構造や、エネルギー効率を高めるフリークーリングなどのノウハウをデータセンター事業者などに提供している。商用として運用する場合は予備系の確保などが必要で、ABCIのやり方をそのまま使うことは難しいと考えられるが、十分参考になるだろう。

システム移行期間を最小限に

 最後に、ABCI 2.0からABCI 3.0への移行方法を紹介しておこう。スパコンシステムに限らずITシステムを刷新する場合、一般に旧システムの稼働停止から新システムの稼働開始までに相応の間隔が空いてしまうことがある。旧システムの解体、撤去、新システムの搬入、結線、OSやソフトウェアのデプロイ、種々のテストといったステップを踏まなければならないからだ。例えば、「京」の運用停止は2019年8月16日、後継の「富岳」が運用を開始したのは2021年3月9日で、約1年半の中断期間があった。

 産総研ではそうした中断期間をできるだけ作らないように段階的な移行を行った。まず、拡張用として確保されていたAIデータセンターの空きスペースに、ABCI 2.0と同等の性能(0.85EFLOPS)になるようにABCI 3.0の一部のハードウェアを設置し、2024年11月18日から試験運用という形でユーザーに提供した。

 その後、ABCI 2.0を撤去したのち、ABCI 3.0の残りのハードウェアを搬入して、システム全体の統合を行った。

 結果的に、ABCI 2.0からABCI 3.0(0.85EFLOPS版)への切り替え時の中断期間はおよそ20日間、ABCI 3.0(0.85EFLOPS版)からABCI 3.0(フル版)への切り替え(統合)の中断期間はおよそ25日間に収められた(図8)。

図8 図8 ABCI 2.0からABCI 3.0への移行では中断期間の短縮を図った。初めにABCI 2.0と同等性能を持つABCI 3.0(0.85EFLOPS版)を導入してユーザーに移行してもらい、その後ABCI 2.0を撤去してから、ABCI 3.0の残りの設備を設置して統合した[クリックで拡大] 出所:産総研 「ABCI 3.0記者見学会」

 ユーザーへの影響を最小限に抑えるこうした移行方法は他のシステムにも適用できそうだ。



 以上、産総研がAIの開発を加速するために開発したABCI 3.0の概要を紹介した。次回の後編では、2016年に始まったABCIの構想から現在まで中心的な役割を担ってきた産総研の高野了成氏のインタビューをお届けする。また、産総研が2025度内の稼働に向けて構築中の量子コンピュータ設備「ABCI-Q」についても紹介する。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.