ABCIのような大規模なクラスタシステムを構築し運用するには、システムを収容する計算機室(データセンター)の設計も重要になる。
ABCI 1.0の設計に際しては、(1)1ラック当たり消費電力70kWに耐える高密度実装を実現する、(2)超グリーンな運用を実現する、(3)データセンター構築ノウハウの技術移転(ブリッジング)を実現する、といった目標が掲げられ、東京大学 柏IIキャンパス内に「AIデータセンター」の建設が進められた。
高密度実装に関しては、一般的なフリーアクセスフロアは採用せず、地盤の上に床面を直接設けて、1m2当たり2トンの耐荷重を実現した。配線はラック上部で行っている。
冷却にはフリークーリングを用いた。ABCI 2.0までは各GPUサーバは直接水冷方式、ABCI 3.0では各GPUサーバは空冷方式となりラック背面のリアドアクーラー(熱交換器)を用いている(図6、図7)。
近年は夏の気温上昇が顕著だが、2013〜2016年の4年間で同地区の最高気温となった38.9℃における湿球温度は27.5℃であり、冷却塔を使ったフリークーリングのみで32℃の冷却水を十分に作れるとの見通しでこの方法が選択された。
なお、ストレージ機器およびネットワーク機器は直接水冷に対応するものが一般的ではなく、空冷能力を補うために最小限のチリングユニットを併設している。
こうした工夫の結果、運用コストを抑えつつ年間平均で1.1以下という優れたPUEを得ている。ABCI 3.0は2025年1月に稼働したばかりでまだ夏を経験していないが、冷却塔の増強によって同等の冷却性能が得られるとの見通しである。
産総研では、耐荷重を確保する建屋の構造や、エネルギー効率を高めるフリークーリングなどのノウハウをデータセンター事業者などに提供している。商用として運用する場合は予備系の確保などが必要で、ABCIのやり方をそのまま使うことは難しいと考えられるが、十分参考になるだろう。
最後に、ABCI 2.0からABCI 3.0への移行方法を紹介しておこう。スパコンシステムに限らずITシステムを刷新する場合、一般に旧システムの稼働停止から新システムの稼働開始までに相応の間隔が空いてしまうことがある。旧システムの解体、撤去、新システムの搬入、結線、OSやソフトウェアのデプロイ、種々のテストといったステップを踏まなければならないからだ。例えば、「京」の運用停止は2019年8月16日、後継の「富岳」が運用を開始したのは2021年3月9日で、約1年半の中断期間があった。
産総研ではそうした中断期間をできるだけ作らないように段階的な移行を行った。まず、拡張用として確保されていたAIデータセンターの空きスペースに、ABCI 2.0と同等の性能(0.85EFLOPS)になるようにABCI 3.0の一部のハードウェアを設置し、2024年11月18日から試験運用という形でユーザーに提供した。
その後、ABCI 2.0を撤去したのち、ABCI 3.0の残りのハードウェアを搬入して、システム全体の統合を行った。
結果的に、ABCI 2.0からABCI 3.0(0.85EFLOPS版)への切り替え時の中断期間はおよそ20日間、ABCI 3.0(0.85EFLOPS版)からABCI 3.0(フル版)への切り替え(統合)の中断期間はおよそ25日間に収められた(図8)。
ユーザーへの影響を最小限に抑えるこうした移行方法は他のシステムにも適用できそうだ。
以上、産総研がAIの開発を加速するために開発したABCI 3.0の概要を紹介した。次回の後編では、2016年に始まったABCIの構想から現在まで中心的な役割を担ってきた産総研の高野了成氏のインタビューをお届けする。また、産総研が2025度内の稼働に向けて構築中の量子コンピュータ設備「ABCI-Q」についても紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.