急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第2回は、東京工業大学の「TSUBAME 4.0」の構築と運営を担当している同大学 教授の遠藤敏夫氏と准教授の野村哲弘氏のインタビューをお届けする。
連載第1回では、2024年4月1日に東京工業大学(以下、東工大)すずかけ台キャンパス(横浜市緑区)で稼働を開始した、“みんなのスパコン”として4世代目となる「TSUBAME 4.0」について、そのシステム構成やこれまでのTSUBAMEの歴史、企業による産業利用などについて紹介した。
TSUBAME 4.0の後編に当たる今回は、システムの設計や構築、運営を担当している国立大学法人 東京工業大学 学術国際情報センター 先端研究部門(兼)情報理工学院 数理・計算科学系 教授の遠藤敏夫氏と、同センター 准教授の野村哲弘氏への氏のインタビューをお届けする。
⇒連載「AIとの融合で進化するスパコンの現在地」バックナンバー
―― TSUBAME 4.0(図1)の正式な運用が2024年4月1日に始まり、今日で3カ月ほどがたちました(インタビューは2024年7月8日に実施)。今の率直な気持ちを聞かせてください。
遠藤氏 4月1日に運用がスタートした後、4月18日に関係者を招いたお披露目式と見学会を行って、6月27日にはPCクラスタコンソーシアム(PCCC)主催の見学会(図2)もあって、それらが無事に終わってほっとしたというのが正直なところです。
【訂正】PCCC主催の「PCクラスタワークショップ in すずかけ台2024」とその初日に行われた見学会の開催日に誤りがありました。本文は修正済みです。
野村氏 3月中旬頃からは、われわれもそうですし、実際の構築を担当したベンダーの方々も大変で、4月に入って一段落するかと思っていたんですが、お披露目会の準備とかさまざまな見学の対応などもあって、7月に入ってもそこそこ忙しい状態が続いている印象はありますね。
――TSUBAME 3.0が運用を開始した2017年8月から数えてほぼ7年ぶりの大幅更新となったわけですが、TSUBAME 4.0の開発はどのように進めたのですか。
遠藤 2019年頃にTSUBAME 3.0の次期システムについて検討を始めました。どういうシステムにするかは走りながら考えていくしかなかったんですけど、TSUBAMEシリーズとしての継続性がまずは重要と考えて、Linuxベースにして、これまでと同様にいろいろなアプリケーションを動かせて、かつ、限られた予算の中で高い性能を得ていくためにGPUを採用する、というのが基本的な考え方でした。
また、“みんなのスパコン”というコンセプトはTSUBAME 4.0でも継続したかったので、野村がTSUBAME 3.0で進めていたブラウザベースでのジョブ投入とか、コンテナベースでの実行環境とか、一部はバッチ処理ではなくリアルタイム処理も可能にしよう、といったことも検討しました。
――大規模言語モデルを使った生成AI(人工知能)が2022年に登場するなど、7年間の間に世の中は大きく変わりました。
遠藤 TSUBAME 3.0の開始時点でAIの研究開発においてスパコンの役割が重要になるというのは分かり始めていたんですけど、ここまで様相が変わるとは予想していませんでした。
野村 TSUBAME 2.5の終わり頃に、当時の主流だった「Caffe」や「Chainer」といったディープラーニングのフレームワークを導入したり、TSUBAME 3.0になってからは「TensorFlow」や「PyTorch」も整備したりしてAIには対応してきたんです。実際に、AIでは一般的なコンテナベースでの利用も増えてきたように思います。
Copyright © ITmedia, Inc. All Rights Reserved.