急速に進化するAI技術との融合により変わりつつあるスーパーコンピュータの現在地を、大学などの公的機関を中心とした最先端のシステムから探る本連載。第1回は、2024年4月に稼働を開始した東京工業大学の「TSUBAME 4.0」を取り上げる。
いわゆるスーパーコンピュータ(スパコン)をはじめとするHPC(高性能コンピューティング)インフラは、高度なシミュレーションや創薬、ビッグデータ解析など、企業のモノづくりや事業創出に欠かせない存在となっている。さらに、生成AI(人工知能)をはじめとするAI技術の急速な進化により、これらのHPCインフラでAIをどのように活用できるようにするかも大きな課題となっている。
本連載では、日本国内のスパコン環境の一端を探るべく、大学などの公的機関を中心とした最先端のシステムを紹介していく。第1回は、2024年4月に稼働を開始した東京工業大学の「TSUBAME 4.0」を取り上げる。【訂正あり】
2024年4月1日、東京工業大学(以下、東工大)すずかけ台キャンパス(横浜市緑区)の一角で、“みんなのスパコン”の4世代目となる「TSUBAME 4.0」(図1〜3)が稼働を開始した。2017年8月に稼働した3世代目の「TSUBAME 3.0」から数えて、6年8カ月ぶりの更新となる。
TSUBAMEは、日本屈指のスパコンシステムの一つであり、東工大の研究をはじめ官民の研究開発に活用されてきた。
新しいTSUBAME 4.0の理論性能は、倍精度(FP64)の行列演算でTSUBAME 3.0の5.5倍に相当する66.8PFlops、半精度(FP16)の深層学習ではTSUBAME 3.0の20倍に相当する952PFlopsと発表されており、性能は国内トップクラスだ(図4)。流体解析、材料探索、創薬、物理シミュレーション、ディープラーニングおよび生成AIなどの研究開発を後押ししてくれるものと期待されている(図5)。
ハードウェアは、CPUとしてAMD EPYC 9654×2個とNVIDIA H100 Tensor コア GPU(Hopperアーキテクチャ)×4個をそれぞれ搭載した240台のノードで構成されている。すなわち総GPU数は960だ(図6)。高価で、かつ、入手が難しいH100が960個も装備されているTSUBAME 4.0は、膨大な計算パワーを必要とするディープラーニングや生成AIの研究者にとっては垂ぜんのシステムといえるだろう。
しかも、一般的なNVIDIA H100 Tensor コア GPUはVRAM容量が80GBだが、TSUBAME 4.0に採用されているNVIDIA H100 SXM5はVRAM容量が94GBと大きく、例えば生成AIの研究開発においてより大きな言語モデルを扱うことができるのも特徴である。
東工大のTSUBAME 4.0は、大学のスパコンなので民間企業とは関係ないように感じられるが、“みんなのスパコン”というコンセプトにのっとって利用は学外にも開放されている。実際にさまざまな企業が歴代のTSUBAMEシステムを自社の研究開発に活用してきた。詳しくは本記事の後半で紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.