さて、ここまでのスライドはHotChips 30と共通だったが、ここからアップデートを。2018年10月の時点で既にA0サンプルのA64FXが稼働しており、それを利用しての実測値がこちら(図11)である。動作周波数は明らかにされていないが、DPで2.764T/3.072TFLOPSという数字からすると1.8G/2GHz駆動と考えられる。もとになったSPARC XIfxは20nmプロセスで2.2GHz駆動だったから、これに比べるとやや低めではあるが、そもそもA0サンプルということを考えれば、これでも十分な速度といえる。また、そもそも高密度に実装されることを考えると、あまり消費電力は増やしたくないわけで、それもあって低めに抑えられている可能性もある。
省電力関連で言えば、常に消費電力を監視しながら電力制御を行う仕組みは当然に入っている訳だが(図12)、消費電力を絞る方法として、従来のクロックゲーティングやパワーゲーティングに加え、デコード帯域を絞ったり、利用可能な実行ユニットを制限したりというパワーノブ(Power Knob)という方式も実装されていることが明らかにされた(図13)。
このA64FXプロセッサは1つのCMU(CPU Memory Unit)に2つずつ搭載され、このCMUを8枚搭載したBoB(Bunch of Brades)を3組まとめたシェルフを、1つのラックに8つ搭載する予定になっている。つまり、1ラックで384ノード、18432コアが実装される形となる(図14)。
最後に「Tofu」関連について。富士通は「京」の立ち上げの際に、初代のTofu(Torus Fusion)というインターコネクトを採用したが、SPARC64 XIfx(Tofu2)を経てA64FXにも引き継がれており、こちらも「TofuD」に進化している。このTofuDで8バイトのデータを送る際のレイテンシ(遅延時間)を比較したのがこちら(図15)。大規模システムの場合、このインターコネクトのレイテンシが性能に与えるインパクトはかなりシビアなもので、少数のノードで動かすとベンチマークプログラムである「Linpack」の効率が80%超えなのに、同じシステムを大規模ノードに拡張したら50%程度まで落ちた、なんて話は珍しくもない。
その理由は、ノード間の通信に時間がかかり過ぎるからで、これを最小限に抑えるためにもこのレイテンシ削減は大きな意味がある。もちろん帯域そのものも確実に広がっており(図16)、これで性能改善(というか性能劣化防止)に努めているという話である。
ということで、駆け足でA64FXの特徴をご紹介してきた。何というか、内部構造はArmのプロセッサというよりは富士通の従来の構造そのままで、むしろArmであることに違和感を覚えそうなほどだが、もう最近のプロセッサは(それこそx86はとっくにそうだし、IBMもZ系列なんかは特にそうだが)対応する命令セットと内部の構造にはあまり関係が無い(デコード段で命令変換を掛けてしまうので、それこそVILW(Very Long Instruction Word)でもない限り、大体処理できる)ことを端的に示しているといえる。
Armのコアがそもそも省電力向けを身上としており、Cortex-A76でもまだ例えばIntelの「Skylake」などに比べるとやや軽めに見えるのに対し、A64FXは明らかに重厚系のコアであって、会場でもちょっと異彩を放っていた感はあった。
Copyright © ITmedia, Inc. All Rights Reserved.