かつて世界一を支えたNECのベクトル演算技術、いま「次世代イノベーション」を担うモノづくり最前線レポート(2/2 ページ)

» 2019年11月11日 08時00分 公開
[松本貴志MONOist]
前のページへ 1|2       

新開発のベクトルプロセッサは世界一のメモリ帯域を実現

 SX-Aurora TSUBASAのベクトルプロセッサは「単一コア当たり世界トップクラス」(NEC)となる演算性能とメモリ帯域を実現。2019年11月以降に受注開始する一部製品ではメモリ帯域をさらに向上させており、最上位モデルのベクトルプロセッサでは2.43TFLOPS(倍精度)の演算性能と、「世界一」(NEC)となる1.35TB/sの帯域幅を提供する。

 この高メモリ帯域の実現では、TSMCのCoWoS(Chip-on-Wafer-on-Substrate)技術をベースにNECとTSMCが共同開発したメモリ実装技術が貢献している。同技術は「世界で初めて」(NEC)シリコンインターポーザ上にプロセッサダイと6個のHBM(High Bandwidth Memory)2スタックを搭載している。従来は、NVIDIA製GPU「Tesla V100」など4個のHBM2スタック搭載チップが最大だった。ベクトルプロセッサのダイは16nm FinFETプロセスを採用する。

ベクトルプロセッサの概要(クリックで拡大) 出典:NEC

デスクトップで使えるベクトル計算機、TensorFlowも利用可能に

 SX-Aurora TSUBASAはスーパーコンピュータが従来より得意としてきた科学技術計算のみでなく、AIやビッグデータ解析といった新たな分野への適用も目指す。

 NECは2017年7月、ベクトル計算機に適した機械学習の高速実行技術を開発したと発表している。同技術では、機械学習で大規模データを取り扱う場合に頻出する疎行列演算について、列単位と行単位で処理を行うフォーマットを使い分けるハイブリッドフォーマットを開発。データ処理量を常に大きく保つことで演算効率を向上させている。また、並列演算時の疎行列処理結果をまとめる通信量を削減する技術も生み出した。

疎行列演算を高速化するデータ処理方式のイメージ(クリックで拡大) 出典:NEC

 これら技術を盛り込んだミドルウェアを開発し、ユーザーはPythonやクラスタコンピューティングフレームワークのApache Sparkから特別なプログラミング無しで使用できる。同技術を用いてSX-ACEとサーバクラスタを同一コア数で性能比較した場合、Web広告最適化などに利用されるロジスティック回帰では1632倍の高速化を実現したという。

同一コア数(64コア)におけるデータ処理速度の比較(クリックで拡大) 出典:NEC

 同社担当者は「ECサイトにおけるユーザーへの商品レコメンド機能も他社製CPUと比較して約100倍高速に処理できる。ベクトルプロセッサはニューラルネットワーク以外の統計的機械学習に向く」と述べる。また、Googleが開発する機械学習フレームワーク「TensorFlow」を、SX-Aurora TSUBASA向けに実装した「TensorFlow for SX-Aurora」のリリースも2019年6月から始めている。

 SX-Aurora TSUBASAのシリーズラインアップは、VEを1基搭載しデスクトップで利用可能な「エッジモデル」が2機種、VEを2〜8基搭載するラックマウントフォームファクタの「オンサイトモデル」が3機種、データセンターやHPC用途を指向しVEを64基搭載する「データセンターモデル」が1機種。幅広い筐体サイズに対応し、計算能力ニーズに応じた選択を可能とした。

 従来のスーパーコンピュータユーザーに加え、AIやビッグデータ解析を行う企業や研究所の研究者なども、高性能なベクトル計算機を利用しやすくした形だ。最下位モデル(A111-1)の最小構成価格はSDKを含めて170万円(以下、税込み)、データセンターモデル(A511-64)は1億2000万円以上となる。

SX-Aurora TSUBASAのシリーズラインアップ(クリックで拡大) 出典:NEC
前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.