AWS(Amazon Web Services)は「AWS re:Invent 2018」において、ディープラーニング(深層学習)をはじめ機械学習によって得たアルゴリズムの実行(推論:Inference)に特化したAI(人工知能)チップ「AWS Inferentia」を発表した。
AWS(Amazon Web Services)は2018年11月28日(現地時間)、同社ユーザーイベント「AWS re:Invent 2018」において、ディープラーニング(深層学習)をはじめ機械学習によって得たアルゴリズムの実行(推論:Inference)に特化したAI(人工知能)チップ「AWS Inferentia(以下、Inferentia)」を発表した。2019年下期に利用可能になる予定だ。【訂正あり】
【訂正】初出時に、AWS Inferentiaをエッジコンピューティングで利用する前提での比較解説を掲載していましたが、AWS Inferentiaはクラウドやサーバでのみ利用するAIチップでした。このため、タイトルの修正と、該当部の記事について削除と修正を行いました。記事は訂正済みです。
Inferentiaは、TensorFlow、MXNet、PyTorch、Caffe2という広く用いられている深層学習レームワークに対応。また、深層学習モデルの交換フォーマットであるONNX(Open Neural Network Exchange)にも対応する。
推論実行時の演算精度は、8ビットの固定小数点(INT8)や、16ビットの浮動小数点(FP16)、混合精度演算(Mixed Precision)などに対応する。処理性能は1チップ当たり数百TOPS(1秒当たり数百兆回の演算が可能)としており、より高い性能が必要な場合にはチップを並列接続することで数千TOPSまで性能を高められるという。
なお、NVIDIAが2018年9月に発表したHPC(ハイパーフォーマンスコンピューティング)向けGPUボード「Tesla T4」の処理性能は、8ビットの固定小数点で130TOPSとなっているので、単純比較であればInferentiaは2倍前後の性能を持つことになる。
AWSによれば、機械学習アプリケーションのコンピューティングコストのうち90%が推論に充てられているという。この推論コストを削減するためAWSは、クラウドサービス「Amazon EC2」やクラウド上での機械学習サービス「Amazon SageMaker」で利用できる「Amazon Elastic Inference」を発表している。Amazon Elastic Inferenceを用いれば、推論コストを従来比で75%まで削減可能とする。
ただし、Amazon Elastic Inferenceでもネットワークのオーバーヘッドによる遅延などが課題になる。Inferentiaは、そういった課題に対処するためのものとなる。
Copyright © ITmedia, Inc. All Rights Reserved.