NVIDIAのGPUインフラが生成AI開発でも優位性を発揮できる理由とは：製造ITニュース

本稿ではNVIDIAが開催したオンラインイベント「NVIDIA 生成AI Day 2023 Fall」での講演、「生成AIの開発と運用を支えるエヌビディアの最新インフラ」の内容を紹介する。

LINE

Hatena

　NVIDIAは2023年11月25日、生成AI（人工知能）技術のビジネス活用などをテーマとしたオンラインイベント「NVIDIA 生成AI Day 2023 Fall」を開催した。本稿では、同社の日本法人であるエヌビディアでソリューションアーキテクチャ＆エンジニアリングシニアソリューションアーキテクトを務める佐々木邦暢氏による講演「生成AIの開発と運用を支えるエヌビディアの最新インフラ」の内容を紹介する。

GPU間の高速通信が大きな強みに

エヌビディアの佐々木邦暢氏出所：NVIDIA

　講演冒頭で佐々木氏は、大規模言語モデル（LLM）のパラメータサイズが年々巨大化しているとしたうえで、「GPUの強力な並列演算性能をもってしても、AIモデルのトレーニングに非常に長い時間がかかるというのが大きな課題となりつつある」と指摘した。そして、この解決に向けてNVIDIAがどのようなサーバ向けGPUやソフトウェアを提供しているかを紹介した。

　最初に取り上げたのが、エンタープライズのAI開発向けクラウドプラットフォーム「NVIDIA DGX Cloud」（DGX Cloud）だ。NVIDIAのサーバ向けGPU「NVIDIA DGX A100」（DGX A100）やその最新版である「NVIDIA DGX H100」（DGX H100）を8基組み合わせ、GPU間の高速な通信を可能にする「NVSwitch」で結んだGPUサーバをクラウド経由で提供する。同サーバはすでに、マイクロソフトのクラウドサービス「Azure」やOracleの「Oracle Cloud」、Googleの「Google Cloud」などで採用されている。DGX Cloudのユーザーは、エンタープライズレベルのAI開発を支援するソフトウェア「NVIDIA AI Enterprise」やAIモデルのトレーニング用プラットフォーム「Base Command Platform」なども併せて利用可能だ。

NVIDIA DGX Cloudの構成［クリックして拡大］出所：NVIDIA

DGX A100とDGX H100の性能概要［クリックして拡大］出所：NVIDIA

　ユーザーはBase Command Platformを使うことで、GPUやサーバの使用規模の指定や、学習元のデータセットの選択、GPUの演算量やネットワークの通信量の確認など、AI開発に必要なインフラ環境の操作や情報把握がダッシュボード上で簡単に行えるようになる。複数人によるコラボレーション開発にも対応しており、ダッシュボード上で自身とチーム別のストレージ残量や使用量、システム稼働状況などを一元的に確認できるうえ、ユーザーごとの権限管理設定も簡単に行える。Base Command PlatformはNVIDIAの社内でも、画像生成AI「StyleGAN」などの開発で活用された実績があるという。

Base Command Platformのインタフェース［クリックして拡大］出所：NVIDIA

　DGX Cloudの優位性について、佐々木氏は「AIモデルのトレーニングでは、各GPUが個々別々に動作するのではなく、演算結果を互いに交換しつつ進める必要がある。このためGPU間の通信も高速で行う必要があるが、これに対応できるサーバを提供できるのがDGX Cloudの大きな特徴の1つだ」と説明した。

　DGX Cloudを基盤に据えた生成AIプラットフォーム「NVIDIA AI Foundations」も紹介した。NVIDIAが開発した学習済み生成AIモデルを目的別サービスとして提供するもので、LLM開発向けの「NeMo Service」や創薬向けの「Bio NeMo」、画像や動画生成向けの「NVIDIA Picasso」の3つが利用できる。いずれもDGX Cloud上で動作するサービスで、目的に応じて最適なパラメーター数のモデルを選び、独自データを連携させて生成AIの独自アプリケーションを開発できる。

NVIDIA AI Foundationsの概要［クリックして拡大］出所：NVIDIA

ソフトバンクの国産LLM開発基盤に採用

　さらに佐々木氏はGPUサーバを複数組み合わせてクラスタリングした「DGX SuperPOD」も取り上げた。これまでNVIDIAが自社内で蓄積してきたDGXのクラスタリングのベストプラクティスを基にして、DGX A100の場合は20台、DGX H100の場合は32台を組み合わせたリファレンスアーキテクチャとなっている。

DGX SuperPODの概要［クリックして拡大］出所：NVIDIA

　最大の特徴はGPUの計算能力を大きく引き出すために4種類のネットワークを採用した点だ。GPU1基ずつに1つのネットワークが割り当てられて相互の通信干渉を防ぐとともに、計算のための通信とストレージアクセス用の通信を別に用意するなどの工夫が取り入れられている。

　このDGX SuperPODのアーキテクチャは、DGX A100で構築されたNVIDIAのスーパーコンピュータ「Selene」で採用されている。また、2023年10月31日にソフトバンクが3500億パラメーターの国産LLM開発を目指すと発表したが、この計算基盤としても使われている。

⇒その他の「製造ITニュース」の記事はこちら

NVIDIAのGPUインフラが生成AI開発でも優位性を発揮できる理由とは：製造ITニュース

GPU間の高速通信が大きな強みに

ソフトバンクの国産LLM開発基盤に採用

関連記事

関連リンク