展示会などでエッジ上で動作する生成AIのデモを見る機会も増えました。
アヒルのおもちゃに使われている素材を言い当て、世界地図の上で指さした国の名前をピタリと当てる。2023年12月7日(日本時間)にGoogleが公開したマルチモーダルなAI(人工知能)モデル「Gemini」のデモ動画は、多くの人に衝撃を与えました。動画を見る限り、ユーザーの音声とカメラの映像を頼りにして、AIが人間と現実空間で自然な応答ができているように見えたからです。
筆者自身も「マルチモーダルAIはここまで進化しているのか!」と度肝を抜かれました。……が、良く見るとデモ動画の冒頭には「Geminiとの好ましいインタラクションを強調したもの」(動画より)という注意書きが。つまり、この動画にはGoogleによる編集加工が入っているのです。現実のGeminiの性能を直接反映したものではないことは意識すべきでしょう。
さて、Googleの発表ではGeminiの処理性能のポテンシャル以外で注目すべきポイントがもう1つありました。スマートフォンなどのモバイル端末でオンデバイス処理が行えるモデル、「Gemini Nano」の存在です。
Copyright © ITmedia, Inc. All Rights Reserved.