国内初、VLAモデルによる公道でのリアルタイム自動運転制御に成功：自動運転技術

Turingは、自動運転向けフィジカルAIであるVLAモデルによる公道でのリアルタイム制御および走行に日本国内で初めて成功した。

[MONOist] PC用表示関連情報

LINE

Hatena

　Turing（チューリング）は2026年3月26日、自動運転向けフィジカルAI（人工知能）であるVLA（Vision Language Action）モデルによる、公道でのリアルタイム制御および走行に日本国内で初めて成功したと発表した。同発表に合わせて、因果推論データセット「RACER（Rationale-Aware Captioning of Edge-Case Driving Scenarios）」および画像トークナイザ「DriveTiTok」も公表した。

　今回の取り組みは、経済産業省およびNEDO（新エネルギー・産業技術総合開発機構）による生成AI研究支援プログラム「ポスト5G情報通信システム基盤強化研究開発事業／競争力ある生成AI基盤モデルの開発（GENIAC）」の一環として行われた。

　同社は、約20億パラメータに及ぶVLAモデルを独自に学習し、車載計算機環境向けに最適設計することにより、公道での自動運転制御を成功させた。10Hz（毎秒10回）でのリアルタイム推論と車両制御を同時に行い、実際の環境で安定性のある自動運転性能を確認した。

　VLAモデルは、カメラから得られた視覚情報と言語による状況理解を融合し、車両の操舵（そうだ）／加減速に相当する運転行動を予測／出力する。これまでのEnd-to-End自動運転モデルは、画像やセンサーから取得するデータを中心に学習していた。一方、VLAモデルは言語モデルをベースにした、統合的な意思決定アーキテクチャを活用している。

　RACERは、VLAモデルを高度化するのに必須な因果推論能力の改善を目的として構築した因果推論データセットだ。これは、因果構造に基づいて運転判断の根拠を記述したものであり、運転操作の判断理由をAIが理解し、より適した行動を生み出すための学習基盤となる。

　DriveTiTokは、離散トークンに運転シーンの映像を置換え、約100分の1まで小さくする画像トークナイザだ。過去フレーム情報の使用と同時に、時間的な変化とシーン全体の文脈を総合的に把握する。これにより、運転判断に不可欠な視覚情報を確保した状態で効率的な圧縮を実現した。

≫「自動運転技術」関連記事のバックナンバー

国内初、VLAモデルによる公道でのリアルタイム自動運転制御に成功：自動運転技術

関連記事

関連リンク