もっとも、製造業が今後RAGを十分に活用していく上で、乗り越えなければならない課題も多く残されている。その1つが、検索対象となるデータベースの整備やデータ自体の構造化だ。社内データはフォーマットがばらばらな上、テキストファイルだけでなくPDFやExcelなど多様なファイル形式で保管されている。Excelファイルの内容でも中に図版を含むものがあるなど、生成AIが正確にその内容を把握できなければ、不正確な情報提供につながる恐れもある。
こうしたデータ整備、データの構造化の課題は何もRAGに限った話ではなく、DX(デジタルトランスフォーメーション)におけるデータ活用の文脈で以前から繰り返し重要性が指摘されてきたところでもある。ただ、LLMが活用することを前提にデータ整備、構造化を進める必要があるという点には留意すべきだろう。
膨大なデータに対して、タグ付けやメタデータ付与を人手で全て行うことは現実的ではない。NECはこうした課題感を背景に、2024年11月、複雑な図表を含むドキュメントをAIが自動でデータ化するサービスを開発したと発表した。こうしたサービスだけでなく、AIを活用してデータの整備、構造化を行う各社の独自の取り組みは活発化していく可能性がある。
もう1つがハルシネーションの問題だ。RAGは生成AIの回答精度を高められるが、ハルシネーションそれ自体を原理的に防げるわけではない。結局のところ、生成AIが誤りを含む出力をするリスクを前提に、間違いを許容し、吸収できる業務フローやシステムの運用体制を構築することは変わらず求められる。
この他、セキュリティポリシーの策定やガバナンス整備なども並行して進めていく必要がある。
最後に触れておきたいのが、RAGに関する技術開発の動向だ。RAGの利便性を高めるための新技術も次々に発表されている。
特に注目されるのが、さまざまな知識の関係性をグラフで構成して表現するデータモデル「ナレッジグラフ」を活用した回答精度、速度の向上だ。
富士通は「ナレッジグラフ拡張RAG」と呼ばれる技術を発表している。製品マニュアルや設備機器の稼働ログ、監視データをナレッジグラフ化し、ユーザーからの質問に対して最適な回答を返せるようにするというものだ。
他にも、パナソニック コネクトは2024年10月に、AIエージェントがナレッジグラフを参照して回答できる技術を開発したと発表した。ChatGPTなどの上に立ち上げた独自開発のAIエージェントがナレッジグラフを参照し、従来と比べ高い回答速度や精度を実現する。
いずれのケースも、大規模データの検索を前提に、RAGで使われるベクトル検索の速度や正確性の課題克服をなど念頭に技術開発を進めたとしている。今後は、ベクトル検索とナレッジグラフによる検索のハイブリッド化が進む可能性もある。他にも、ばらばらなフォーマットの図表なども分析できるマルチモーダルな検索技術にも注目すべきだろう。これらの検索手法のメリットとデメリットに目を配りつつ、自社にとってより有力な検索技術を検討していくべきだ。
Copyright © ITmedia, Inc. All Rights Reserved.