大日本印刷(DNP)は、PDFやWordなどのさまざまな形式のドキュメントを、生成AIの学習に適した形式に整形する技術を開発した。同技術を使用した実証実験では、誤回答を約90%削減した。
大日本印刷(DNP)は2023年12月14日、PDFやWordなどのさまざまな形式のドキュメントを、生成AI(人工知能)の学習に適したデータ形式に整形する技術を開発したと発表した。同技術の活用により、生成AIからより的確な回答が得られるようになり、業務効率化に貢献する。
同技術は、テキストや画像、表組みなどが混在したドキュメントを、独自のAIモデルでタイトルや本文、画像、表などの要素別に分割し、生成AIが学習しやすい形式にデータを整形する。整形作業は、ほぼ人手を介さずに実施できる。
ドキュメントの構造を認識するAIモデルは、同社が独自に開発。一般的な深層学習モデルでは数百〜数千ページのデータ学習が必要だが、同モデルでは数十ページ程度の学習でデータ整形ができる。
同技術を使用して同社の社内規定や品質マニュアル、決算短信などのドキュメントのデータを整形し、生成AIに学習、参照させたところ、従来の生成AIと比較して誤回答を約90%削減できたという。
2024年1月には、企業、団体向けに同技術の提供を開始する。さらに、契約書や帳簿類など膨大なドキュメントを扱う自治体や金融機関に向けて、生成AIを活用して業務のDX(デジタルトランスフォーメーション)につなげるサービスを開発する予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.