富士通は、中国の関連子会社である富士通研究開発中心が中国古文書の文字認識に用いる深層学習技術において、少数の学習用データでも高精度な文字認識ができる技術を開発したと発表した。
富士通は2017年2月21日、中国の関連子会社である富士通研究開発中心が中国古文書の文字認識に用いる深層学習技術において、少数の学習用データ(以下、教師データ)でも高精度な文字認識ができる技術を開発したと発表した。同技術を用いて古文書文字の電子化を促進し、中国古文書の公共利用と歴史研究などの学術の発展に貢献することが期待される。
同技術は、古文書の文字画像を文字と結び付けた教師データで学習させる深層学習の認識エンジンと、文字と結び付けていない2つの文字画像が同じか異なるかを学習する深層学習エンジンとを組み合わせて学習させるものだ。
まず、認識エンジンXを利用して文字画像データに仮の文字ラベルを付け、学習に利用する。次に、仮の文字ラベルを付けた文字画像から2つの文字ペアをランダムに生成し、認識エンジンY、Zに入力。2つの文字が同じか異なるかの結果だけを認識エンジンXに学習させる。これを繰り返し、認識エンジンXの学習が進むに従い、不正解の仮の文字ラベル数は減少し、認識精度が高まる。十分に学習させた認識エンジンXで認識を実行すれば、少数の教師データでも高い認識精度を発揮できる。
同技術を中国古文書文字認識用の中国敦煌古籍文献画像を用いたベンチマークに適用した。その結果、従来技術で得られる81%と同じ精度を、1文字当たり約70%少ない教師データ数で達成できた。また、同ベンチマークにおいて1文字当たり50個の教師データを用いて学習させた場合、従来の82%より高い88%の認識率を達成した。
中国には5000万冊以上の古文書が現存するが劣化や破損が懸念されている。そこで古文書のテキストデータ化が進められているが、現在は専門家が手作業で行っており、全ての古文書を電子化するためには多大な時間とコストが掛かる。また、従来の深層学習技術による文字認識では、文字画像と教師データを認識エンジンが学習していた。教師データの数が多いほど認識精度も高まるが、古文書文字への適用では教師データの数が不十分なことが課題となっていた。こうした背景を受けて、同技術が開発された。
同社は同技術を中国古文書電子化ソリューションとして展開していく。また、日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効だという。さらに、2018年度に同社のAI技術「Human Centric AI Zinrai」への活用を目指すとしている。
Copyright © ITmedia, Inc. All Rights Reserved.