富士通研究所は、データの整形や統合処理などデータの利活用時に必要な準備作業を自動化する技術を開発した。これまで膨大な時間を要していた、目的とするデータ統合結果を得るための組み合わせ探索処理を効率化することに成功した。
富士通研究所は2017年9月15日、データの整形や統合処理などデータの利活用時に必要な準備作業を自動化する技術を開発したと発表した。
さまざまなデータを活用するには、データの整形や統合などの準備作業が必要だ。この準備作業の自動化には、多様な変換処理や不足しているデータセットの補填をしつつ、目的とするデータ統合結果が得られるような組み合わせをライブラリとして用意した補助データセットから調べて探索する必要がある。この整形処理が複雑になると、探索すべき組み合わせの数も増大するため、処理に膨大な時間がかかっていた。
同研究所が開発したのは、この組み合わせの探索処理を効率化することで、変換処理数や不足データセットの数が増えても高速で処理できる技術だ。
加工前のデータから出発し、表記や形式の統一、単位変換、不足データの結合といった変換処理を施した中間結果を算出し、中間結果と加工後の最終データとの類似度を比較する。類似度の高い中間決算を元にさらに変換処理を施し、これを繰り返すことで目的の最終データに近づける。
今回、中間結果に対して施す変換処理と結果の履歴を保持し、加工後の最終データに類似するデータとなるために必要な変換処理を予測する技術により、探索の効率化に成功した。単純に加工後のデータを元に探索する場合と比較して、同技術では探索時間が数十分の1に短縮できた。
さらに、補助データの列ごとに値の分布の特徴をメタデータとして算出し、中間データからの特徴と類似度を比較して、不足データを高速で絞り込む技術も開発した。
これらの技術を約8000件のPOS購買データからマーケティング分析するデータセットに適用したところ、従来は5日かかったデータ準備作業が約半日で完了できた。
今後、同技術の実証実験を進めながら、変換処理の種別を拡充したり、補助データとしてオープンデータに対応したりと機能を拡張し、2018年度の実用化を目指す。
Copyright © ITmedia, Inc. All Rights Reserved.