難しそうな「統計」ですが、データの分析以上に重要なのが「収集」です。今回は、統計分析の前段階に相当する「データを集める」という部分に焦点を当てて解説します。
ソフトウェア工学、特に、品質制御では、バグや開発ステップの統計データを収取して、プロジェクトをより良い方向へ導こうとします。いろんな会社でいろんなデータを集め、社内で決まった「独自の分析手法(門外不出の場合が多く、簡単にはうかがい知れません)」を駆使し、「このプロジェクトは危ない」などの「工学的イエローカード」を出していると思います。
各社でのデータ分析の手順は、(1)「データを収集する」、(2)「データを解析する」、(3)「結果や教訓を得る」ですが、一番簡単そうに見える「データ収集」が意外にくせ者です。
これまで5回を掲載してきた統計シリーズをご覧頂き、「意外に簡単そうなんで、ウチでもプロジェクトのデータを分析してみよう!」と興味を持っていただいた方もいると思います。ですが、プロジェクトのデータを分析する前に、まずは、データを収集しなければなりません。
データを収集する前に、「ソフトウェア開発のどんなデータを収集し」「何を分析する」かを考えることは、エベレストの登頂する前の綿密な計画と同じで、非常に重要です。ある意味、プロジェクト分析者の腕の見せ所です。
ソフトウェア開発では、あらゆるデータが使用できます。例えば、ソースコード行数、レビュー時間、要求仕様書のページ数、摘出バグ数、開発工数など、よりどりみどりです。この中から自分の欲しいデータを選び、高精度なデータ分析を実施したいところですが、データの収集方法によって、データの精度が大きく変わります。
今回は、データ分析の前段階に相当する「データを集める」という部分に焦点を当てて解説します。
直感的に「データ分析」と比べて、「データ収集は簡単だろ!」と考えてしまいがちです。小学生の「夏休みの朝顔の観察日記」では、毎日朝9時にツルの長さ、葉の枚数と大きさ、つぼみの数や長さを測った人も多いでしょう。データ分析に比べて、小学生でも悩まずに実施できるデータ収集は簡単そうですが、意外な問題点や課題があります。
Copyright © ITmedia, Inc. All Rights Reserved.