統計の食わず嫌いを直そう(その10)、ワインを飲まずに品質を予測する方法:山浦恒央の“くみこみ”な話(82)(3/3 ページ)
統計アレルギーの解消には、身近な分野で考えてみることも大切です。今回は「ワインを飲まずに、ワインの品質を予測する方法」を例に統計に触れてみましょう。
この「アッシェンフェルターのワイン方程式」は以下の通りです。
ワイン価格 = 前年10月〜3月の降水量 * 0.0017 - 8,9月の降水量 * 0.00386 + 4 〜9月の平均気温 * 0.616 + ワインの年齢 * 0.02358 - 12.145(式I)
「なんだか複雑だな……」とビビる必要はありません。以下の関係を合成したものが上式と考えればよいです。
- (1)収穫前年の10月〜3月の降水量とワイン価格に正の相関がある(ブドウを収穫する前年の冬の降水量が多いほど、ワインの価格は高い)。
- (2)8〜9月の降水量とワイン価格は負の相関がある(8〜9月の雨量が多いほどワインの価格は低い)
- (3)4〜9月の平均気温とワイン価格には正の相関がある(4〜9月の平均気温が高いほどワインの価格は高い)
- (4)ワインの熟成年数と価格に正の相関がある(ワインの年代が古くなるほど、ワインの価格は高くなる)
アッシェンフェルターの数式は、統計的、数式的にそれらしく見えます。ですが、ワイン専門家たちからは「激怒から爆笑の間ぐらい」、ワインの帝王、ロバート・パーカーからは「映画そのものを観ずに、役者や監督だけで映画の良しあしを語る映画評論家みたいなもの」と評判は最悪だったようです。「アッシェンフェルターのワイン方程式」は、「試飲なんかしなくても、ワインの品質が分かる」とワイン評論家に正面からケンカを売っている訳で、評論家が激怒する気持ちも十分、理解できます。
論争の後、アッシェンフェルターの発想が少しずつ浸透し、実際に相関関係を計算してみると、相関係数は0.9という高い数値を出したそうです。1.0は完全な相関関係を示すので、非常に良い数値と言えます。今では、アッシェンフェルターの数式を考慮して評価する評論家もいるようです。この数式は、投資家には役に立ちそうですが、どんな香りや味なのか、いつが飲み頃かを知りたい「飲み手」には、評論家のコメントの方が有益です。
4. 相関分析と回帰分析
アッシェンフェルターがどのような分析手法を使用したか振り返ります。
まず、過去の天候データを大量に収集したことでしょう。その後、「相関分析」と呼ぶ手法を用い、上記の(1)〜(4)の関係性を発見しました。相関分析は2変数の関係性がどの程度強いかを把握する手法です。2変数の関係性の強さは、「相関係数」という数値で表し、一般的に0.7以上を強い相関と見ます。つまり、アッシェンフェルターは相関分析を用い、ワイン価格が天候と関係していると分析したのです。
次に、上記の4つの関係から、「回帰分析」という手法で式Iを導出しました。2変数の片方からもう片方がどう変化するか予測する手法です。3変数以上の場合は、「重回帰分析」を使います。これにより、その年の天候データを入力するとワイン価格が予測できます。
「相関分析」と「回帰分析」のどちらも統計学の主要テーマです。
5. 終わりに
統計学の応用事例は多岐にわたり、ネタはたくさん転がっています。そこで今回は、一見、統計学とは無関係に見えるワイン業界での統計分析の活用例を紹介しました。より詳しく知りたい方は下記の参考文献をご覧ください(1、2)。ワイン業界に限らず自分の興味がある分野で、どんな分析手法を使用しているか調査し、それをソフトウェア開発現場に適用できると面白いと思います。
次回は、実際に簡単な回帰分析を紹介します。
参考文献
『統計と確率ケーススタディ30-基礎知識と実践的な分析手法』(ニュートンムック Newton別冊、2014年、ニュートンプレス)
『その数字が戦略を決める』 (イエン・エアーズ 著、2010年、文藝春秋)
東海大学 大学院 組込み技術研究科 准教授(工学博士)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 統計の食わず嫌いを直そう(その9)、昼休みにタダで統計分析をする方法
「統計分析」と聞くと面倒な感じですが、何を証明するか明確ならExcelで簡単にこなせます。Excelさえあれば追加費用はかからず、しかもランチタイムに終わるほどカンタンなのです。 - 統計の食わず嫌いを直そう(その8)、統計的に「王様の耳はロバの耳」と言うために
「王様の耳はロバの耳」と統計的に判定するには、どうすればいいのでしょうか?ロバの耳かも?という仮説を“検定”するための基本的な考え方を学びます。 - 統計の食わず嫌いを直そう(その7)、「鎌倉時代の平均ワイン消費量」と「平均値の検定」
「効果がある」と言うためには比較が必要です。新旧開発プロセスの生産性や品質の平均値を比べるためには、「平均値の差の検定」が必要となります。 - 食わず嫌いを直そう、朝顔の観察日記とデータ収集(その6)
難しそうな「統計」ですが、データの分析以上に重要なのが「収集」です。今回は、統計分析の前段階に相当する「データを集める」という部分に焦点を当てて解説します。 - 食わず嫌いを直そう、「平均値」だけが平均じゃない!(その5)
データ解析の王様ともいえる「平均値」ですが、それが本当に母集団の性質を表現しているかは確認すべき事項です。母集団によっては「最頻値」や「中央値」の採用を考慮すべきです。