多様性予測定理

集団の知恵

この実験は「集団の知恵」（Wisdom of the Crowd）として広く知られています。集団全体の誤差を計算する場合、各個人の誤差の平均を取るよりも、集団全体の平均予測値と実際の値との差を見るのが一般的。つまり、集団の誤差はしばしば以下のように計算される。

\[ \text{集団の誤差} = ( \text{集団の平均予測値} − \text{実際の値})^2 \]

この計算は、集団全体の推測がどれほど正確であったかを評価するために用いられます。

全体の平均二乗誤差（MSE）が、集団の平均誤差と各個人の予測値が集団の平均からどれだけずれているか（バラつき）の和であることを示す。 bar y は集団の平均予測値。N はサンプルサイズ。

\[ \frac{1}{N} \sum_{N=i}^{N} (y_i - \text{True Value})^2 = (\bar{y} - \text{True Value})^2 + \frac{1}{N} \sum_{i=1}^{N} (y_i - \bar{y})^2 \]

ちなみに、MSE(平均二乗誤差) は下。

\[ \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \text{True Value})^2 \]

つまり、集団の誤差((集団の平均予測値 − 実際の値)^2)は MSE - 多様性がかかった値(なぜなら、集団の平均で個々の予測値を引いているから)ということ。

ゆえに、多様性がある予測が正しくなる。

\[ \frac{1}{N} \sum_{i=1}^{N} (y_i - \text{True Value})^2 = (\bar{y} - \text{True Value})^2 + \frac{1}{N} \sum_{i=1}^{N} (y_i - \bar{y})^2 \]

成分について

バイアス（Bias）: \((\bar{y} - \text{True Value})^2\)
- 集団の平均予測値 \(\bar{y}\) が実際の値（True Value）からどれほど離れているか。
- NOTE: ただしくは Bias の二乗
分散（Variance）: \(\frac{1}{N} \sum_{i=1}^{N} (y_i - \bar{y})^2\)
- 各個人の予測値 \(y_i\) が集団の平均予測値 \(\bar{y}\) からどれだけばらついているか。

重要なポイント

別の言い方をすると、

\[ \text{MSE} = \text{Bias}^2 + \text{Var} + \text{Error} \]

NOTE: Error は予測がどれほど良くても削除できない基本的な誤差を示す。エラー項と呼ばれる。英語だと、irreducible error。