【ひと目で分かる】統計検定2級推定問題

データサイエンス

統計検定2級の出題範囲である、「推定」についてまとめました。

推定には以下2種類の方法があります。

 点推定:平均値等を1つの値で推定
 区間推定:平均値等を区間で推定

順番に見ていきます。

点推定

母平均の点推定

テクニック:点推定では、大数の法則「標本平均の期待値は母平均と一致する」を用いて、
標本平均を母平均と見なします。

計算式:

$$\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$$

区間推定

区間推定は、母集団が正規分布に従うと仮定できる際に、標本から得られた値を使って区間(=信頼区間)で母平均などの母数を推定する方法です。

「信頼区間」は、「母集団から標本を取ってきて、その標本から母平均・母分散の○○%信頼区間を求める、という作業を100回やったときに、○○回はその区間の中に母平均・母分散が含まれる」という意味です。

推定方法は以下があります。

母平均の区間推定

・母分散がわかっている場合の母平均の区間推定

・母分散がわからない場合の母平均の区間推定

・母平均の差の区間推定

母比率の区間推定

・母比率の区間推定

・母比率の区間推定の幅

・母比率の差の区間推定

母分散の区間推定

・母分散の区間推定

母平均の区間推定 

母平均の区間推定は以下の通り求めることができます。

母分散がわかっている場合(母分散既知)の母平均の区間推定

テクニック:母分散\(\sigma^2\)を使用

使用する分布表:標準正規分布表

信頼区間:

$$\bar{x}-z_{\frac{1-\alpha}{2}} \times \sqrt{\frac{\sigma^2}{n}} \leq \mu \leq \bar{x}+z_{\frac{1-\alpha}{2}} \times \sqrt{\frac{\sigma^2}{n}}$$

母分散が分からない場合(母分散未知)の母平均の区間推定

テクニック:不偏分散\(s^2\)を使用

$$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} {(x_i-\bar{x})^2}$$

使用する分布表:t分布

信頼区間:

$$\bar{x}-t_{\frac{\alpha}{2}}{(n-1)} \times \sqrt{\frac{s^2}{n}} \leq \mu \leq \bar{x}+t_{\frac{\alpha}{2}}{(n-1)} \times \sqrt{\frac{s^2}{n}}$$

母平均の差の区間推定

2つの異なる母集団の平均の差(=母平均の差)の信頼区間も算出できます。
以下2つのデータの種類によって算出方法が異なります。

 対応のあるデータ: 同じ個体群で繰り返し測定したデータ
 対応のないデータ: 測定した個体群が異なるデータ

「対応のあるデータ」の場合

テクニック:それぞれのデータ差の平均値\(\bar{x}_{d}\)と不偏分散\(s^2_{d}\)を使用

使用する分布表:t分布

信頼区間:

$$\bar{x}_{d}-t_{\frac{\alpha}{2}}{(n-1)} \times \sqrt{\frac{s^2_{d}}{n}} \leq \mu_{d} \leq \bar{x}_{d}+t_{\frac{\alpha}{2}}{(n-1)} \times \sqrt{\frac{s^2_{d}}{n}}$$

「対応のないデータ」の場合の信頼区間

テクニック:それぞれのデータの平均値と不偏分散、それぞれのデータから算出される分散をまとめた分散\(s^2_{p}\)(プールされた分散)を使用

使用する分布表:t分布

$$s^2_{p}=\frac{(n_{1}-1)s^2_{1}+(n_{2}-1)s^2_{2}}{n_{1}+n_{1}-2}$$

信頼区間:

$$(\bar{x}_{1}-\bar{x}_{2})-t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) \times \sqrt{s^{2}_{p}(\frac{1}{n_{1}}+\frac{1}{n_{2}})} \leq \mu_{1}-\mu_{2} \leq$$ $$(\bar{x}_{1}-\bar{x}_{2})+t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) \times \sqrt{s^{2}_{p}(\frac{1}{n_{1}}+\frac{1}{n_{2}})}$$

母比率の区間推定

テクニック:
 ・中心極限定理より、母集団が正規分布に従わない場合でも、
  標本が十分に大きい場合には標本平均の分布は正規分布に従う
 ・比率が不明なときは0.5を使用

使用する分布表:標準正規分布表

信頼区間:

$$\hat{p}-z_{\frac{\alpha}{2}} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+z_{\frac{\alpha}{2}} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

母比率の信頼区間の幅

必要なサンプルサイズを問われる問題が出題されることがあります。下記母比率の信頼区間の幅を使用して\(n\)を求める。

信頼区間の幅\(x\)%:

$$2 \times z_{\frac{1-\alpha}{2}} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq \frac{x}{100}$$

母分散の区間推定

テクニック:標本の不偏分散\(s^2\)を使用

使用する分布表:カイ二乗分布表

信頼区間:

$$\frac{(n-1)s^2}{\chi^{2}_{\frac{\alpha}{2}}(n-1)} \leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^{2}_{1-\frac{\alpha}{2}}(n-1)}$$

コメント

タイトルとURLをコピーしました