統計検定2級を受験する上で確率分布について整理してみました。
※もし間違いがございましたらお手数ですがご指摘いただけると嬉しいです。
確率分布は大きく2つに分けることができます。
・離散分布
・連続分布
離散分布のときは確率関数を「確率質量関数」、連続分布のときは確率関数を「確率密度関数」と呼びます。
以下にてそれぞれの分布の種類と特徴を説明します。
離散分布
離散分布とは、起こりうる結果の値が飛び飛びになっている確率分布のことです。
離散分布の種類は以下の通りとなります。
離散型一様分布
すべての結果は同様に確からしい(=すべての事象が等確率で起こる)場合は、一様分布に従います。
例:サイコロの目のでる確率は1〜6の目ですべて\(\frac{1}{6}\)で等確率となります。
期待値(平均)
$$E(x)=\frac{N+1}{2}$$
分散
$$V(x)=\frac{N^2-1}{12}$$
確率質量関数
$$P(X=k)=\frac{1}{N}$$
\(k\)はとある一つの事象を指します。
ベルヌーイ分布
起こり得る結果がYes or Noの2つの事象で表される場合は、ベルヌーイ分布に従います。
Yesの確率が\(p\)のとき、Noの確率は\((1-p)\)となります。
期待値(平均)
$$E(x)=p$$
分散
$$V(x)=p(1−p)$$
確率質量関数
$$f(k;p)=p^k(1−p)^{1−k}$$
\(k\)は成功のとき\(k=1\)、失敗のとき\(k=0\)を表す
幾何分布
成功確率が\(p\)である独立なベルヌーイ試行を繰り返す時、初めて成功するまでの試行回数は幾何分布に従います。
期待値(平均)
$$E(x)=\frac{1}{p}$$
分散
$$V(x)=\frac{1−p}{p^2}$$
確率質量関数
$$f(x)=p(1-p)^{x-1}$$
\(x\)は最初に成功するまでの試行回数を確率変数を指します。
二項分布
同じような実験を複数回行う場合は、二項分布に従います。1回の試行に対して起こり得る事象は2つであり、
その2つの事象が起こる試行を複数回を繰り返します。ベルヌーイ試行を複数回繰り替えると二項分布になります。
期待値(平均)
$$E(x)=np$$
分散
$$V(x)=np(1−p)$$
確率質量関数
$$f\left( x\right) =\begin{pmatrix} n \\ x \end{pmatrix}p^{x}(1-p)^{n-x}$$
\(x\)は成功回数を指します。
ポアソン分布
与えられた期間において、ある事象が何回発生するかを表す場合はポアソン分布に従います。
例:1時間に平均2回起こる事象がある1時間に10回起こる確率を求める場合
期待値(平均)
$$E(x)=np=λ$$
分散
$$V(x)=λ$$
確率質量関数
$$P(X=k)=\frac{e^{-λ}λ^k}{k!}$$
上記はある期間に平均\(λ\) 回起こる現象が、ある期間に\(x\)回起きる確率となり。
連続分布
連続分布とは、起こりうる結果の値が繋がった連続値となっている確率分布のことです。
連続分布の種類は以下の通りとなります。
連続型一様分布
起こりうる結果が連続値の場合で、起こりうる結果がどのような値でも、
その時の確率密度関数が一定の値をとる分布のこと連続型一様分布といいます。
起こりうる結果の値\(X\)は\(a\leq{X}\leq{b}\)を取ります。
期待値
$$E(x)=\frac{a+b}{2}$$
分散
$$V(x)=\frac{(b-a)^2}{12}$$
確率密度関数
$$f(x)=\frac{1}{(b-a)}(a\leq{x}\leq{b})$$
$$f(x)=0(x<a,x>b)$$
正規分布
平均値を中心にして左右対称の連続型の確率分布を正規分布(ガウス分布)といいます。
平均値と最頻値と中央値が一致します。
世の中の多くの事象が正規分布に従うとみなせます。
期待値
$$E(x)=μ$$
分散
$$V(x)=σ^2$$
確率密度関数
$$f(x)=\frac{1}{\sqrt{2πσ^2}}exp[-\frac{(x-μ)^2}{2σ^2}]$$
標準正規分布
正規分布を標準化(平均0、分散1)したものを標準正規分布といいます。「標準正規分布表」を用いて確率を求めます。
期待値
$$E(x)=0$$
分散
$$V(x)=1$$
確率密度関数 ※正規分布の確率密度関数にE(x)=0、V(x)=1を代入
$$f(x)=\frac{1}{\sqrt{2π}}exp[-\frac{x^2}{2}]$$
t分布
標本の数が十分でない場合、t分布に従います。母集団の平均と分散が未知な状態で、母平均を求める場合、t分布を使用します。
正規分布は母数を用いて確率を求めるのに対して、t分布は不偏推定量を用います。
また、自由度を大きくなるにつれて正規分布に近付きます。
「t分布表」を用いて確率を求めます。
期待値
$$E(x)=0$$
分散
$$V(x)=∞ (1<γ≤2)$$
$$V(x)=\frac{γ}{γ−2} (γ>2)$$
確率密度関数
$$f(x)=\frac{\Gamma(\frac{ν+1}{2})}{\sqrt{ν\pi}{\Gamma(\frac{ν}{2})}}{(1+\frac{x^2}{ν})}^{-(\frac{ν+1}{2})}$$
カイ二乗分布
カイ二乗分布は標本と標本平均とのズレ度合いを表し、母集団の平均と分散が未知な状態で、母分散を求める場合、カイ二乗分布を使用します。
カイ二乗分布のグラフは左右非対称、マイナスの値を持たない分布となっており、自由度によって大きく形状が変わります。
「カイ二乗分布表」を用いて確率を求めます。
期待値
$$E(x)=k$$
分散
$$V(x)=2k$$
確率密度関数
$$f(x)=\frac{x^{{\frac{k}{2}}-1} \mathrm{e}^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}$$
\(k\)は自由度を指します。
指数分布
ランダムなイベントの発生間隔を表す場合は指数分布に従います。
例:機械が故障してから次に故障するまでの期間、地震が発生してから次に起こるまでの期間
期待値
$$E(x)=\frac{1}{λ}$$
分散
$$E(x)=\frac{1}{λ^2}$$
確率密度関数
$$f(X;λ)=λe^{−λx}$$
コメント