確率分布の利用 (2) MAP推定

なんとなく昔学んだことを吐き出したくなりました2。

お題

コイントスn回繰り返してr回表が出た。更に1回コイントスしたとき表が出る確率を考える。

解答

確率分布パラメータを推定する解

MAP推定

確率分布パラメータ\thetaは確定していなく、これもまた何らかの確率分布に従っている。 コイントスn回繰り返してr回表が出たときの\thetaの確率分布p(\theta|n,r)を考える。これを事後分布という。

ベイズの定理から


\begin{aligned}
p(\theta|n,r)&=\displaystyle{\frac{p(\theta, n, r)}{p(n, r)}}\\
&\propto p(n, r|\theta)p(\theta)\\
p(n, r|\theta)&=\displaystyle{\binom{n}{r}}\theta^r(1-\theta)^{n-r}
\end{aligned}

p(\theta)コイントスをする前の\thetaの確率分布であり事前分布という。 事前分布についてはなんら情報がないが、共役事前分布というものを用いるのが一般的(と思う)。 共役事前分布は事象の確率(関数)と同じ形の確率分布である(正確な定義は知らない)。

なぜ共役事前分布を用いるのか、そうすると便利以外の理由は知らないが、例えばコイントスを1回やってから事後分布を求め、更にコイントスを行い2回目の事後分布を求めることを考える。 このとき1回目の事後分布は2回目の事前分布であるから、事前分布と事後分布は同じ形でなければならないと考えられる。

コイントスを繰り返す試行の確率分布(二項分布という)の共役事前分布はベータ分布である。


p(\theta) = \displaystyle{\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{ B (\alpha, \beta)}}

事後分布を最大にする\thetaの値をもって\thetaの推定値とするのがMAP推定。


\begin{aligned}
\displaystyle{\frac{\partial}{\partial\theta}}p(\theta|n,r)&\propto \displaystyle{\frac{\partial}{\partial\theta}}\theta^r(1-\theta)^{n-r}\cdot \theta^{\alpha-1}(1-\theta)^{\beta-1} \\
&= \displaystyle{\frac{\partial}{\partial\theta}}\theta^{r+\alpha-1}(1-\theta)^{n-r+\beta-1}\\
&= (r+\alpha-1)\theta^{r+\alpha-2}(1-\theta)^{n-r+\beta-1} + \theta^{r+\alpha-1}(n-r+\beta-1)(1-\theta)^{n-r+\beta-2}\cdot(-1) \\
&= \theta^{r+\alpha-2}(1-\theta)^{n-r+\beta-2}\bigl((r+\alpha-1)(1-\theta)-\theta(n-r+\beta-1)\bigr)
\end{aligned}

\displaystyle{\frac{\partial}{\partial\theta}}p(\theta|n,r)=0なる\thetaを求める。


\begin{aligned}
(r+\alpha-1)(1-\theta)-\theta(n-r+\beta-1)&=0\\
r+\alpha-1-(r+\alpha-1)\theta-\theta(n-r+\beta-1)&=0\\
(n+\alpha+\beta-2)\theta&=r+\alpha-1\\
\theta&=\frac{r+\alpha-1}{n+\alpha+\beta-2}
\end{aligned}

ということで、コイントスを1回行って表が出る確率\theta\displaystyle{\frac{r+\alpha-1}{n+\alpha+\beta-2}}と推定されたので、更に1回コイントスしたとき表が出る確率は\displaystyle{\frac{r+\alpha-1}{n+\alpha+\beta-2}}と考えられる。 この値は最尤推定と比較して\alpha, \betaという変数を追加することにより観測値の影響を調整している。

またベータ分布において\alpha=\beta=1とすると一様分布となるが、このときMAP推定値は\displaystyle{\frac{r}{n}}となり最尤推定と一致する。