条件付き確率の話

今日は確率について。僕は数学は割と好きな方だったけど、確率にはあまりよい思い出はない。久しぶりに確率の勉強をしていて、気にかかることに出会ったし、数式使ってみたかったのでブログに載せようと思う。

プログラミングのための確率統計1第2章の冒頭に、以下の会話がある。

A: 私の調査によるとゲーム機所持者の犯罪者は50%以上です。何らかの規則をするべきでしょう。
B: 何そのやたら高い数字?
A: 最近の少年犯罪では犯人の半数以上がゲーム機を所持していました。
B: ええと、つっこみ所ありすぎて困るんだけど、とりあえず犯罪関係なしで最近の少年のゲーム機所持率から調べなおしてくれない?

会話の流れからAさんの主張がおかしいことは読み取れるが、
なぜ間違っているのかちゃんと説明できるだろうか?
少なくとも僕は即答できなかったので、今日はこの説明をする。

日本語を数式に

それでは会話をもう少し理解するために、これらを数式で表現してみよう。
(ややこしい問題はまず数式で表現してみるだけでも少し整理できるものだから)

「ゲーム機所持者の犯罪者が50%以上」をどう表現する?

Aさんのはじめの発言の数式表現は正直難しいと思っている。というのは、
- ゲーム機所持者でかつ犯罪をおかす確率が50%以上なのか?(同時確率)
- ゲーム機所持しているならば、その人が犯罪を犯す確率は50%以上なのか?(条件付き確率)
のどちらか判定できないからだ。
ひとまず話をこのさきを進めやすくするため、後者だと想定する。
だから、数式にすると

P(Y=犯罪をおかす| X=ゲーム機所持) \geq \frac{1}{2} \tag{1}

「最近の少年犯罪では犯人の半数以上がゲーム機を所持していました」をどう表現する?

こちらは簡単。

{
    P(X=ゲーム機所持 | Y=少年犯罪を犯す) \geq \frac{1}{2} \tag{2}
  }

もう一度会話を整理

Aさんは、(1)故にゲームを所持しないように規制すべきだという。
つづいてBさんがその根拠は何かという疑問に対して、(2)が根拠だとわけだ。

もう少しシンプルに表現すれば、
P(X=ゲーム機所持| Y=犯罪をおかす) \geq \frac{1}{2}
がなりたつとき、
P(Y=犯罪をおかす| X=ゲーム機所持) \geq \frac{1}{2}
も成り立つから、ゲームを持たせるなという主張をしている。
つまり、条件付き確率の条件を入れ替えても確率が同じだという主張だ。
(もっとも少年犯罪も犯罪も同じと考えているが...)

Aさんの判断の間違いはどこか?

では、条件付き確率の条件を入れ替えても確率が同じとなるのは、
P(X=ゲーム機所持)やP(Y=犯罪をおかす)がどのような関係にあるときだろうか調べてみよう。

条件付き確率の公式

P(A|B) = \frac{P(B|A)P(A)}{P(B)}

を利用すると、(1)は、

{P(X=ゲーム機所持| Y=犯罪をおかす) =
  \frac{P(Y=犯罪をおかす|X=ゲーム機所持)P(X=ゲーム機所持)}
  {P(Y=犯罪をおかす)}
}

さらに変形して、

{
  P(Y=犯罪をおかす|X=ゲーム機所持)
  \geq
  \frac{1}{2}\frac{P(Y=犯罪をおかす)}{P(X=ゲーム機所持)}
}

仮にP(Y=犯罪をおかす|X=ゲーム機所持)が50%であったとすると、

{
  \frac{1}{2}
  \geq
  \frac{1}{2}\frac{P(Y=犯罪をおかす)}{P(X=ゲーム機所持)}
}

{
  P(Y=犯罪をおかす) \geq P(X=ゲーム機所持)
}

これは普通当てはまらないと容易に想像できる。
だからBさんが最後にゲーム機の所持率から調べなおしてというのである。


  1. プログラミングのための確率統計

    プログラミングのための確率統計