ベイズの定理の確認
定理は、
P(B|A) = P(A&B) / P(A) = P(B) * P(A|B) / (P(B) * P(A|B) + P(B') * P(A|B'))
たとえばスパムメールの例で考える。
- B:スパムメール
- B':スパムで無いメール
- A:『未承諾』という単語が入ってるメール
- P(B):スパムメールの割合
- P(B'):スパムでないメールの割合
- P(A|B):スパムメールの中で「未承諾」が入ってるメールの割合
- P(A|B'): スパムで無いメールの中で「未承諾」が入ってるメールの場合
- P(B|A): 「未承諾」が入ってるメールがスパムメールである割合
この仕組みを使うことで、過去にあるデータ(P(B)、P(B')、P(A|B)、P(A|B') )から、あたらしく来たものの性質からそれがどの分類になるだろうか(P(B|A) )を推測できる。
BとB'の二つだけでなく、B1,B2,...Bnでも適用できる。この場合はB1(友人カテゴリー)、B2(メーリングリスト)、B3(決済)、...のような分類で行うと考える。Aが来たときにそれがどのカテゴリーなのかを確率で出せる。
事前に振り分けてあったスパムとそうでないメールから、各単語についてそれがスパムである割合を計算してあり、来たメールについてそれらの単語のスパム率を重みにしてランクを出せる仕組みがベイジアンネットワーク、でいいのかな。