본문 바로가기

Data Science

확률과 베이즈 정리

Untitled15

확률(Probability)과 베이즈 정리(Baye's theorem)

1. 확률

  • 결합확률
    $P(A)$ : A가 발생할 확률
    $P(A,B)$ : A와 B가 동시에 발생할 확률
  • 조건부 확률
    $P(A|B)$ : B가 발생했을 때 A가 발생할 확률

\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} \end{equation*}

조건부 확률의 정의를 바꿔 쓰면,

\begin{equation*} P(A,B) = P(A|B)P(B) \end{equation*}

$A, B$가 모두 발생할 확률은 $B$라는 사건이 발생할 확률과 그 사건이 발생한 경우 다시 $A$가 발생할 경우의 곱

  • 독립
    $P(A,B) = P(A)P(B)$ 일 때 A와 B는 독립이다.

\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A) \end{equation*}

2. 베이즈 정리

1) Simple form

\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)} \end{equation*}

  • $P(A|B)$ : 사후 확률(posterior). B가 발생한 후 갱신된 A의 확률
  • $P(A)$ : 사전 확률(prior). B가 발생하기 전, A의 확률
  • $P(B|A)$ : likelihood. A가 발생한 경우 B의 확률
  • $P(B)$ : 정규화 상수(normalizing constant). 확률의 크기 조정

2) 증명

\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} → P(A,B) = P(A|B)P(B) \end{equation*}

\begin{equation*} P(B|A) = \frac{P(A,B)}{P(A)} → P(A,B) = P(B|A)P(A) \end{equation*}

\begin{equation*} P(A,B) = P(A|B)P(B) = P(B|A)P(A) \end{equation*}

\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)} \end{equation*}

3) Extended form 1

$A_i$ 가 $A_i \cap A_j = \emptyset$ 이고 $A_1 \cup A_2 \cup \cdots = \Omega$라면,

\begin{equation*} P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{P(B|A_1)P(A_1)}{\Sigma_iP(A_i,B)} = \frac{P(B|A_1)P(A_1)}{\Sigma_iP(B|A_i)P(A_i)} \end{equation*}

$A_1 = A,\ A_2 = A^C$ 인 경우에는 다음과 같다.

\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)}\\ = \frac{P(B|A)P(A)}{P(B,A) + P(B,A^C)}\\ = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)}\\ = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1-P(A))} \end{equation*}

4) Extended form 2

베이즈 정리는 A의 확률이 B에 의해 갱신(update)될 확률을 계산한다. 이 상태에서 C가 추가적으로 발생할 경우 베이즈 정리는 다음과 같다.

\begin{equation*} P(A|B,C) = \frac{P(C|A,B)P(A|B)}{P(C|B)} \end{equation*}

이를 A와 C만 있는 경우와 비교

\begin{equation*} P(A|C) = \frac{P(C|A)P(A)}{P(C)} \end{equation*}

(증명) \begin{equation*} P(A,B,C) = P(A|B,C)P(B,C) = P(A|B,C)P(C|B)P(B)\\\ P(A,B,C) = P(C|A,B)P(A,B) = P(C|A,B)P(A|B)P(B)\\ P(A|B,C)P(C|B)P(B) = P(C|A,B)P(A|B)P(B)\\ P(A|B,C) = \frac{P(C|A,B)P(A|B)}{P(C|B)} \end{equation*}

'Data Science' 카테고리의 다른 글

데이터 분석과 선형대수  (0) 2018.07.07
노동패널 data 구성 전처리 방법 정리  (3) 2018.02.07
Data Science의 정의  (0) 2017.11.14
Data Science의 필요성  (0) 2017.11.13
'코딩' 교육  (0) 2017.10.13