확률(Probability)과 베이즈 정리(Baye's theorem)¶
1. 확률¶
- 결합확률
$P(A)$ : A가 발생할 확률
$P(A,B)$ : A와 B가 동시에 발생할 확률
- 조건부 확률
$P(A|B)$ : B가 발생했을 때 A가 발생할 확률
\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} \end{equation*}
조건부 확률의 정의를 바꿔 쓰면,
\begin{equation*} P(A,B) = P(A|B)P(B) \end{equation*}
$A, B$가 모두 발생할 확률은 $B$라는 사건이 발생할 확률과 그 사건이 발생한 경우 다시 $A$가 발생할 경우의 곱
- 독립
$P(A,B) = P(A)P(B)$ 일 때 A와 B는 독립이다.
\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A) \end{equation*}
2. 베이즈 정리¶
1) Simple form¶
\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)} \end{equation*}
- $P(A|B)$ : 사후 확률(posterior). B가 발생한 후 갱신된 A의 확률
- $P(A)$ : 사전 확률(prior). B가 발생하기 전, A의 확률
- $P(B|A)$ : likelihood. A가 발생한 경우 B의 확률
- $P(B)$ : 정규화 상수(normalizing constant). 확률의 크기 조정
2) 증명¶
\begin{equation*} P(A|B) = \frac{P(A,B)}{P(B)} → P(A,B) = P(A|B)P(B) \end{equation*}
\begin{equation*} P(B|A) = \frac{P(A,B)}{P(A)} → P(A,B) = P(B|A)P(A) \end{equation*}
\begin{equation*} P(A,B) = P(A|B)P(B) = P(B|A)P(A) \end{equation*}
\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)} \end{equation*}
3) Extended form 1¶
$A_i$ 가 $A_i \cap A_j = \emptyset$ 이고 $A_1 \cup A_2 \cup \cdots = \Omega$라면,
\begin{equation*} P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{P(B|A_1)P(A_1)}{\Sigma_iP(A_i,B)} = \frac{P(B|A_1)P(A_1)}{\Sigma_iP(B|A_i)P(A_i)} \end{equation*}
$A_1 = A,\ A_2 = A^C$ 인 경우에는 다음과 같다.
\begin{equation*} P(A|B) = \frac{P(B|A)P(A)}{P(B)}\\ = \frac{P(B|A)P(A)}{P(B,A) + P(B,A^C)}\\ = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)}\\ = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1-P(A))} \end{equation*}
4) Extended form 2¶
베이즈 정리는 A의 확률이 B에 의해 갱신(update)될 확률을 계산한다. 이 상태에서 C가 추가적으로 발생할 경우 베이즈 정리는 다음과 같다.
\begin{equation*} P(A|B,C) = \frac{P(C|A,B)P(A|B)}{P(C|B)} \end{equation*}
이를 A와 C만 있는 경우와 비교
\begin{equation*} P(A|C) = \frac{P(C|A)P(A)}{P(C)} \end{equation*}
(증명) \begin{equation*} P(A,B,C) = P(A|B,C)P(B,C) = P(A|B,C)P(C|B)P(B)\\\ P(A,B,C) = P(C|A,B)P(A,B) = P(C|A,B)P(A|B)P(B)\\ P(A|B,C)P(C|B)P(B) = P(C|A,B)P(A|B)P(B)\\ P(A|B,C) = \frac{P(C|A,B)P(A|B)}{P(C|B)} \end{equation*}
'Data Science' 카테고리의 다른 글
데이터 분석과 선형대수 (0) | 2018.07.07 |
---|---|
노동패널 data 구성 전처리 방법 정리 (3) | 2018.02.07 |
Data Science의 정의 (0) | 2017.11.14 |
Data Science의 필요성 (0) | 2017.11.13 |
'코딩' 교육 (0) | 2017.10.13 |