시험 준비 및 공부 기록 아카이브 용으로 작성하는 글입니다.
다소 내용이 정제되어 있지 않을 수 있습니다.
확률 기초

확률 변수: 시행의 결과에 따라 값이 결정되는 변수. 위의 그림의 경우 확률변수 $x$는 도, 개, 걸, 윷, 모 중 하나의 값을 가짐. 따라서 $x$ 의 정의역은 {도, 개, 걸, 윷, 모}
확률 분포: 확률 변수가 특정한 값을 가질 확률을 나타내는 함수.
$$ P(X=\text{도})=\frac{4}{16}, P(X=\text{개})=\frac{6}{16}, P(X=\text{걸})=\frac{4}{16}, P(X=\text{윷})=\frac{1}{16}, P(X=\text{모})=\frac{1}{16} $$

결합확률 $P(y, x)$: 두 사건 x, y가 동시에 발생할 확률
조건부확률 $P(x|y)$: 사건 y가 이미 발생했을 때 사건 x가 발생할 확률
곱 규칙: $P(y, x) = P(x|y)P(y)$
합 규칙: $P(x) = \sum_{y} P(y, x) = \sum_{y} P(x|y)P(y)$
베이즈 정리 (중요): $P(y, x) = P(x|y)P(y) = P(x, y) = P(y|x)P(x) \rightarrow P(y|x) = \frac{P(x|y)P(y)}{P(x)}$
$$ \overbrace{P(y|x)}^{\text{사후확률}} = \frac{\overbrace{P(x|y)}^{\text{우도}} \overbrace{P(y)}^{\text{사전확률}}}{P(x)} $$
베이즈 정리는 사후확률 $P(y|x)$를 추정하고 싶을 때 사용하며, 사전확률은 $P(y = c_i) = \frac{n_i}{n}$로 추정함. 우도를 추정할 땐 밀도 추정 기법이 사용되나 이는 6장에서 후술함.
최대 우도: 매개변수 $\Theta$를 모르는 상황에서 매개변수를 추정할 때 사용
일반적인 최대 우도 추정 공식은 $ \hat{\Theta} = \operatorname*{argmax}_{\Theta} P(X|\Theta) = \operatorname*{argmax}_{\Theta} \Pi_{i=1}^{n} P(\mathbf{x}_i|\Theta) $이지만, 이러면 값이 너무 작아지기 때문에 로그 표현으로 바꾸어서 사용하기도 한다.
$$ \hat{\Theta} = \operatorname*{argmax}_{\Theta} \log P(X|\Theta) = \operatorname*{argmax}_{\Theta} \sum_{i=1}^{n} \log P(\mathbf{x}_i|\Theta) $$
평균과 분산 및 유용한 확률분포
데이터의 평균: 데이터 전체의 중심 위치
$$ \mu = \frac{1}{n}\sum_{i=1}^{n}x_i $$
데이터의 분산: 데이터가 평균으로부터 얼마나 널리 흩어져 있는지 나타내는 값. 분산이 작으면 데이터들이 평균 근처에 모여 있고, 분산이 크면 데이터가 평균에서 멀리 흩어져 있음.
$$ \sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2 $$
평균 벡터: 다차원 데이터 전체의 중심 위치
$$ {\mu} = \frac{1}{n}\sum_{i=1}^{n}\mathbf{x}_i $$
공분산 벡터: 다차원 데이터가 평균 벡터로부터 얼마나 널리 흩어져 있는지 나타내는 값.
$$ {\Sigma} = \frac{1}{n}\sum_{i=1}^{n}(\mathbf{x}_i - {\mu})(\mathbf{x}_i - {\mu})^T $$
$$ {\Sigma} = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \dots & \sigma_{1d} \\ \sigma_{21} & \sigma_{22} & \dots & \sigma_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{d1} & \sigma_{d2} & \dots & \sigma_{dd} \end{pmatrix} = \begin{pmatrix} \sigma_1^2 & \sigma_{12} & \dots & \sigma_{1d} \\ \sigma_{21} & \sigma_2^2 & \dots & \sigma_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{d1} & \sigma_{d2} & \dots & \sigma_d^2 \end{pmatrix} $$
가우시안 분포: 평균을 중심으로 좌우가 대칭인 종(bell) 모양으로, 자연계의 수많은 데이터 분포를 설명하는 가장 대표적인 확률 분포. 1차원 가우시안 분포는 평균 $\mu$와 분산 $\sigma^2$로 나타내고, 다차원 가우시안 분포는 평균 벡터 ${\mu}$와 공분산 벡터 ${\Sigma}$, 차원 $d$로 나타냄.
$$ N(x; \mu, \sigma^2) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) $$
$$ N(\mathbf{x}; {\mu}, {\Sigma}) = \frac{1}{\sqrt{|{\Sigma}|(2\pi)^d}} \exp\left(-\frac{1}{2}(\mathbf{x}-{\mu})^T {\Sigma}^{-1}(\mathbf{x}-{\mu})\right) $$

베르누이 분포: 성공 $(x=1)$ 확률이 $p$, 실패 $(x=0)$ 확률이 $1-p$인 분포
$$ \operatorname{Ber}(x; p) = p^x(1-p)^{1-x} = \begin{cases} p, & x=1\text{일 때} \\ 1-p, & x=0\text{일 때} \end{cases} $$
이항 분포: 성공 확률이 $p$인 베르누이 실험을 $m$번 수행할 때 성공할 횟수의 확률 분포
$$ \operatorname{B}(x; m, p) = C_m^x p^x (1-p)^{m-x} = \frac{m!}{x!(m-x)!} p^x (1-p)^{m-x} = \binom{m}{x} p^x (1-p)^{m-x} $$

정보 이론
자기 정보: 사건 $e_{i}$의 정보량, 확률이 작을수록 정보량이 많아진다.
예시) "판사가 피고인에게 유죄를 선포함"보다 "판사가 피고인에게 무력 행사하다가 배심원들도 난입시킴"이 정보량이 많음.
$$ h(e_i) = -\log_2 P(e_i) \quad \text{또는} \quad h(e_i) = -\log_e P(e_i) $$
엔트로피: 확률 변수 $x$의 불확실성을 나타냄. 예측하기 어려울수록 값이 커지며, 확률분포가 불균일하면 값이 작아짐.
이산확률분포) $ H(x) = - \sum_{i=1}^{k} P(e_i)\log_2 P(e_i) \quad \text{또는} \quad H(x) = - \sum_{i=1}^{k} P(e_i)\log_e P(e_i) $
연속확률분포) $ H(x) = - \int_{\mathbb{R}} P(x)\log_2 P(x) \,dx \quad \text{또는} \quad H(x) = - \int_{\mathbb{R}} P(x)\log_e P(x) \,dx $

교차 엔트로피: 두 확률 분포 $P$와 $Q$ 사이의 엔트로피.
$$H(P, Q) = - \sum_{x} P(x)\log_2 Q(x)$$
위의 식을 변형하면,
$$H(P, Q) = - \sum_{x} P(x)\log_2 P(x) + \sum_{x} P(x)\log_2 P(x) - \sum_{x} P(x)\log_2 Q(x) = H(P) + \sum_{x} P(x)\log_2 \frac{P(x)}{Q(x)} $$
이 되는데, 여기서 $\sum_{x} P(x)\log_2 \frac{P(x)}{Q(x)}$이 두 확률분포가 얼마나 다른지 계산하는 KL 다이버전스 $ KL(P \parallel Q)$임.
즉, $H(P, Q) = H(P) + KL(P \parallel Q)$이다.

'학교 공부 > 인공지능' 카테고리의 다른 글
| 5. 다층 퍼셉트론 (0) | 2025.10.07 |
|---|---|
| 4. 딥러닝 주요 최적화 방법 (0) | 2025.10.07 |
| 3-1. 기계학습 수학 - 선형대수 (0) | 2025.10.06 |
| 2. 기계학습 (0) | 2025.10.06 |
| 1. 인공지능 개요 (0) | 2025.10.05 |