statduck
Exponential Family 본문
우리가 흔히 알고있는 분포들(이항분포, 다항분포, 정규분포)은 주로 지수족(Exponential Family)에 속한다.
지수족은 몇가지 특성들을 만족시키는 분포들의 집합이라고 생각하면 된다.
정의로는 다음과 같은 확률함수의 모양을 가지면 지수족이다.
p(x|η)=1Z(η)h(x)exp[ηTT(x)]=h(x)exp[ηTT(x)−A(η)]
- η∈RK with fixed support over xD⊆RD
- η: canonical parameters, T(x): suffcient statistics
- A(η)=logZ(η): log partition function ( A is a convex function over the convex set Ω)
다음의 세가지 이유로 지수족은 유용하다고 여겨진다.
- Log partition function can generate moments by its derivatives
- Covaraicne of the sufficient statistics are the same as Fisher Information Matrix
- The statistics of moments are easily derived from T(x)(even MLE)
첫번째 불릿 - Log partition function can generate moments by its derivatives
부터 살펴보자. 다음 두가지가 매우 중요하다. ∇ηA(η)=E[T(x)],∇2ηA(η)=Cov[T(x)] 이 중 첫번째에 대한 증명이 아래와 같다.

결국 핵심은 미분으로 모멘트를 생성할 수 있다는 것이다.
두번째 불릿 - Covaraicne of the sufficient statistics are the same as Fisher Information Matrix(FIM)
몇개의 조건(regulartiy conditions) 하에서 Fisher Information은 다음과 같이 계산된다.
F(η)=−Ep(xη)[∇2ηlogp(x|η)]
F(η)=−Ep(x|η)[∇2η(ηTT(x)−A(η))]=∇2ηA(η)=Cov[T(x)]
즉, 로그 분할 함수(log partition function)의 헤시안 매트릭스가 되는데, 이는 충분통계랑 T의 공분산과 동일하다는 것이다.
Cramer-Rao Lower Bound 등을 계산할 때 FIM이 이용되는데 지수족에 있는 분포들이면 손쉽게 계산된다.
세번째 불릿 -The statistics of moments are easily derived from T(x)(even MLE)
The likelihood of an exponential family has the form
p(D|η)[ΠNn=1h(xn)]exp(ηT[N∑n=1T(xn)]−NA(η))∝exp[ηTT(D)−NA(η)]
- T(D)=[∑Nn=1T1(xn),...,∑Nn=1TK(xn)]
- 이 때 해당 꼴에서 로그를 씌운 로그 우도함수(log-likelihood function)의 미분값이 0이 되면 이 때 충분통계량의 추정평균과 실제 평균이 같아진다.
logp(D|η)=ηTT(D)−NA(η)+const
∇ηlogp(D|η)=∇ηηTT(D)−N∇ηA(η)=T(D)−NE[T(x)]
N=1(single data case)에 대해서는 다음과 같다.
∇ηlogp(x|η)=T(x)−E[T(x)]
이 때 좌변의 gradient를 0으로 조절하면 (로그 우도함수의 최대화) 다음과 같으며 이를 moment matching 이라 한다.
E[T(x)]=1NN∑n=1T(xn)
Probabilistic Machine Learning: Advanced Topics. probml.github.io. (n.d.). https://probml.github.io/pml-book/book2.html
'잡담' 카테고리의 다른 글
게임에 적용되는 ML/DL (0) | 2022.09.27 |
---|