statduck
이진분류 본문
목적: 표현 이해
$$ p(y|x;\theta) = Ber(y|f(x;\theta)) $$
$$ p(y|x;\theta) = Cat(y|f(x;\theta)) $$
Binary Classification.
우리가 알고있는 정보/데이터로 특정 값(Y)이 0일지 1일지 예측하는 태스크를 푸는것이 이진분류이다.
Ex) 사람들의 건강정보(혈압, 몸무게, 키)가 주어지면 그 사람의 성별(남/여)을 예측하는 모델을 세우는 경우
해당 문제를 수리적으로 재 정의하면
$$ p(y|x,\theta) = Ber(y|f(x; \theta)), \; s.t. \; y\in \{0,1\} $$
특정 데이터가 주어졌을 때 y가 일어날 확률을 예측하는 조건부분포 추정의 문제이다.
- 어떤 데이터가 주어졌을 때: 특정 케이스에는 y가 1이 나올 확률이 0.8이고 y가 1이 나올 확률이 0.2 이런식으로 값을 계산하여 결과가 0일지 1일지 추정하는 것이다.
- 위 표현 자체는 Y가 확률변수임을 이야기 하는 것이고, Y는 $\theta$라는 모수를 가지고 있다. 이진분류 예시에서 Y가 베르누이 분포를 따른다고 가정하면 결국 우리가 추정해야하는 $\theta$는 성공확률 $p$이다.
만약 우리에게 주어진 정보(X)가 없으면 과거의 Y 데이터만으로 다음의 Y값을 예측해야 한다. 이 때 베르누이 분포 가정 하에서 결국 우리가 추정해야하는 것은 성공확률 $\theta$임을 알 수 있다.
$$ p(y=1)=\theta $$
그리고 Bernollui dist에서 $\theta$의 mle는 $\bar{y}$, 즉 y값의 평균이다. 이전에 y가 1인 경우가 3번 0인 경우가 2번 나왔으면 우리는 다음 y=1일 확률을 3/5로 예측하는 것이다.
우리에게 정보 X가 주어진다면 이야기가 달라진다. $\theta$를 추정하기 위해 y분포로 mle를 추정하는게 아니라, 다음의 추정식을 세운다.
$$ \hat{\theta} = \sigma(f(x))$$
이렇게 보면 $\theta$ 추정 자체에는 y의 정보는 들어가지 않는다. 학습데이터 y는 f(x)의 모수를 추정하는 과정에서 이용되는 것이다.
* 오늘의 결론
타겟이 특정 분포를 따른다는 정보 -> 어떤 모수를 추정해야하는지 특정한다
우리가 가진 데이터를 이용 -> 모수를 추정하기 위해 f(x)의 f를 특정한다
f(x)의 모수 찾기(Underdepthing parameter) -> y의 분포 정보를 이용, y의 likelihood로 f(x)의 모수를 찾는다
'Machine Learning' 카테고리의 다른 글
ChatGPT는 수능 수학을 풀 수 있을까? (0) | 2023.02.12 |
---|---|
GAN (0) | 2023.01.06 |
왜 요약통계량인가? (0) | 2022.12.28 |
Detecting Seasonality With Fourier (0) | 2022.12.19 |
크롤링 & 워드클라우드 (0) | 2022.12.18 |