statduck
FDA (1) 기초 컨셉 본문
$W_i:S\rightarrow \mathbb{R}$
- $S$ is an interval, $i$ is the basic experimental unit (피험자)
- $W_i(s)$ is the functional observation for unit $i$ at $s\in S$.
가정: $W_i(s)=X_i(s)+\epsilon_i(s)$, s.t. $X_i:S\rightarrow \mathbb{R}$ is the true functional process and $\epsilon_i(s)$ are independent noise variables.
이름을 지어주자
- $W_i(s)$: Observed functions
- $X_i(s)$: True functional process
- $S$: Functional domain
특징들은?
- Continuity of $W_i(s)$ and $X_i(s)$: 관측된 함수의 연속성
- Ordering of $S$: (S는 순서가 존재하고, 거리가 존재한다)
- Self-consistency of $W_i(s)$ and $X_i(s)$: 동일한 스케일, 모든 i와 s에 대한 동일한 해석
- Smoothness of $X_i(s)$: $s$가 조금 변하더라도 $X_i(s)$가 많이 바뀌지 않게
- Colocalization of $s$
결국 다변량 분석 (한 줄의 데이터가 독립이 아니라 함수임), 시계열 / 공간 데이터 분석(피험자 반복측정이므로) 과는 다르다.
예시) 미국 State별 주간 코로나 사망자 수
$W_{im}:S\rightarrow \mathbb{R}_+$
- $S={1,...,52}$
- 도메인이 실제 데이터에서는 유한하게 관측될 수 밖에 없음
- $W_{im}(s)$: $i$ state 내의 인구 100만명 당 누적 사망자 수 (시점 $s$에서)
- $m\in {1,2}$: 1이면 원인 관계없이 모든 사망, 2면 코로나 원인 사망
- 원인 관계없이 모든 누적 사망자 수 데이터도 존재. m이 2개 이상이라 여기선 다변량 함수형 데이터임 (동일 유닛 i에 대해 2개 이상 측정)
Crainiceanu, C. M., Goldsmith, J., Leroux, A., Cui, E. (2024). Functional Data Analysis with R. United States: CRC Press.
Comments