Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

statduck

왜 요약통계량인가? 본문

Machine Learning

왜 요약통계량인가?

statduck 2022. 12. 28. 21:18

요약통계량은 적률(Moment)이라고 볼 수 있다. 이 적률은 함수의 모양을 결정짓는 녀석이다. 이 녀석으로 어떤 함수가 지나는 점을 기준으로 모양을 추정할 수 있다(데이터 포인트->분포추정) 평균, 분산, 최빈값 이런 요약 통계량(summary statistics)들이 예시이다. 

 

- 평균: 중심을 측정하는 척도. 선형 연산 성립

- 분산: 퍼진 정도를 측정하는 척도.

- 최빈값(mode): 쌍봉분포에서는 유니크 하지 않을 수 있다

그렇지만 위 그림처럼 요약 통계량만 믿다가는 큰 코 다칠 수도 있다. 같은 요약통계량을 가지더라도 위와 같이 전혀 다른 데이터의 흐름 혹은 두 데이터의 관계를 설명하는 경우가 있기 때문이다. 1차원 데이터의 경우에는 아래처럼 박스플랏 대신 분포를 육안으로 설명해주는 바이올린플랏으로 데이터를 시각화하여 문제를 해결할 수도 있다.

 

 

바이올린 플랏은 이 때 비모수적 분포추정(Non-parametric Density Estimation)의 일종인 kde를 이용하여 시각화하는 방식이다.

(참조)  https://statduck.tistory.com/19

 

고차원에 대해서 이런 추정을 하려면 어떻게 해야할까?: https://arxiv.org/pdf/1904.00176.pdf 해당 논문을 읽어보도록 하자...

 

그런데 사실 비즈니스 의사결정을 하는 사람들에게 이렇게 분포를 보여주는 것보다는 요약 통계량을 보고 빠르게 판단하게 함이 중요하다.

그래서 최소한 평균, 중앙값, 분산, 분위수(Quantile) -> 상위/하위 n% 값이 얼마인지. 4개의 정보를 제공하는게 중요하다. 1차원 데이터에서 4개의 정보를 제시하는 경우인데, 이렇게 4가지를 제시했을 때 손실되는 정보의 양은 어느정도인지 누군가 측정해줬으면 좋겠다. 그렇지만 통계학 관련해서 커뮤니케이션 하는 조직이나 대학원, 연구집단에서는 분포에 대한 이야기가 무조건 포함되어야 한다!

 

ref: Kevin P. Murphy, Probabilistic Machine Learning: An introduction. MIT Press, 2022. problem.ai

'Machine Learning' 카테고리의 다른 글

GAN  (0) 2023.01.06
이진분류  (0) 2023.01.01
Detecting Seasonality With Fourier  (0) 2022.12.19
크롤링 & 워드클라우드  (0) 2022.12.18
Time Series Forecasting  (0) 2022.11.26
Comments