목록Machine Learning (23)
statduck
목적 VI 그간 추상적으로 알고있었는데, 실제 파라미터 업데이트 및 사용하는 이유 및 맥락을 살펴보기 위함 정의 $$ q = \underset{q \in \mathcal{Q}}{\mathrm{argmin}} \, D_{\mathbb{KL}} \, (q(z) \; || \; p_\theta(z|x)) $$ $$ \begin{align*} \psi^* &= \underset{\psi}{\mathrm{argmin}} \, D_{\mathbb{KL}} \, (q_\psi (z) \; || \; p_\theta (z|x)) \\ &= \underset{\psi}{\mathrm{argmin}} \, \mathbb{E}_{q_\psi (z)} \Big[\log q_\psi (z) - \log \Big( \dfrac{..
Kernel Method (Gyumin-Lee 23.8.6) Chapter 17 (Nonparametric Method) 17.1 Mercer Kernels (positive definite kerenl a.k.a pd) $\sum\sum K(x_i, x_j) c_i c_j \geq 0, \; c_i, c_j \in \mathbb{R}$ Kernel can be converted into gram matrix, whose elements are represented by inner products. Matrix positive definite = Kernel pd 한거와 동일 Example $ K(x,x')=exp(-\dfrac{||x-x'|^2}{2h^2})$ h is a bandwidth(가중치가 들..
Contributions Seperate paramemters and uses an objective unconstrained about acyclicity, which allows for easier optimization and low-variance gradient estimator having convergence guarantees Scaling to larger graphs and also can be leveraged to detect latent confounders Background Knowledge Causal Structure Learning : From sample of $\mathbb{P}$, discovering $G$ = causal structure learning or c..
이진분류 문제에서 로지스틱 모형으로 문제 해결함에 있어 Bi-Tempered Loss를 이용할 수 있다. loss function가 convex인 경우에 decision boundary에서 멀리 떨어진 mislabeled point가 모형에 악영향을 미친다. 근거논문: https://link.springer.com/article/10.1007/s10994-009-5165-z 그러므로 convex형태인 cross entropy를 tempered version으로 치환해서 문제를 해결하자. mislabled point는 Deicison Boundary와의 거리에 따라 다음 두 개의 케이스로 나뉘고 각 케이스를 해결하기 위해 손실 함수와 추정 함수를 각각 temper시킨다. Case1) Mislabeld Po..
오기 생겨서 답 못맞춰도 일부러 고난이도 문제를 내보았다.(11번은 설명하기 난해해서 포기) 오답 오답이라 그냥 잘랐다. 근데 g(x) = h(x)-h(4)+h(x) 추론한건 신기하다. 오답 너무 당당하게 말해서 킹받는다.. n이 12보다 큰 케이스 고려하지 않았고 f(3)부터 잘못구했다.. 정답. 오우........ 이걸 맞춰? 아니 근데 이거 맞춘거 너무 신기하다. 근데 뽀록으로 맞춘느낌 너무 강하다. 오답 말도 안되는 소리... 너무 그럴듯하게 헛소리해서 더 짜증난다 ㅠ
수능 수학 문제를 나의 발영어로 번역해서(식은 마크다운 형식으로 적어서) ChatGPT한테 던져주면 문제를 풀 수 있을까? 2023년 수능수학 기준으로 작성하였으며 ChatGPT가 웬만하면 답을 맞출 때 까지 (헛소리 안할 때 까지, 계산 맞을 때 까지) 질문을 바꿔보고 다시 질문해보면서 정리한 결과가 다음과 같다. 오답 1번 문제에서 오답을 보여주다니... 실망이다. 오답 무작정 시도할 줄 알았는데 dominant terms으로 파악을 잘 해낸것이 신기. 근데 3x will become much larger than ~ 이라고 틀린 소리를 너무 당연하게 한다... 결국 답도 틀림. 오답 중간에 잘못계산해서 그냥 끊음... 아무리 많이 입력시켜도 계산이 계속 틀린다. 억! 정답 드디어 이 친구 답을 맞췄..
Generative Model이란?: 결국 데이터를 생성하는 모형이다. 데이터 생성은 결국 특정 분포를 따르는 확률변수에서 값들을 샘플링 하는 것과 같은 작업이라고 볼 수 있다. 과거의 데이터들이 어떤 분포를 따르는지 추정해서, 데이터들을 추가로 뽑는다고 생각하자. 여기서 중요한건 우리가 가진 데이터들의 분포를 제대로 알아내는 것, 학습하는 것이다. 예를 들어 https://arxiv.org/pdf/1406.2661.pdf 이 논문을 왜 썼는지 히스토리를 알아보자. Discriminative Model 기존에는 backpropagation, dropout 등의 테크닉으로 딥러닝에서 성공을 거두었다. Backpropagation은 목적함수를 최적화 하기 위해서 미분값들이 업데이트 되는 것이고 dropout..
목적: 표현 이해 $$ p(y|x;\theta) = Ber(y|f(x;\theta)) $$ $$ p(y|x;\theta) = Cat(y|f(x;\theta)) $$ Binary Classification. 우리가 알고있는 정보/데이터로 특정 값(Y)이 0일지 1일지 예측하는 태스크를 푸는것이 이진분류이다. Ex) 사람들의 건강정보(혈압, 몸무게, 키)가 주어지면 그 사람의 성별(남/여)을 예측하는 모델을 세우는 경우 해당 문제를 수리적으로 재 정의하면 $$ p(y|x,\theta) = Ber(y|f(x; \theta)), \; s.t. \; y\in \{0,1\} $$ 특정 데이터가 주어졌을 때 y가 일어날 확률을 예측하는 조건부분포 추정의 문제이다. - 어떤 데이터가 주어졌을 때: 특정 케이스에는 y가..