반응형

분류 전체보기 272

Log Likelihood Decomposition for EM (로그 가능도 함수 분해)

비숍 10단원에 로그 가능도 함수를 분해한다. 이는 다음과 같이 분해된다. $$\ln p(\textbf{X}|\theta)=L(q,\theta)+KL(q||p) $$ 처음엔 왜 이렇게 분해되는 건지 좀 당황스럽다. 그런데 삽질을 조금 해보면 1) 로그 가능도 함수를 잠재 변수 $z$에 대해 marginalize를 해준 것에 젠센 부등식을 사용해서 나오는 하한을 $L(q,\theta)$로 잡은 것이다. 그리고 2) 로그 가능도 함수에 $L(q,\theta)$를 빼주면 KL divergence가 나온다. 이를 알기 위해서는 젠센 부등식, 깁스 부등식, KL divergence가 무엇인지 알아보자. KL Divergence (Kullback-Leibler divergence) 이산확률분포 $P, Q$에 대해 ..

[Arxiv] Single Shot Structured Pruning Before Training

Introduction SNIP을 structured setting으로 두고 적용한 논문이다. pruning시에 compute-aware scoring을 하여 가속에 초점을 맞춘 것이 특징이다. *3SP (Single Shot Structured Pruning) Method - 저자들은 SNIP의 setting을 효율적인 binary mask를 찾는 문제로 보았다. - convolution layer에서는 각 output channel에 linear layer에서는 각 hidden unit에 binary mask를 두었다. - SNIP에서 했던 것과 유사하게 세 가지 가정을 갖고서 변화율을 근사했다. 1. binary mask를 연속적인 변수로 근사하였다. 2. first-order taylor expa..

[시계열] 추세안정, 랜덤워크 (Trend Stationary, Random Walk) (General Case)

일반적으로 적절한 변환을 거치면 time series process를 다음과 같이 쓸 수 있다. $$\phi (L) y_{t} = \theta (L) \epsilon_{t}\;\cdots\;(1)$$ 여기서 $\phi (L), \theta (L)$은 각각 다음과 같다. $$\phi (L) = 1 - \phi_{1}L-\phi_{2}L^{2}-\cdots-\phi_{p}L^{p}$$ $$\theta (L) = 1+\theta_{1}L+\theta_{2}L^{2}+\cdots+\theta_{q}L^{q}$$ 그러면 $\phi(L)$은 최대 p개의 근을, $\theta(L)$은 q개의 근을 갖는다. 이를 인수분해하면 다음과 같다. $$(1-\phi_{1}^{\ast}L)(1-\phi_{2}^{\ast}L)\c..

금융/시계열 2020.09.04

[시계열] 추세안정, 랜덤워크 (Trend Stationary, Random Walk)

추세안정(Trend Stationary)과 랜덤워크(Random Walk)는 둘 다 유닛 루트를 갖는다. 하지만 얘들은 충격반응함수(Impulse Responsibiltiy Function)에서 다른 점이 드러난다. Trend Stationary 추세안정과정은 다음과 같다. $$y_{t}=\mu t + \theta (L) \epsilon_{t}$$ 여기서 추세를 빼면 다음과 같은 stationary process를 얻게 된다. $$y_{t}-\mu t = \theta (L) \epsilon_{t}$$ 여기다 양쪽에 일차 미분 $\nabla=(1-L)$을 양변에 적용해보면, $$\begin{equation} \begin{split} \nabla y_{t} & = \nabla \mu t + \nabla \t..

금융/시계열 2020.09.04

편향-분산 분해 (Bias-Variance Decomposition)

# Chap 3.2 (Bias-Variance Decomposition) - 기저 함수의 갯수와 형태가 고정돼있는 회귀 선형 모델에 관해 이야기했는데, 이는 데이터가 제한돼있는 상태에서 복잡한 모델 (파라미터가 많은 모델)을 학습시키는 경우 오버피팅이 일어날 수 있음. 1. 에러 함수에 정규화 항을 넣는 경우, 정규화 효과로 인해 오버피팅을 방지할 수 있지만 정규화 계수를 설정해주는 것이 문제가 됨. (하이퍼파라미터) 2. 파라미터를 줄이는 경우, 즉 기저 함수를 줄여 오버피팅을 방지할 수 있지만 이는 모델이 데이터의 피쳐를 잘 학습하는 것을 방해할 수 있음. (모델 의 표현력) 3. 가중치 벡터 $\textbf{w}$와 정규화 계수 $\lambda$에 대해 정규화된 에러 함수를 최소화하는 것은 정규화 ..

[시계열] 그레인저 인과성 (Granger Causality)

그레인저 인과성 검정(Granger Causality Test)은 시계열이 다른 걸 예측하는데도 유용한지 결정하는데 필요한 통계적 가설 검정이다. Ex1 다음과 같은 $VAR(1)$ model을 하나 생각해보자. $$\begin{bmatrix} r_{t} \\ q_{t} \end{bmatrix} = \begin{bmatrix} \mu_{r} \\ \mu_{q} \end{bmatrix} + \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} \begin{bmatrix} r_{t-1} \\ q_{t-1} \end{bmatrix} + \begin{bmatrix} \epsilon_{r,t} \\ \epsilon_{q,t} \end{bmatrix}$..

금융/시계열 2020.09.03

[시계열] 분산 분해, 예측 오차 분산 분해 (Variance Decomposition, Forecast Error Variance Decomposition )

Variance Decomposition(or Forecast Error Variance Decomposition)은 자기회귀에서 각 변수가 다른 변수들에게 얼마나 영향을 끼치는지에 대한 정보의 양을 말한다. 이는 각 변수의 error variance가 얼마나 다른 변수에 대한 외생적 충격으로 설명될 수 있는지를 정한다. (외생적 충격 (exogeneous shock): 모델에서 생각안하는 쇼크) 이전 포스팅에서 $\vec{x}_{t}=\textbf{C}(L)\vec{\xi}_{t}, \, where \, Var(\vec{\xi}_{t})=\textbf{I}$를 정의했다. 그러므로, $$\begin{equation} \begin{split} \vec{x}_{t} & = \textbf{C}(L)\vec{\..

금융/시계열 2020.09.02

[시계열] 충격반응분석 (Impulse Response Analysis) - (3) (Sims Orthogonalization)

이전 포스팅에서는 두 변수를 코릴시키기 위해 'Cholesky Decompostion'을 배웠다. 우리의 최종 목적은 코릴돼있는 두 변수를 그렇지 않게 만드는 것이다. 우선, $\vec{x}_{t}=\textbf{C}(L)\vec{\xi}_{t}$를 다음과 같이 써보자. $$ \begin{bmatrix} y_{t} \\ z_{t} \end{bmatrix} = \begin{bmatrix} C_{0,yy} & C_{0,yz} \\ C_{0,zy} & C_{0,zz} \end{bmatrix} \begin{bmatrix} \xi_{y,t} \\ \xi_{z,t} \end{bmatrix}+\textbf{C}_{1}\vec{xi}_{t-1}+\cdots$$ Sims는 $\textbf{C}_{0}$가 lower-tr..

금융/시계열 2020.09.01

[시계열] 충격반응분석 (Impulse Response Analysis) - (2) (Cholesky Decomposition)

Cholesky Decomposition Cholesky Decomposition은 두 변수를 코릴시키려고 쓴다. 예를 들어서, 두변수 $y, z$가 공분산 행렬(covriance matrix) $\textbf{I}$를 갖는다 쳐보자. 그리고 $y, z$가 공분산 $\rho$를 갖게 다른 변수로 변환을 시켜주고 싶다. 아이디어는 간단하다. 우리가 random vector $\vec{x}=\begin{bmatrix} y \\ z \end{bmatrix}$를 계산할 때, 이를 다음과 같이 계산한다. $$\begin{equation}\begin{split} Var(\textbf{A}\vec{x}) & = \textbf{A}Var(\vec{x})\textbf{A}^{t} \\ & = \textbf{A}\text..

금융/시계열 2020.08.31

[시계열] 충격반응분석 (Impulse Response Analysis) - (1)

주어진 시계열에 대해서 쇼크가 났다고 쳐보자. 그럼 이후의 시계열에 대해 쇼크의 behaviour에 대해 이것이 지속적인 것인지, 일시적인 것인지 궁금할 것이다. 이를 분석하기 위해 $VAR$ model을사용할 수도 있다. 먼저 $AR(1)$을 살펴보자. $$x_{t}=\phi x_{t-1}+\epsilon_{t}$$ 쇼크를 준다는 건 노이즈$\epsilon_{t}$에 어떤 값을 넣는 것이다. $\epsilon_{t}$에 1을 넣어보자. $$x_{t}=\phi x_{t-1}+1$$ $$x_{t+1}=\phi x_{t}+\epsilon_{t+1}$$ 이제 $x_{t+1}$식에 $x_{t}$에 쇼크를 대입한 값을 넣어 정리해보자. $$\begin{equation} \begin{split} x_{t+1} & ..

금융/시계열 2020.08.30
반응형