Search

Statistical Learning [2] - Linear Models

Properties
Lecture
Parametric
Reference
ISLR, ELS
Author
Kipoong Kim
Date
2021/02/25
Link
Empty
Created
3/12/2021, 1:06:00 PM
Tags
Empty

Title: Data Mining: From Concepts To Modern Applications : [2] Supervised Learning - Linear Models

Supervised Models

Linear Regression

X\boldsymbol{X}y\boldsymbol{y} 간 linear 관계를 설명하기 위한 매우 단순한 모형으로서 예측보다는 독립변수가 반응변수에 미치는 영향력을 설명하기 위함.
f(X)f(\boldsymbol{X})XR1\boldsymbol{X} \in \R^1에서는 직선, XR2\boldsymbol{X} \in \R^2에서는 2차 평면, XRk,  k>2\boldsymbol{X} \in \R^k, ~~k>2 에서는 kk차원 평면으로 표현되고, 회귀분석은 f^(X)\hat{f}(\boldsymbol{X})y\boldsymbol{y} 간 차이를 최소화하는 회귀계수 (기울기)를 찾는 것을 목표로 함.
가정: (1) 각 변수는 서로 독립이다. (2) ei=yif^(Xi),  i=1,,ne_i = y_i - \hat{f}(\boldsymbol{X}_i), ~~i=1, \cdots, n는 서로 독립이고 서로 같은 정규분포를 따른다.

Regularization

High-dimensional data의 경우 npn \ll p이기 때문에, 일반적인 회귀모형은 적합할 수 없다. >> 그에 따라, 다음과 같은 제약조건 하에서 회귀모형을 추정하는 regularization model (penalized regression)이 제안됨.
제약 조건 하에서 잔차를 최소화하는 최적화 문제는 라그랑지 상수 (Lagrange multiplier)를 이용한 문제로 표현할 수 있음.
이 때, Penalty function, P(β)P(\boldsymbol{\beta}) 선택에 따라 매우 다양한 방법들이 제안됨

(a) Ridge penalty

변수 간 상관관계가 높은 경우, 추정된 회귀 계수의 분산이 매우 커지는 문제가 발생하게됨. 이를 해결하기 위한 방법으로서, ridge penalty를 이용하는 ridge regression이 제안됨.
그러나 반응변수에 영향을 미치는 변수를 선택하는 문제에 있어서 ridge penalty는 추정된 회귀계수의 값을 정확하게 0으로 만들지 못하기 때문에 변수선택에 이용될 수 없음. e.g. β1=0.1 and β2=0.000001\beta_1 = 0.1 \text{ and } \beta_2 = 0.000001일 때, X2X_2yy에 영향을 미치지 않는다고 말할 수 있는가?

Lasso penalty

변수 선택을 위한 regularization 방법으로서 제안된 lasso penalty.
(Variable Selection) 고차원 변수를 갖는 상황에서도 반응변수에 영향을 미치는 변수를 선택할 수 있음. > 기존의 방법에서는 individual test 방법으로 각 변수와 반응변수 간 통계적 검정을 실시하였으나, 이는 변수 간 Interaction을 고려하지 못함.
(Cons) 상관관계가 매우 높은 변수 그룹 중에서는 하나의 변수만을 선택함. > 예를 들어, 극단적으로 X1=X2+eX_1 = X_2 + \boldsymbol{e}, where e=(e1,,en)T and eiN(0,0.0001),  i=1,,n\boldsymbol{e} = (e_1, \cdots, e_n)^T \text{ and } e_i\sim N(0, 0.0001), ~~i=1, \cdots, n인 경우, X1X_1X2X_2 중 하나만을 선택함.
(Cons) pp개의 변수 중 최대 nn개만을 선택할 수 있음.

Elastic-net penalty

Lasso와 Ridge penalty를 혼합한 형태
(Pros) Lasso의 변수선택 뿐만 아니라, 그룹 선택도 가능함. > 그룹선택: 상관관계가 매우 높은 변수 그룹 중 하나만 선택하는 것이 아니라 해당 그룹 변수를 모두 선택함.
(Pros) 최대 pp개의 변수를 선택할 수 있음.
(Cons) Tuning parameter α\alpha가 추가되었고, 최적의 α\alpha 선택이 중요함.

Elastic-net: Geometrical Interpretation

Ridge, Lasso and Elastic-net penalties의 제약조건을 그래프로 표현하면 아래와 같음.
Beta coefficients의 likelihood는 동일 그래프 상에서 최대값을 지니는 한 점을 기준으로 Convex 형태를 형성하고 있으며, likelihood가 제약조건에 포함될 경우 (1) Lasso penalty는 꼭지점에서 likelihood의 최대값을 갖게됨 (2) Ridge penalty는 convex edge를 가지며 (원점 제외) 꼭지점에서 최대값을 갖는 경우가 존재하지 않음. (3) Elastic-net은 convex한 edge를 가지면서도 꼭지점에서 likelihood가 최대값을 갖게되며 변수선택과 grouping effect를 고려하는 것이 동시에 가능함.

Others: Group Lasso & Sparse Group Lasso

Genetic Network 등과 같은 변수들 간 그룹 정보가 주어져있을 때, (1) 각 그룹을 선택하는 문제 (그룹 내 변수가 모두 선택됨) —> Group Lasso (2) 그룹 선택 + 그룹 내 변수 선택 —> Sparse Group Lasso
Dummy Variable (더미변수) or One Hot Encoding 등의 범주형 변수를 포함하는 모형에서 더미변수를 선택하는 문제를 해결할 수 있음. (Example) 클래스 3개짜리 범주형 변수(X)를 One Hot Encoding한다면 세개의 더미변수 (x1, x2, x3)가 생김. > 더미변수에 대하여 Lasso를 실시할 경우 각 더미변수별로 변수선택이 진행됨. > 만약 우리의 관심이 범주형 변수(X)가 선택이 되는지 안되는지에 있다면, group lasso로 해결할 수 있음. >> 만약 더미변수 그룹 정보를 고려할 뿐만 아니라 더미변수들 중에서 y에 영향을 미치는 유의한 더미변수만을 선택하고자 할 경우, sparse group lasso를 사용하면 x1, x3만이 선택될 수 있음.
Follow me on Facebook and Github. Thank you
TOP