Chapter 7. Estimation
by wholmesian안녕하세요, 가짜연구소 Causal Inference 팀의 남궁민상입니다.
Introduction to Causal Inference 강의의 일곱 번째 챕터이며, 해당 챕터에서 다루는 내용은 아래와 같습니다.
Contents
- Conditional Average Treatment Effect
- Conditional Outcome Modeling
- TARNet & X-Learner
- Propensity Scores & IPW
- Other Methods
◦ 강의 영상 링크 : Chapter 6 - Estimation
작성된 내용 중 개선점이나 잘못된 부분이 있다면 댓글로 알려주세요!
CATE
ATE
Assuming uncounfoundedness and positivity
Given W is a sufficient adjustment set
CATE
given $W \cup X$ is a sufficient adjustment set
[개념정리]
- unconfoundedness = conditional exchangeability(ignorability)
- 이 조건으로 인해 potential outcome을 treatment에 conditioning할 수 있음
- positivity
, , x for all
COM
Target of modeling: the conditional expectations of CATE
일반적으로 사용하는 대부분의 예측모델 사용 가능
- COM estimation of ATE
- COM estimation of CATE
target of modeling:
COM estimator of CATE:
Problem with COM estimation in high dimensions
- 매우 차원이 높은 (input 변수가 많은) 경우, T의 영향력이 다른 변수 W들에 비해 크지 않으면 T에 대한 weight 역시 매우 작은 값으로 추정된다.
가 0에 매우 가까워짐- 결론: 실제 treatment effect가 존재하더라도, scale의 차이 때문에 treatment 추정치는 0에 편향될 수 있음
Solution: Grouped COM (GCOM) estimation
- COM:
- GCOM:
GCOM의 경우, T는 모델의 input으로 들어가지 않음
Problem: models have higher variance than they would if they were trained with all the data (since the splitted data might not efficient)
Increasing Data Efficiency: TARNet & X-Learner
TARNet

- NN 기반인거 같은데,
- 중간 모델: treatment-agnostic model;
- branch model: treatment-specific model; T=1 데이터, T=0인 데이터만으로 학습됨
- 중간 모델: treatment-agnostic model;
- 전체 모델이 모든 데이터를 활용해 학습되는 것이 아니므로 여전히 data inefficiency 존재
X-Learner
- Estimate
and (assume is a sufficient adjustment set and is all observed covariates) - Impute ITEs
- Treatment group:
- Control group:
- Treatment group:
- Fit a model
to predict from in treatment group Fit a model to predict from in control group → , 는 treatment/control group의 모든 데이터를 사용한 모델 (GCOM의 문제 해결) where is a weight function btw 0 and 1 (e.g., propensity score)
Propensity Score & IPW
지금까지는
경향 점수(Propensity score)란?
수학적으로 말하자면 경향 점수
우리가
그리고 propensity score theorem에 따르면 다음과 같은 식이 성립합니다.
문자 그대로 풀어 쓰자면,
이게 왜 중요할까요? Chapter 2에서, ATE가 association difference와 같아지려면 positivity, unconfoundedness가 성립해야 했습니다. Propensity score Theorem에 따르면
아래 그래프를 보면 이해가 쉽습니다.

왼쪽 그림에서
따라서
물론 수식을 길게 늘어놓아 증명할 수도 있습니다!
$$
이 값이 Y(t)와 독립이므로 (Y(1), Y(0))\:{\perp \!\!\! \perp}\:T\:|\:e(W)입니다.

앞선 챕터에서 positivity-unconfoundedness tradeoff를 이야기했는데, 기억 나시나요?.
비교집단과 처치집단을 제대로 비교하려면 같은
그런데
물론 세상은 그렇게 아름답지 않습니다. 대부분의 경우에 우리는 $e(W)$ 함수를 알 수 없거든요. 보통은 모델을 학습시켜 $e(W=w)$를 구합니다.
기억합시다!
경향 점수는 covariate로부터 계산하는 스칼라값입니다. unbiased estimate of ATE를 구하고 싶을 때, 고차원의를 conditioning하는 대신 1차원의 를 conditioning하여 같은 효과를 얻을 수 있습니다.
Inverse Probability Weighting
다음으로 IPW에 대해 알아봅시다. 관측을 통해 association은 쉽게 계산할 수 있습니다. 하지만 우리가 원하는 것은 이로부터 causation을 뽑아내는 것이죠. 그런데 association == causation이도록 데이터를 resampling하는 방법이 있습니다.

인 경우 가 상수인 경우
위와 같은 경우에는
정리!가 상수라면 값이 바뀌어도 의 분포에 영향을 주지 않습니다. 따라서, 데이터에 를 곱해 만든 pseudo-population에서는 의 인과가 끊어집니다. (이 pseudo-population에서의 이니까요)
그래서의 인과를 계산할 수 있습니다.
이를 수학적으로 나타내면
마찬가지로 수식으로 증명할 수도 있습니다!
그런데 잠깐, re-weighting할 때 쓰는
Treatment가 binary하다면
즉, 경향점수를 이용해 IPW를 할 수 있습니다!
IPW 적용하기
binary treatment를 가정했을 때, ATE의 identification equation은 경향점수를 이용해 아래와 같이 다시 쓸 수 있습니다.
이 때, 경향점수가 0이나 1에 아주 가까우면 estimate이 무한대로 발산하게 되죠. 따라서, 적당한 값으로 trim을 하기도 합니다. 물론 이 경우 bias와 같은 문제는 각오해야 합니다.
위의 식을 확장해 CATE에 대한 IPW estimator를 만들 수도 있습니다.
다만 이 식을 그대로 사용하면 데이터가 많지 않아 variance가 커진다는 문제가 생깁니다. 더 general한 CATE IPW estimator도 있지만 본 강의에서는 다루지 않겠다네요.
또 다른 방법들...
이번 장에서는 causal effect estimation을 위해 사용할 수 있는 방법을 두 가지 소개했습니다.
를 모델링하는 방법 을 모델링하는 방법
마지막으로 여기서 더 나아간 estimation 방법들을 소개합니다.
Doubly Robust Methods
또는 중 하나만 consistent해도 전체 estimator가 consistent합니다 (doubly robust)- 이론상으로는
에 수렴하는 속도가 COM이나 IPW보다 빠릅니다 ( 의 수렴 속도 의 수렴 속도이기 때문)
다만
Matching

Treatment group과 control group에서 비슷한 사례들만 비교하는 방법입니다. ‘비슷함’이 무엇을 의미하냐는 실험 설계에 따라 여러 방법으로 결정하시면 됩니다.
Double Machine Learning

Double machine learning 기법에서는 3가지의 모델을 학습시킵니다.
Stage 1:
로부터 에 대한 예측값 을 생성하는 모델 로부터 에 대한 예측값 을 생성하는 모델
Stage 2:
로부터 에 대한 예측값을 생성하는 모델
이 방법에서는
Causal Trees and Forests

decision tree와 비슷하게 데이터를 재귀적으로 나눔으로써 같은 treatment effect를 가진 subset들을 만드는 기법입니다.
참고자료
블로그의 정보
가짜연구소 Causal Inference Lab
wholmesian