Chapter 2. Potential Outcomes
by Jinsoo안녕하세요, 가짜연구소 Causal Inference 팀의 신진수입니다.
Introduction to Causal Inference 강의의 두 번째 챕터이며, 해당 챕터에서 다루는 내용은 아래와 같습니다.
Contents
- Potential Outcomes이란 무엇인가요? (aka. Neyman-Rubin Causal model)
- 인과추론의 근본적인 문제
- 인과추론의 근본적인 문제를 이해하는데 필요한 가정
◦ 강의 영상 링크 : Chapter 2 - Potential Outcomes
작성된 내용 중 개선점이나 잘못된 부분이 있다면 댓글로 알려주세요!
(1) Potential Outcomes이란 무엇인가요?
- 정의 : 각각의 Treatment Options 하에서, 볼 수 있는 모든 Outcomes 입니다.
(같은 실험 대상에서 발생할 수 있는 모든 잠재적인 결과를 고려) - Potential Outcomes와 Observed Outcomes는 무엇이 다른가요?
◦ Observed Outcomes Y : 실험 대상에게 Treatment를 주었을 때, 발생한 결과
◦ Potential Outcomes Y(t) : 대상에게 Treatment를 주었을 때, 발생할 수 있는 결과
→ Observed Outcomes Y ≠ Potential Outcomes Y(t)
* 모든 Potential Outcomes는 잠재적으로는 관측 가능하나, 모두 관측되는 것은 아니에요!
- Potential Outcomes에 대한 직관
◦ Intuition : 타임머신을 통해 시간을 되돌릴 수 있어서, 그 때 다른 action을 취했더라면 어떻게 되었을까요?
◦ Example : 타이레놀 복용과 두통
- Factual : 코로나 의심 증상으로 타이레놀을 먹었더니, 두통이 사라졌다
< $do(T=0)$ > < $Y_i(1) = 1$ >
- Counterfactual : 타이레놀을 안먹었더니, 두통이 사라지지 않았다
< $do(T=1)$ > < $Y_i(1) = 0$ >
→ Potential Outcomes : 두통이 사라진 경우 & 두통이 사라지지 않은 경우
→ Observed Outcomes : 두통이 사라진 경우
- 타임머신이 있어서 타이레놀 먹기 전으로 돌아갈 수 있어서, 타이레놀을 먹지 않은 경우를 관측할 수 있다면?
타이레놀은 나의 두통 해소에 Causal Effect를 측정할 수 있을 거에요!
하지만, 현실은 타임머신이 없......죠........ (인과추론의 근본적인 문제에 해당됩니다)
◦ Causation은 처치 (Treatment) 이후, Potential Outcomes에 대한 차이로 정의될 수 있습니다.
- 처치에 대한 인과 효과 = (Treatment 받은 경우에 대한 Observed Outcomes)
- (Treatment 받지 않은 경우에 대한 Potential Outcomes)
- 타이레놀에 대한 인과효과 = (타이레놀을 먹은 후, 두통 여부에 대한 관측 결과)
- (타이레놀을 먹지 않고, 두통에 대한 잠재적 결과)
(2) Fundamental Problem of Causal Inference
- Potential Outcomes에서 본 것 처럼, 각 실험 대상에서 Potential Outcomes을 동시에 관찰하는 것은 불가능해요...!
- 즉, 우리에게 '만약'이라는 데이터 (Counterfactuals)은 존재하지 않습니다.
1) Potential Outcomes에 대해 동시 관측이 불가능 (우린 타임머신 없어요)
- 동일한 실험 대상에 Treatment를 다르게 주고, 결과를 두 번 관측해도 될까요? No
→ 두 번째 결과는 첫 번째 관측 결과에 영향을 받을 수 있습니다.
2) Causal Effect 계산을 위해, Counterfactuals (Missing values)을 어떻게 해결하는지에 대한 부분이 중요합니다!
- 우리가 파악할 수 있는 부분 : Control Group (Treatment를 받지 않은 그룹)
- Causal Effect 추정을 위해 필요한 부분 : Counterfactuals (Treatment Group에서 Treatment가 없을 때 결과)
→ Control Group이 Counterfactuals과 최대한 가깝게 설계해야 합니다.
(후반부의 Ignorability/Unconfoundedness 가정을 확인해주세요!)
3) Selection Bias : 실험 대상을 랜덤하게 할당 하지 않는 이상, 시스템적으로 발생하는 문제입니다.
- Control Group과 Counterfactuals 간의 차이 = Selection Bias
- 예시 : 고객에게 노출된 배너 광고를 고객이 볼지 안볼지 선택하는 건 선택 편향 문제를 야기할 수 있어요. (Treatment) (Outcome)
→ 그룹 간 비교 가능하지 않은 상태라면, 광고로 인해 클릭을 (Causal Effect) 했다고 말할 수 없게됩니다.
* 참고로, 결과가 관측되기 전까지는 Counterfactuals인지 Factuals인지 구분할 수 없습니다.
그래서 관측 전까지 해당 부분은 Potential Oucomes 입니다!
💡 Causal Inference vs Machine Learning
- Causal Inference : Potential outcomes까지 고려
- Machine Learning : Potential Outcomes 고려가 필요하지 않고 Observed outcomes만 고려
(3) 근본적인 문제를 이해하는데 필요한 가정
- ITE 계산의 어려움 : (2)번의 인과 추론의 근본적인 문제(Missing values)에서 보았던 것 처럼,
개개인에 대한 효과 (ITE)에 대해서 Treatment 효과를 추정하기가 어려운 문제가 생겨요. - ATE 계산 :
1) Q : 반면, ATE는 구할 수 있을까요?
A : Yes, 개인이 아닌 집단에 대한 평균 효과는 구할 수 있어요.
집단은 일반적으로 Control Group (대조군) vs Treatment Group (실험군)으로 나누어 측정합니다.
엄밀하게 말하면 Statistical Estimand를 구할 수 있습니다! (아래 그림에서는 1/3 이네요)
2) Q : 그런데, 실제로 ATE가 계산이 가능한 걸까요?
A : No, 그 이유는 인과추론의 근본적인 문제인 Counterfactuals (Missing values) 때문이에요.
위의 그림에서는 Missing values (Selection Bias)를 무시하고 계산한 Statistical Estimand의 결과입니다.
하지만, 저희가 필요한 건 Causal Estimand입니다.!
"Association is not Causation"
→ Selection Bias를 해소하기 위해서는 Control/Treatment 그룹간에 비교가 가능해야 합니다!
- Potential Outcomes Framework의 Missing values 문제를 해결하기 위한 가정을 배워봅시다!
◦ Identification Assumption
→ ATE (Average Treatment Effect)가 Associational Difference와 같아지기 위한 가정
a. (Conditional) Exchangeability = Unconfoundness
b. Positivity = Overlap
c. No Interference
d. Consistency
* SUTVA (Stable Unit-Treatment Value Assumption)
: 해당 가정은 No Interference와 Consistency를 결합한 부분이에요.
a1. Exchangeability (Ignorability)
- 정의 : $Treatment \perp (Y(1), Y(0))$
→ Treatment와 발생한 결과(Outcome)은 독립 (Treatment와 관계없이 발생하는 결과는 같습니다!
◦ $E[Y(1)|T=0] = E[Y(1)|T=1] = E[Y(1)]$
◦ $E[Y(0)|T=0] = E[Y(0)|T=1] = E[Y(0)]$
- 해당 가정을 크게 2가지 관점에서 바라볼 수 있습니다.
◦ Ignorability : 관측되지 않은 Missing values를 고려하지 않아요.
◦ Exchangeability : Treatment 그룹간은 서로 교환(비교) 가능합니다.
- 가정의 기대효과
◦ Confounder를(X, 과금수준) 랜덤하게 할당하는 효과를 얻을 수 있습니다 (Random Assignment)
= $X$가 $T$(프로모션, Treatment)에 할당되는 방식은 Coin Flip과 같아요
→ 그렇게 되면, Treatment를 제외한 나머지 요인들에 대해, 평균적으로 동질하게 만들어줍니다!
→ 순수하게 Treatment (프로모션)에 대한 Causal Effect (결제 효과)를 추정 가능하게 해줍니다.
- 문제점 : 다양한 Confounders가 존재하는 현실 상황에서, 두 그룹이 Exchangeable하다고
가정하는 것은 다소 비현실적 일 수 있습니다.
a2. Unconfoundedness (Conditional Exchangeability)
- 등장배경 : 위의 Exchangeability 가정의 문제점에서 말씀드렸던 것 처럼, Observational Study 환경에서는
현실적이지 않은 가정일 수 있습니다. - 정의 : $Treatment|X \perp (Y(1), Y(0))$
- 예시 :
◦ 상황 : $X$(과금 수준)으로 인해, $T$(프로모션)의 순수한 효과를 알기 어려운 상황입니다.
◦ 가정 : Subgroup (고과금, 중과금, 저과금)이 주어졌을 때, Subgroup간 비교가 가능
◦ 적용 : $X$ (과금 수준)에 대한 Subgroup이 주어졌을 때, 프로모션 그룹은 교환 가능
→ 이로 인해, Y (결제)에 대한, Treatment (프로모션)의 효과를 파악할 수 있게 됩니다
- 계산 방법 : $X$에 대한 Marginalisation 부분만 추가되고, 나머지는 Exchangeability와 동일합니다!
Conditional Exchangeability 가정을 이용해서 ATE를 구할 수 있습니다.
- 문제점 : Unobserved Confounders($W$)
◦ RCT (Randomized Controlled Trials) 환경이 아니면, 가정이 위배될 수 있습니다.
◦ 또한 관측되지 않는 교란 변수가 많은 상황에서, Unconfoundedness는 테스트를 할 수 없는 가정이에요.
(그래서, 위 가정은 위배되기 쉽습니다ㅜㅜ)
b. Positivity (Common Support)
- 정의 : $0 < P(T=1 |X=x) < 1$
→ 공변량 $X$이 주어졌을 때, Treatment가 골고루 할당되어야 해요.
즉, Treatment를 받은 그룹과 받지 않은 그룹이 특성이 유사해야 합니다! - Positivity를 보는 다양한 관점
1) 조건부 확률 계산 : 해당 Positivity 가정이 없다면, Causal Effect를 추정할 수 없게 됩니다.
아래 조건부 확률의 분모 부분이 $P(T=1|X=x)$ 또는 $P(T=0|X=x)$ 0이 되는 문제가 생깁니다...!
2) Overlap : 어떠한 Covariate $X$의 분포가 이상적일까요?
Treatment가 각각 주어졌을 때, Covariate에 대한 분포가 비슷해야 합니다!
* Postivity와 Unconfoundedness Tradeoff
: Machine Learning에서의 차원의 저주 처럼, Condition하는 Covariate의 차원이 커지면 커질 수록
Overlap이 되는 부분이 점점 줄어들게 됩니다.
→ 즉, 더 많은 Covariates에 Condition을 줄 수록, Unconfoundedness 가정은 만족하기 쉬워지지만,
반대로 차원이 커지게 되어 Overlap (Positivity)가정은 만족하지 못할 확률이 높아집니다.
c. No Interference
- 정의 : $Y_i(t_1,...,t_{i-1},t_i,t_{i+1}...,t_n) = Y_i(t_i)$
→ 개개인의 Outcome은 다른 사람의 Treatment에 영향을 받지 않아야합니다. - 예시 :
◦ Treatment : 강아지 입양한 경우 - $do(T=1)$ / 입양하지 않은 경우 - $do(T=0)$
◦ Outcome : $Y_i(1)$ - 행복함, $Y_i(0)$ - 행복하지 않음
◦ 실험 대상 개인의 Treatment에 대한 Outcome(행복)은 주변 대상으로부터 영향을 받지 않아야 해요.
- 문제점 :
◦ Node간 Connection이 있는 네트워크 데이터에서는 가정이 위배되기 쉽습니다.
(서로가 연결이 되어있기 때문이죠!)
◦ 다른 사람의 영향을 받지 않아야 하지만, 실제로는 받는 경우가 매우 많습니다. 아래 그림 처럼요.......
d. Consistency
- 정의 : $T=t \Rightarrow Y=Y(t)$
→ 동일한 Treatment의 경우, 그에 따른 결과도 동일해야 합니다
"There are no multitple versions of Treatment"
- 예시 :
◦ Teatment : 강아지 입양한 경우 - $do(T=1)$ / 입양하지 않은 경우 - $do(T=0)$
◦ Outcome : $Y_i(1)$ - 행복함, $Y_i(0)$ - 행복하지 않음
◦ Consistency 가정에 따르면, 강아지를 입양한 경우 $do(T=1)$, 2개의 Outcome ($Y_i(1)$, $Y_i(0)$) 중에서
하나의 결과에 대해서만 관측이 되어야 해요.
→ 아래와 같이 동일한 실험 대상에게 Treatment를 주었을 때, 다른 결과가 나온다면 가정에 위배가 된 것입니다.
- 문제점 : 당연해보이는 가정이지만, 실제 실험에서는 그렇지 않은 경우도 많습니다!
e. Trying it all together (Identifiability of the ATE)
- 위에서 배운 4가지 가정을 모두 종합해서, Causal Effect를 Identify 할 수 있어요.
To be continued) 앞으로 인과추론의 다른 Framework인 Strcutural Causal Models에 대해 배울 예정입니다.
Reference
◦ Lecture Notes
- 2021 Summer Session on Causal Inference (박지용 교수님) [Link]
◦ Books
- 데이터 분석의 힘 (이토 고이치로 저) [Link]
'Introduction to Causal Inference' 카테고리의 다른 글
Chapter 4. Causal Models (2) | 2022.07.18 |
---|---|
Chapter 3. Graphical Models (1) | 2022.07.12 |
Chapter 1. Motivation (0) | 2022.06.18 |
Chapter 0. Causal Inference 라이브러리 정리 (0) | 2022.06.17 |
Intro. Casual하게 Causality 이해하기 (0) | 2022.06.17 |
블로그의 정보
가짜연구소 Causal Inference Lab
Jinsoo