Lined Notebook

Chapter 3. Graphical Models

by chulhongsung

안녕하세요, 가짜연구소 Causal Inference 팀의 홍성철입니다. 

Introduction to Causal Inference 강의의 세 번째 챕터이며, 해당 챕터에서 다루는 내용은 아래와 같습니다.

Contents

  • Graphical models란 무엇인가요?
  • Bayesian Networks
  • Causal Graphs
  • Basic building blocks of graphs
  • D-separation

◦ 강의 영상 링크 : Chapter 3 - Graphical Models

    작성된 내용 중 개선점이나 잘못된 부분이 있다면 댓글로 알려주세요!


(1) Graphical models란 무엇인가요?

Probabilistic graphical models, which provides a mechanism for exploiting structure in complex distributions to describe them compactly, and in a way that allows them to be constructed and utilized effectively.
"Probabilistic Graphical Models : Principles and Techniques" (2009, Daphne Koller & Nir Friedman)

 

  • 정의 : 데이터(확률변수)간의 구조를 파악해서 복잡한 분포를 compact하게 표현할 수 있는 방법입니다.
  • 목표 : 
◦ 확률 변수간의 구조 표현 : 인과관계 (방향성) or 상관관계
◦ 복잡한 분포를 표현 : 확률 변수들간의 결합확률분포 (Joint Distribution)

◦ Compact하게 표현 : 분포를 구성하는 Parameter의 수를 줄이는 방식으로 표현 

 

  • Graph 정의 : Graphical model을 통해 변수들간의 구조를 시각화한 방법이 Graph 입니다. (Chapter 3에서는요!)
  • 용어 정리 (Graph Terminology)
Graph : 수학적으로 Node와 Edge의 집합입니다. < G=(V,E) >
Node (Vertex) : Graph에서 주로 변수들을 나타냅니다. 
◦ Edge (Link) : Graph에서 변수들간의 관계를 나타냅니다.
◦ 그래프 방향성 여부에 따라 2가지 형태가 존재합니다.
    1) Undirected Graph : 아래 Nodes와 Edges 그림 처럼 방향성이 없는 그래프
         - 예시 : Markov Random Fields, Boltzmann Machine
    2) Directed Graph : 아래 오른쪽 그림처럼, 화살표가 존재하는 그래프 
         - 예시 : Bayesian Networks, HMM (Hidden Markov Models), Latent Variable Models

영향을 주는 Node이면 Parent (Ancestor)이고, 받는 Node는 Child (Descendant)라고 정의합니다.


DAG (Directed Acyclic Graph) : Directed graph에서 cycle이 존재하는 경우가 있지만,
    DAG는 cycle이 없는 방향성 그래프에 해당 합니다.
     → Cycle이 있는 경우, Causal Inference에서 다루기 까다로워, 해당 강의에서는 DAG만 다룰 예정입니다.

  •  

(2) Bayesian Networks

  • 위에서 설명드린 것 처럼, 방향성 그래프에 속하는 Bayesian Networks에 대해서 알아보도록 하겠습니다.
  • 정의 : 변수 집합의 Dependency 구조와 결합확률분포를 인수분해 방식 (Factorisation)을 통해, 효과적으로 나타내는 Probabilistic graphical models 입니다.
  • 활용 : DAG가 Bayesian Networks에 속하므로, Causal Model을 활용할 때 사용할 수 있습니다..!
  • Joint Distribution 표현 방법 : 
◦ 변수간의 관계 (association)를 모른다면, 확률 연쇄법칙을 사용해서 다음과 같이 조건부 분포들의
    (coditional distribution) 곱으로 결합분포를 표현할 수 있어요.

   - p(x1,,xn)=p(x1)i=2np(xi|xi1,,x1)

◦  만약 xi,i=1,,n 가 이항(binary) 변수라면, p(xi|xi1,,x1)2i1 개의 모수가 필요해요.

     → 결론적으로 조건부 확률에서 조건으로 주어지는 변수가 많아지면 모수가 지수적으로 증가하게 됩니다.
 

◦  필요없는 변수는 고려하지 말고 영향을 주는 변수만을 골라서 조건으로 준다면, 고려해야하는 경우가 적어지므로
     필요한 모수가 적어질 것입니다..! 
   - 아래 예시에서 (x1,x2,x3)가 주어지는 경우, x4 = 1(or x4=0)인 확률, 즉 p(x4|x3,x2,x1)
     정하면 나머지 확률은 1p(x4|x3,x2,x1)로 자동으로 정해지게 됩니다.
     → 따라서, 각 (x1,x2,x3) 경우에 1개의 모수만을 필요로 하게 됩니다.


◦  다음 내용에서는 확률 분포의 조건부 독립에 대한 가정에 대해 알아보도록 하겠습니다~!

 

 

  • Local Markov Assumption
◦ 정의 : DAG의 Parent가 주어지면, 노드 X는 나머지 descendants가 아닌 노드들과 독립  
◦ 목적 : Conditional probability를 단순하게 만들기 위해서 입니다..!
    (마치, Markov chain에서 현재 t시점의 확률분포가 이전 (t1) 시점에만 의존하는 것을 생각하면,
    이해가 조금 쉬울 것 같습니다! - P(Xt|Xt1,,X1)=P(Xt|Xt1) )
◦ 기대효과 : 결합분포에서, 조건으로 주어지는 변수가 줄어 고려해야하는 모수가 줄어들게 됩니다!
    → P(x1,,x4)=P(x1)P(x2|x1)P(x3|x2,x1)P(x4|x3)

◦ 예시 : 아래 그림에서 X4X3가 조건으로 주어진다면 나머지 변수들과는 조건부 독립이에요.
    → P(X4|X3,X2,X1)=P(X4|X3)

◦ 직관 : "지능 → 성적 → 장학금 수여" 이라는 DAG를 생각해봅시다.
    - 만약 어떤 학생의 성적을 안다면, 그 학생의 지능을 몰라도 장학금을 수여여부를 알 수 있게 됩니다..!
      $P(장학금|지능,성적) = P(장학금|성적)$

 

  • Bayesian Network Factoriation (Chain rule for Bayesian networks)
◦ 정의 : 확률분포 P와 DAG인 G가 주어졌을 때, G에 따른 P의 Factorisation은 아래와 같습니다.
    p(x1,,xn)=i=1np(xi|Pai)
Local Markov assumption ⟺ Bayesian network factorization
    → 위에서 배운 Local Markov assumption과 Bayesian network factorization은 같아요!
       (해당 부분에 대한 증명은 Probabilistic Graphical Models 책의 Chapter 3 참고 부탁드립니다)
◦ Local Markov assumption의 한계 : 독립성(독립, 조건부 독립,...)에 대해서만 정보를 제공합니다.
    → 인접한 Node에 대해서, 종속성 (Dependence)에 대한 보장을 하기 위해서는 조금 더 강한 가정이 필요해요!
    → 그러면 Minimality assumption에 대해 배워보겠습니다.

 

  • Minimality assumption
◦ 정의 : 해당 가정은 2가지 부분으로 구성되어 있습니다. 
    - Local Markov assumption 
    - Adjacent nodes in the DAG are dependent (DAG에서 인접한 노드들은 의존적이다)
◦ 차이점 : Local Markov assumption과 비교 
    - 연결된 노드 X와 Y가 있다고 가정해봅시다. 
    - Local Markov assumption만 있는 경우, 노드 XY가 있는 경우 P(x,y)=P(x)P(y|x) 뿐만 아니라, 
      P(x,y)=P(x)P(y) 형태도로 인수분해가 가능합니다. (노드 XY가 독립) 

      그러나, Minimality assumption에서는 추가적인 독립성 가정을 허용하지 않아요.  
         (그래서 해당 가정에서는 P(x,y)=P(x)P(y)대해 이야기할 수 없어요)


 

(3) Causal Graphs

  • 위에서 다룬 부분은 DAG의 연관성에 (Association) 대한 부분을 다루었습니다.
    그러나, 저희가 다뤄야할 인과성에 (Causation) 대해서는 추가적인 가정이 필요해요 (Causal assumption)
  • Causal Graphs  : Bayesian Networks + 인과성 가정(Causal Edges Assumption
1) What is a cause? 
     만약 변수 Y가 변수 X의 변화에 ​​따라 변할 수 있다면, X는 Y의 원인이라고 합니다. 


2) (Strict) Causal Edges Assumption
    ◦ Directed graph에서, 모든 부모(parent) 노드는 모든 자식(children) 노드의 직접적인 원인입니다.
    → Minimality assumption의 2번째 가정이(Adjacent nodes in the DAG are dependent)
        자연스럽게 strict causal edges assumption으로 연결되며, 부모는 자식의 cause라고 특정하는 가정입니다.



3)  Q : 그러면 Strict하지 않은 가정도 있는 건가요? (non-strict assumption)
     A : 네! 그런데, 우리가 공부할 내용에 대해서는 strict 가정을 만족하는 DAG에 대해서만 다룰 예정이에요

 

 

  • Assumptions Flowchart : DAG의 Causal dependencies를 파악하기 위해서 2가지 가정을 배웠습니다!
1) Markov Assumption 
    : DAG의 부모 노드가 주어지면, 노드 X는 나머지 descendants가 아닌 노드들과 독립  

2) Causal Edges Assumption 
    : Directed graph에서, 모든 부모 노드는 모든 자식 노드의 직접적인 원인
     → 해당 가정은 Minimality Assumption을 내포하고 있어, 위에 Markov Assumption으로 나타냈습니다.

 

(4) Graphical building blocks

  • DAG에서 그래프를 이루는 구성요소와 흐름에 대해서 배워보려고 해요.
  • 그래프의 최소 구성 요소 (D-separation 요소)는 Chain, Fork, Immorality 이렇게 3가지로 이루어져 있습니다.

 

  • Chains & Forks : 3개의 노드로 구성된 DAG 중 Chain, Fork는 동일한 Dependency 성질을 보입니다.
◦  설명 : 
    - X2가 주어지지 않은 경우 :  X1,X3는 직접 연결되어있지는 않지만, 연관성은 존재합니다.
       → X1에서 X3로 가는 통로가 차단되어 있지 않아, 그대로 정보가 X3까지 흐르게 됩니다.
            (Unblocked Path)


    - X2가 주어진 경우 :  X1,X3조건부 독립입니다. (연관성은 사라지게 됩니다)
       → X1에서 X3로 가는 통로가 차단되어 있어,  X1에 있는 정보가 더이상 흐르지 않게 됩니다.
            (Blocked Path)

◦  목표 : Causal association이외의 Non-causal association 영향을 제거 (Path 차단)
    - Chains : Mediator (매개변수)를 통제 

    - Forks : Confounder (교란변수)를 통제



◦  사례 : 
    - Chains : 위에서 이야기한 사례인 "지능 → 성적 → 장학금 수여" 이라는 DAG를 생각해봅시다.
       → 만약 성적을 알고 있다면, 지능과 장학금 수여에 대한 연관성은 더이상 존재하지 않게 됩니다!
            < 성적을 알고 있고, 그에 따라서 장학금을 수여 받게된 것이기 때문이죠 > 

    - Forks : X1,X2,X3가 연관되어 있는 Fork 형태를 선형 모형으로 이해 해봅시다!  
       → X1=X2+ϵ1. X3=X2+ϵ2  
       → X2ϵ1,ϵ2 / ϵ1ϵ2
       → X2=x 로 주어진다면, x+ϵ1x+ϵ2
            즉, X1X3는 조건부 독립입니다.!

 

 

  • Coliders(Immoralities) and their Descendants : 
◦  Immoralities vs Chains & Forks :  
    - Immoralities는 앞에서 설명한 Chains과 Forks와 다른 구조를 가집니다.
    - X1X3에 공통으로 영향받는 변수인 X2가 주어진다면, X1X3연관성이 생기게 됩니다.


◦  목표 : Causal association이외의 Non-causal association영향을 제거 (Path를 차단하지 않음)
    - Immoralities : Collider를 통제하게 되면, Association이 형성되므로 통제하지 X 


◦  만약 Collider의 자손 (Descendents)이 주어졌다면, 어떻게 될까요? 
    - X4가 주어진 경우, X1X3더 이상 독립이 아니게 됩니다!



◦  사례 1 : 잘생긴 사람들은 무례한가요?
    - X2 (연애여부)를 통제하지 않았을 때 :
외모 (X1)와 친절함 (X3)은 독립에 가깝습니다.
    - X2 (연애여부)를 통제하지 했을 때 :
연애여부를 안다면 (X2),  연애를 하지 않는 사람들은 외모와 친절함과
       음의 상관관계를 가지는 것을 확인해볼 수 있습니다...!


◦  사례 2 : 아래와 같은 Data Generating Process를 살펴봅시다.
    - X1 ~ N(0,1), X2 ~ N(0,1), X2=X1+X3

    - X2가 조건으로 주어지지 않은 경우, 공분산은 0 (독립)
    - X2가 조건으로 주어진 경우, 공분산은 -1 (음의 상관관계)

 

 

(5) D-separation

  • 일반적인 인과 모형은 앞에서 배운 Building Blocks (Chains, Forks, Immoralities) 처럼 단순하게 구성되어 있지 않아요.
    따라서 복잡한 인과모형에 적용할 수 있는 규칙에 대해 확인해보도록 하겠습니다.
  • D-separation : 
◦  정의 : 두 노드의 집합 X, Y 사이의 모든 경로(Path)가 노드 집합 Z에 의해 차단되는 경우,
     XYZ에 의해 d-separation 된다고 말합니다.

◦  의미 : 
    - 그래프 상에서 확인할 수 있는 d-separation은 확률분포 상 조건부 독립을 의미해요

    - d-separation은 Local Markov assumption보다 더 광범위하므로 Global Markov assumption(dependencies)
      라고도 해요. 이 경우에는 Local과 Global을 구분하지 않고 Markov assumption이라고 합니다...!

     → 복잡한 그래프 구조에서 d-separated 되는 경우를 알아야하고 d-separated에서 나오는
          blocked path를 통해 confounding association 효과를 제거해야 합니다!

     →
Graphical models에서 조건부 독립의 가정/성질(local Markov assumption, d-separated)은
         확률분포의 분해와 연결됩니다.



◦  예시 : 
    - TY{M1,W2,X2}가 주어진 경우, d-separated 될까요?
    - TY{M1,W2,X1,X2}가 주어진 경우, d-separated 될까요?
       → 정답은 댓글로 달아주세요!

 

 

To be continued) 배운 Causal Graphs를 활용해 일반화된 방법인 Strcutural Causal Models에 대해 배울 예정입니다.

 

Reference 

◦ Lecture Notes 
   - Bayesian Networks 강의 자료 (카네기 멜론 Uni) [Link]
◦ Books 
   - Probabilistic graphical models principles and techniques [Link]
◦ Blogs
   - Collider 관련 적용 NCSoft 적용 사례 [Link]

블로그의 프로필 사진

블로그의 정보

가짜연구소 Causal Inference Lab

chulhongsung

활동하기