상세 컨텐츠

본문 제목

공중보건학 DAG 도구

카테고리 없음

by 공중보건학 전문가 2026. 1. 5. 06:21

본문

공중보건학 DAG 공중보건학은 다양한 사회, 환경, 생물학적 요인이 서로 얽혀 있는 복잡한 건강 문제를 다룬다. 질병 발생의 원인을 규명하고, 그 원인을 조절함으로써 전체 인구의 건강을 향상시키는 것이 목표지만 그 과정은 결코 단순하지 않다. 인과관계를 잘못 해석하면 효과 없는 정책을 수립하거나, 오히려 해로운 개입을 시행할 위험도 있다.

이러한 상황에서 최근 주목받고 있는 도구가 바로 DAG(Directed Acyclic Graph)이다.

DAG는 단순한 그림 그 이상이다. 변수 간 인과관계를 시각적으로 명확히 보여주고 어떤 변수를 통제해야 진짜 인과관계를 파악할 수 있는지 도와주는 강력한 분석 도구다. 


인과의 흐름을 그리는 지도

DAG는 ‘Directed Acyclic Graph’의 약자로, 방향성이 있는 비순환 그래프를 의미한다. 여기서 ‘방향성’은 변수간 인과관계를 의미하며 ‘비순환’이란 어떤 변수도 자기 자신으로 되돌아오는 경로가 없어야 함을 뜻한다. 즉, 원인에서 결과로만 흐르는 단방향 인과 구조다. 공중보건 연구에서는 DAG를 통해 원인, 결과, 혼란변수, 매개변수, 공변량을 명확히 구분할 수 있고 변수들 간의 인과 구조를 시각적으로 파악할 수 있다. 특히 복잡한 인과관계를 직관적으로 정리할 수 있어, 분석 모델 수립 전 설계 오류를 줄이는 데 매우 효과적이다.

노드(Node) 변수 (예: 흡연, 폐암, 나이 등)
에지(Edge) 방향 있는 연결선 (인과 흐름)
방향성(Directed) 원인 → 결과로만 흐름
비순환(Acyclic) 한 방향으로만 진행, 루프 없음
경로(Path) 두 변수 사이 연결된 모든 노드와 에지

공중보건학 DAG 제공하는 분석 설계 이점

공중보건학 DAG 공중보건학에서는 다양한 요인이 상호작용하기 때문에 통계 분석을 설계할 때 어떤 변수를 통제해야 하고, 어떤 변수는 통제하지 말아야 하는지에 대한 판단이 매우 중요하다. 이 판단을 잘못하면 혼란은 제거되지 않고 오히려 편향을 유발하는 과조정이 발생할 수 있다. DAG는 이러한 문제를 미리 시각화해 설계단계에서 통제 변수 결정에 대한 명확한 기준을 제시해준다.

특히 자연실험, 관찰연구, 반사실적 모형 등 비무작위 연구에서 필수적 도구로 자리 잡고 있다.

인과구조 시각화 변수 간 관계를 직관적으로 표현
교란변수 식별 통제해야 할 변수 명확히 확인 가능
과조정 방지 매개변수나 collider 변수 통제 회피 가능
분석 모델 간소화 불필요한 변수 제외로 효율적 분석 가능
가정 검토 용이 모델의 논리적 타당성 검토 가능

공중보건학 DAG 활용하여 찾는 교란변수와 경로

공중보건학 DAG DAG의 핵심 기능 중 하나는 confounding(교란)의 경로를 시각적으로 파악하는 것이다.

교란변수는 노출과 결과 모두에 영향을 주는 변수로, 이를 통제하지 않으면 인과관계가 왜곡된다. DAG에서는 이 교란의 경로를 backdoor path(뒷문 경로)라고 부르며 이 경로를 차단하는 것이 올바른 인과추론의 핵심이다. 예를 들어 ‘흡연 → 폐암’ 관계에서 ‘나이’가 흡연에도 영향을 주고 폐암 발생률에도 영향을 준다면, 나이는 교란변수이며 backdoor path를 형성한다.

이 경로를 차단하기 위해 ‘나이’를 분석에 포함시켜야 한다.

A ← C → B C가 A와 B에 모두 영향 → 교란경로 발생
A ← C ← D → B D를 통한 간접 경로로도 교란 발생 가능
차단 방법 C 또는 D를 통제하여 경로 끊기

편향의 예

DAG에서 또 하나 주의해야 할 개념은 collider(충돌변수)이다. collider는 두 개 이상의 변수에서 영향을 받아 생성된 변수를 말한다. 예를 들어 ‘운동량 → 체중 ← 식습관’의 구조에서 체중은 collider다. 이때 체중을 통제하면 운동량과 식습관 사이에 없던 연관이 생기는 문제(collider bias)**가 발생할 수 있다. 많은 연구자들이 ‘모든 변수를 통제하면 좋다’고 생각하는 오류에 빠지지만 사실 잘못된 통제는 새로운 편향을 만든다. DAG는 이런 실수를 사전에 방지하는 강력한 도구다.

통제하지 않아야 할 변수까지도 명확하게 구분할 수 있게 해준다.

A → C ← B C는 A와 B의 공통 결과 C 통제 시 A와 B 사이 인공적 상관 생성
예시 병원 입원 ← (흡연, 운동 부족) 입원자 집단 내 흡연-운동 부족 왜곡된 관계
해결책 collider 변수는 분석 모델에서 제외  

공중보건학 DAG 작성 기본 원칙과 실전 팁

공중보건학 DAG DAG를 작성하기 위해서는 먼저 명확한 인과적 가정이 필요하다.

DAG는 통계 분석의 결과를 보여주는 것이 아니라 연구자의 인과적 사고를 시각화하는 도구이기 때문이다. 따라서 변수를 추가하거나 제거할 때마다 그에 따른 경로와 효과를 면밀히 검토해야 한다. DAG 작성 시 가장 중요한 것은 전후 관계가 불분명한 변수는 우선 배제하거나 감수성을 검토하는 민감도 분석을 계획하는 것이다.

작성 후에는 적절한 변수 조합을 통한 backdoor path 차단 여부를 반드시 확인해야 한다.

1단계 주요 노출(Exposure)과 결과(Outcome) 정의
2단계 관련된 가능한 변수 목록 작성
3단계 인과 관계 방향에 따라 에지 설정
4단계 교란경로(backdoor) 식별 및 차단 변수 선택
5단계 분석 포함 변수 결정 및 민감도 검토

활용 사례 확인

DAG는 공중보건의 다양한 주제에 적용된다. 감염병 역학, 만성질환 연구, 보건 정책 평가 등에서 DAG를 활용한 설계는 이제 필수가 되고 있다. 특히 관찰연구 기반 인과추론 연구에서 중요한 역할을 한다.

아래는 실제로 사용된 DAG 기반 분석 사례들이다. 예를 들어, 출산 전 비타민D 섭취가 아이의 아토피 발생에 영향을 주는지를 평가하는 연구에서는 모성 영양 상태, 유전력, 계절, 외출량 등 다양한 변수들이 DAG로 구조화되어 분석에 반영되었다.

이로 인해 혼란변수는 통제되고 과조정은 방지된 정확한 결과를 도출할 수 있었다.

미세먼지와 폐기능 PM2.5 노출 폐활량 감소 흡연, 연령, 운동, 직업
예방접종과 입원율 백신 접종 여부 감염 질환 입원 기저질환, 사회경제적 수준
식품첨가물과 ADHD 인공 색소 섭취 아동 행동장애 부모 교육수준, 가족력, 미디어 시간
걷기와 당뇨 발생 걷기 빈도 제2형 당뇨 BMI, 식습관, 흡연, 직업 스트레스

통계 분석 접목

DAG는 분석 설계 도구일 뿐만 아니라, 실제 통계 모델과도 밀접하게 연결된다.

DAG를 기반으로 한 변수 선택은 회귀분석, 성향점수 분석, 반사실적 추론 등 다양한 기법과 함께 사용될 수 있다.

특히 g-methods(g-computation, IPTW, marginal structural models) 와의 결합은 인과 추론의 정확도를 높이는 데 중요한 역할을 한다. 또한 R, Stata 등 다양한 통계 소프트웨어에서는 DAG 그리기 및 분석 기능을 지원하는 패키지가 존재한다. 특히 R의 dagitty, ggdag 패키지는 시각화뿐만 아니라 적절한 조정 변수 추천과 교란 경로 자동 탐색 기능까지 포함하고 있어 실무에서도 매우 유용하다.

backdoor criterion 회귀분석, 성향점수 매칭 Stata, R(dagitty)
d-separation 변수 독립성 검정 Tetrad, R
g-computation 잠재 결과 모형 분석 R, Python
IPTW inverse probability weighting SAS, R
marginal structural models 시간 의존적 교란 통제 R, Stata

공중보건학 DAG 공중보건학의 문제는 복잡하다. 다양한 요인이 얽혀 있는 현실에서 정확한 인과 추론을 하기 위해서는 단지 데이터 분석 기술만으로는 부족하다. 그보다 더 중요한 것은 ‘어떤 관계를 상정하고 분석을 설계할 것인가’라는 인과적 사고력이다.

DAG는 바로 그 사고를 구조화하고, 시각화하며 오류를 줄이는 데 도움을 주는 도구다. 데이터가 넘쳐나는 시대일수록 무엇을 통제하고 무엇을 분석해야 하는지 판단할 수 있는 구조화된 시선이 필요하다. DAG는 이제 선택이 아니라 공중보건 실무자와 연구자에게 필수적인 언어가 되고 있다. 건강을 위한 모든 결정의 시작은 인과에 대한 올바른 이해에서 비롯된다. DAG는 그 출발점이다.