๐ง 1. ๋ ผ๋ฌธ ๊ฐ์
Elahe Khatibi1, Mahyar Abbasian1, Zhongqi Yang1, Iman Azimi1, and Amir M.
๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ์์ ํจ๊ณผ์ ์ธ ์ธ๊ณผ ์ถ๋ก ์ ์ํํ๊ธฐ ์ํด์๋ ๊ด์ฐฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์์ฑํ๋ ์ธ๊ณผ ๋ฐ๊ฒฌ์ด ํ์์ ์ ๋๋ค. ๊ทธ๋ฌ๋ ์์ ํ๊ณ ์ ํํ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ป๋ ๊ฒ์ NP-๋ํด ๋ฌธ์ ๋ก ์ฌ๊ฒจ์ง๋ ์ด๋ ค์ด ๊ณผ์ ์ ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ๊ณผ LLM์ ๊ฒฐํฉํ์ฌ ๋ ๊ฒฌ๊ณ ํ๊ณ ์ ํํ๋ฉฐ ์ค๋ช ๊ฐ๋ฅํ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์๋ก์ด ํ๋ ์์ํฌ์ธ '์์จ LLM ์ฆ๊ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ํ๋ ์์ํฌ(ALCM)'๋ฅผ ์๊ฐํฉ๋๋ค. ALCM์ ์ธ๊ณผ ๊ตฌ์กฐ ํ์ต, ์ธ๊ณผ ๋ํผ, LLM ๊ธฐ๋ฐ ์ธ๊ณผ ์ ์ ๊ธฐ๋ผ๋ ์ธ ๊ฐ์ง ์ค์ํ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ์ด๋ค์ ๋์ ์ธ ํ๊ฒฝ์์ ํ๋ ฅํ์ฌ ์ธ๊ณผ ๋ฐ๊ฒฌ ์ง๋ฌธ์ ๋์ํ๊ณ ๊ทธ๋ด๋ฏํ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ 7๊ฐ์ ์ ์๋ ค์ง ๋ฐ์ดํฐ์ ์์ ๋ ๊ฐ์ง ์์ฐ์ ํตํด ALCM ํ๋ ์์ํฌ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์์ผ๋ฉฐ, ALCM์ด ๊ธฐ์กด LLM ๋ฐฉ๋ฒ ๋ฐ ์ ํต์ ์ธ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ์ถ๋ก ๋ฉ์ปค๋์ฆ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ ์ ์ฆํ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ ALCM์ ํจ์จ์ฑ์ ์ ์ฆํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ LLM์ ์ธ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ๊ฐ์กฐํฉ๋๋ค.
LLM ๊ธฐ๋ฐ์ผ๋ก ์ค๋ช ๊ฐ๋ฅํ ์ธ๊ณผ ๊ทธ๋ํ ์์ฑ์ ์๋ํ
๋ ผ๋ฌธ URL
๐ฏ 2. ์ฐ๊ตฌ ๋ชฉ์ ๋ฐ ๋ฌธ์ ์ ์
2-1. ํด๊ฒฐํ๋ ค๋ ๋ฌธ์ ๋ ๋ฌด์์ธ๊ฐ?
- ์ ํํ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ป๋ ๊ฒ
2-2. ๊ธฐ์กด ์ฐ๊ตฌ์ ์ด๋ค ์ฐจ๋ณ์ ์ด ์๋๊ฐ?
- ์ ํต์ ์ธ ์ธ๊ณผ ๋ฐ๊ฒฌ ๊ธฐ๋ฒ๊ณผ LLM ๊ฒฐํฉํ์ฌ ์ธ๊ณผ ๊ทธ๋ํ ์์ฑ
โ๏ธ 3. ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก
3-1. ์ฌ์ฉํ ๋ชจ๋ธ/๊ธฐ์ /ํ๋ ์์ํฌ
ํ๋ ์์ํฌ

(1) ์ธ๊ณผ ๊ตฌ์กฐ ํ์ต (Causal Structure Learning)
- ๋ฐ์ดํฐ์ ์ ์ ๋ ฅ๋ฐ์ ์ ํต์ ์ธ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ธ๊ณผ ๊ทธ๋ํ ์์ฑ
- PC(Peter-Clark) ์๊ณ ๋ฆฌ์ฆ๊ณผ LiNGAM(Linear Non-Gaussian Acyclic Model) ์ฌ์ฉ
(2) ์ธ๊ณผ ๋ํผ (Causal Wrapper)

- ์ธ๊ณผ ๊ตฌ์กฐ ํ์ต๊ณผ LLM ๊ธฐ๋ฐ ์ธ๊ณผ ์ ์ ๊ธฐ ๊ตฌ์ฑ ์์ ์ฌ์ด์ ์ค๊ฐ์ ์ญํ
- ์ธ๊ณผ ๊ทธ๋ํ์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ธ๊ณผ ํ๋กฌํํธ๋ก ์บก์ํํ๋ ์ญํ
- ํด๋น ์ธ๊ณผ ํ๋กฌํํธ๊ณผ LLM ๊ธฐ๋ฐ ์ ์ ๊ธฐ๋ก ์ ๋ฌ๋์ด ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ดํดํ๊ณ ์ ํฉํ ํด๊ฒฐ์ฑ ์ ๋ง๋ค๋๋ก ํจ
- Causal Prompt = Instruction + Causal Context + Metadata + Question + Output format.
- Instruction (์ง์นจ): LLM์ ์ญํ , ๋ชฉํ, ์์๋๋ ๋์์ ๋ช ํํ๊ฒ ์ ์
- Causal Context (์ธ๊ณผ ๋งฅ๋ฝ): ์ ํ๋ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ(์: PC ์๊ณ ๋ฆฌ์ฆ)์ ์ด๋ฆ๊ณผ ๊ฒฐ๊ณผ ๋ฑ ์ธ๋ถ ์ ๋ณด๋ฅผ ํฌํจ
- Metadata (๋ฉํ๋ฐ์ดํฐ): ๋ฐ์ดํฐ์ ์ ๋๋ฉ์ธ์ด๋ ๋ณ์ ์ด๋ฆ๊ณผ ์ค๋ช (์: ์ ์ํ ์์ธ, ์ ์ ์ ์ ๊ด๊ณ)์ ์ ๊ณต
- Question (์ง๋ฌธ): ํน์ ์ฟผ๋ฆฌ(์: A๊ฐ B์ ์์ธ์ธ์ง ์ฌ๋ถ)๋ฅผ ๋ช ํํ ์ ์
- Output format (์ถ๋ ฅ ํ์): ์ํ๋ ๊ฒฐ๊ณผ๋ฌผ์ ํ์์ ์ ์
- ์ด๋ฌํ ํ๋กฌํํธ ์ ๋ต์ ํตํด ์ต์ข ์ธ๊ณผ ๊ทธ๋ํ๊ฐ ๋ฐ์ดํฐ์ ๋ด์ ๊ทผ๋ณธ์ ์ธ ์ธ๊ณผ ๋ฉ์ปค๋์ฆ์ ๋ฐ์ํ๋๋ก ๋ณด์ฅ
(3) LLM ๊ธฐ๋ฐ ์ธ๊ณผ ์ ์ ๊ธฐ (LLM-driven Refiner)
- LLM์ผ๋ก ์ธ๊ณผ๊ทธ๋ํ์ ์ ์ ๋ฐ ํ๊ฐ
- ๋ฌธ๋งฅ์ ์ธ๊ณผ ํ๋กฌํํธ์ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ํ ๋๋ก ์ธ๊ณผ ์ฃ์ง/๋ ธ๋๋ฅผ ํ๊ฐํ์ฌ ๋ ธ๋์ ์ฃ์ง๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐ
ALCM ํ๋ก์ธ์ค

-
- ์
๋ ฅ (Require):
- ๊ด์ฐฐ ๋ฐ์ดํฐ์ (O): ๋ถ์ํ ์๋ณธ ๋ฐ์ดํฐ
- ๋งฅ๋ฝ์ ์ธ๊ณผ ์ ๋ณด (C): ๋ฌธ์ ์ ๋ฐฐ๊ฒฝ ์ง์์ด๋ ๋๋ฉ์ธ๋ณ ์ ๋ณด
- ๋ฉํ๋ฐ์ดํฐ (M): ๋ฐ์ดํฐ์ ์ ๋ณ์๋ช ๋ฐ ์ค๋ช ๊ณผ ๊ฐ์ ์ถ๊ฐ ์ ๋ณด
- ์ถ๋ ฅ (Ensure):
- ์ธ๊ณผ DAG : ์ต์ข ์ ์ผ๋ก ์์ฑ๋๋ ๋ฐฉํฅ์ฑ ๋น์ํ ๊ทธ๋ํ(Directed Acyclic Graph) ํํ์ ์ธ๊ณผ ๊ทธ๋ํ
- ์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ๋ณ ์ค๋ช
:
- ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ ์์ฑ:
- ์ ํ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ(์: PC, LiNGAM)์ ์ฌ์ฉํ์ฌ ๊ด์ฐฐ ๋ฐ์ดํฐ์ (O)์ผ๋ก๋ถํฐ ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ ($G_i$)๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๋จ๊ณ๋ "Causal Structure Learning" ๊ตฌ์ฑ ์์์ ํด๋นํฉ๋๋ค.
- ์ธ๊ณผ ํ๋กฌํํธ ์์ฑ:
- ๋งฅ๋ฝ์ ์ธ๊ณผ ์ ๋ณด (C)์ ๋ฉํ๋ฐ์ดํฐ (M)๋ฅผ ์ฃผ์ ํ์ฌ LLM์ ์ํ ์ธ๊ณผ ํ๋กฌํํธ๋ฅผ ์์ฑํฉ๋๋ค. ์ด ํ๋กฌํํธ๋ LLM์ด ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ดํดํ๊ณ ๊ด๋ จ ๋ฐฐ๊ฒฝ ์ง์์ ํตํฉํ๋๋ก ์๋ดํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด ๋จ๊ณ๋ "Causal Wrapper" ๊ตฌ์ฑ ์์์ ํด๋นํฉ๋๋ค. ํ๋กฌํํธ๋ ๋ค์ ์์๋ฅผ ํฌํจํฉ๋๋ค: Instruction + Causal Context + Metadata + Question + Output format.
- LLM ๊ธฐ๋ฐ ์ธ๊ณผ ๊ทธ๋ํ ์ ์ (๋ฐ๋ณต):
- ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ ($G_i$))์ ๊ฐ ์ฃ์ง($z = (e_i, e_j)$)์ ๋ํด ๋ค์ ์์
์ ๋ฐ๋ณตํฉ๋๋ค. ์ด ๊ณผ์ ์ "LLM-driven Refiner" ๊ตฌ์ฑ ์์์ ์ํด ์ํ๋ฉ๋๋ค.
- ์ฃ์ง ์ ํจ์ฑ ๊ฒ์ฌ: LLM-Driven Refiner๊ฐ ํด๋น ์ฃ์ง๋ฅผ ์ ํจํ๋ค๊ณ ํ๋จํ๋ฉด, ๊ทธ๋ํ์ ์ ์ง๋ฉ๋๋ค.
- ์ฃ์ง ๋ฐฉํฅ ์์ : LLM-Driven Refiner๊ฐ ์ฃ์ง์ ๋ฐฉํฅ์ ์์ ํด์ผ ํ๋ค๊ณ ํ๋จํ๋ฉด, ์๋ก์ด ๋ฐฉํฅ์ ์ฃ์ง($(z')$)๋ก ๋์ฒด๋ฉ๋๋ค.
- ์ฃ์ง ์ ๊ฑฐ: LLM-Driven Refiner๊ฐ ํด๋น ์ฃ์ง๋ฅผ ์ ๊ฑฐํด์ผ ํ๋ค๊ณ ํ๋จํ๋ฉด, ๊ทธ๋ํ์์ ์ญ์ ๋ฉ๋๋ค.
- ์๋ก์ด ์ฃ์ง ์ถ๊ฐ: LLM-Driven Refiner๊ฐ ์ด๊ธฐ ๊ทธ๋ํ์๋ ์๋ ์๋ก์ด ์ธ๊ณผ ๊ด๊ณ(\(z''\))๋ฅผ ์๋ณํ์ฌ ์ถ๊ฐํด์ผ ํ๋ค๊ณ ํ๋จํ๋ฉด, ์ด๋ฅผ ๊ทธ๋ํ์ ์ถ๊ฐํฉ๋๋ค.
- ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ ($G_i$))์ ๊ฐ ์ฃ์ง($z = (e_i, e_j)$)์ ๋ํด ๋ค์ ์์
์ ๋ฐ๋ณตํฉ๋๋ค. ์ด ๊ณผ์ ์ "LLM-driven Refiner" ๊ตฌ์ฑ ์์์ ์ํด ์ํ๋ฉ๋๋ค.
- ์ต์ข
์ธ๊ณผ ๊ทธ๋ํ ๋ฐํ:
- ๋ชจ๋ ์ฃ์ง์ ๋ํ ์ ์ ๊ณผ์ ์ด ์๋ฃ๋ ํ, ์ต์ข ์ ์ผ๋ก ๊ฐ์ ๋๊ณ ์ ์ ๋ ์ธ๊ณผ ๊ทธ๋ํ (\(G_i\))๋ฅผ ๋ฐํํฉ๋๋ค.
- ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ ์์ฑ:
- ์
๋ ฅ (Require):
3-2. ์คํ ์ค์
ALCM-PC vs ALCM-Hybrid
- ALCM-PC
- ์ธ๊ณผ ๊ตฌ์กฐ๋ PC ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต ํ, OpenAI์ GPT-4๋ฅผ ํ์ฉํด LLM ๊ธฐ๋ฐ ์ ์
- ALCM-Hybrid
- PC + LiNGAM ๋ค์๊ฒฐ๋ก ํ ์๊ณ ๋ฆฌ์ฆ๋ง ์๋ณํ ์ฃ์ง์ ๊ฒฝ์ฐ LLM์ด ํ๋จ.
- ์ฑ๋ฅ ์งํ : ์ ๋ฐ๋, ์ฌํ์จ, F1 ์ ์, ์ ํ๋, ๊ทธ๋ฆฌ๊ณ ์ ๊ทํ๋ ํด๋ฐ ๊ฑฐ๋ฆฌ(NHD)์ ๋ค์ฏ ๊ฐ์ง ์งํ
- Precision (์ ๋ฐ๋): ์๊ณ ๋ฆฌ์ฆ์ด ์๋ณํ ๋ชจ๋ ๊ด๊ณ ์ค์์ ์ฌ๋ฐ๋ฅด๊ฒ ์๋ณ๋ ์ธ๊ณผ ๊ด๊ณ์ ๋น์จ์ ์ธก์ ํฉ๋๋ค. ์ด๋ ๊ฑฐ์ง ์์ฑ(false positives)์ ์ต์ํํ์ฌ ์ ์๋ ์ธ๊ณผ ๊ด๊ณ์ ์ ํจ์ฑ์ ๋ณด์ฅํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
- Recall (์ฌํ์จ): ์๊ณ ๋ฆฌ์ฆ์ด ์ฌ๋ฐ๋ฅด๊ฒ ์๋ณํ ์ค์ ์ธ๊ณผ ๊ด๊ณ์ ๋น์จ์ ํ๊ฐํ์ฌ ๋ฐ์ดํฐ ๋ด์ ์กด์ฌํ๋ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ์ผ๋ง๋ ์์ ํ ์ฐพ์๋๋์ง๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
- F1-score: ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํ ํ๊ท ์ผ๋ก, ์๋ณ๋ ์ธ๊ณผ ๊ด๊ณ์ ์ ํ์ฑ๊ณผ ์์ ์ฑ ์ฌ์ด์ ๊ท ํ์ ์ ๊ณตํ๋ ๋จ์ผ ์งํ์ ๋๋ค.
- Accuracy (์ ํ๋): ์ธ๊ณผ ๊ทธ๋ํ์ ์ ์ฒด์ ์ธ ์ ํ์ฑ์ ํ๊ฐํ๋ฉฐ, ์ค์ ์ธ๊ณผ ๊ด๊ณ์ ์กด์ฌ์ ๊ฑฐ์ง ๊ด๊ณ์ ๋ถ์ฌ๋ฅผ ๋ชจ๋ ํฌํจํฉ๋๋ค.
- Normalized Hamming Distance (NHD): ์์ธก๋ ์ธ๊ณผ ๊ทธ๋ํ์ ์ค์ ๊ทธ๋ํ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๋ํํ๋ฉฐ, ๊ทธ๋ํ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ ๊ทํ๋ ๋ถ์ผ์น ์ฃ์ง์ ๋น์จ์ ์ธก์ ํฉ๋๋ค.
- $\text{NHD} = \frac{1}{m^2} \sum_{i=1}^{m} \sum_{j=1}^{m} \mathbb{I}(G_{ij} \neq G^p_{ij})$ : ์ผ์นํ์ง ์๋ ์ฃ์ง๋ค์ ๋น์จ
- $\mathbb{I}(\cdot)$ : ์ฐธ๊ทธ๋ํ์ ๋ถ์ผ์นํ๋ ๊ฒฝ์ฐ 1์ ๋ฐํํ๊ณ ๊ฐ์ผ๋ฉด 0์ ๋ฐํํ๋ ์ง์ ํจ์
3-3. ๋ฐ์ดํฐ์ ์ข ๋ฅ ๋ฐ ํน์ฑ
- Asia, Cancer, Child, Insurance, Sachs, Neuropathic, Sangiovese ๋ฑ ์๋ฃ ์ฐ๊ตฌ, ๋ณดํ ๋ชจ๋ธ๋ง, ์ ์ ๊ฒฝ๋ก ๋ฑ ๋ค์ํ ๋ถ์ผ์ ๋ณต์ก์ฑ์ ์ง๋ 7๊ฐ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ณผ ์ค์ ์ฐธ๊ฐ ์ธ๊ณผ ๊ทธ๋ํ ์ฌ์ฉ
๐ 4. ์ฃผ์ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ
์ฑ๋ฅ ๋น๊ต



- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๊ณผ์ ๋น๊ต: ALCM-PC์ ALCM-Hybrid๋ ๊ธฐ์ค์ ์ธ PC ์๊ณ ๋ฆฌ์ฆ ๋ฐ LLM ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋น๊ตํ์ฌ ์ ๋ฐ๋, ์ฌํ์จ, F1-์ค์ฝ์ด, ์ ํ๋์์ ๋์ ๋๋ ์ฆ๊ฐ๋ฅผ ๋ณด์
- NHD ๊ฐ์: ALCM-PC์ ALCM-Hybrid ๋ชจ๋์์ NHD๊ฐ ํ์ ํ๊ฒ ๊ฐ์ํ๋๋ฐ, ์ด๋ Ground Truth ์ธ๊ณผ ๊ทธ๋ํ์์ ๊ตฌ์กฐ์ ์ผ์น๊ฐ ๋ ๋์์ ์์ฌํ๋ฉฐ ๋ฐ์ดํฐ์ ๋ด์ ์ธ๊ณผ ๋์ญํ์ ๋ํ ๋ ์ ํํ ํํ์ ํ๊ณ ์์์ ์๋ฏธํจ.
- ALCM-Hybrid์ ์ฐ์์ฑ: ALCM-Hybrid๋ ALCM-PC๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๊ธฐ์กด ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ค์๊ฒฐ ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํ๊ณ LLM์ ํ์ฉํ์ฌ ์ธํฐ๋ท์ ์ต์ ์ ๋ณด๋ฅผ ํตํฉํ๋ ์ด์ค ์ ๋ต์ ํจ๊ณผ๋ก ๋ณด์.
- LLM ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ํ๊ณ: LLM ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ผ๋ถ ๊ฒฐ๊ณผ์์๋ ๋ฎ์ ์ ๋ฐ๋์ ๋์ NHD ๊ฐ์ด ๊ด์ฐฐ๋์๋๋ฐ, ์ด๋ LLM์ด ์๋ณํ ๊ด๊ณ์ ์๋น ๋ถ๋ถ์ด ์ค์ Ground Truth์ ์์์์ ์์ฌํ๋ฉฐ, ์๊ณ ๋ฆฌ์ฆ์ ํน์ด์ฑ ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ์์ ๊ณผ๋ํ๊ฒ ์ผ๋ฐํํ๋ ๊ฒฝํฅ๊ณผ ๊ด๋ จ๋ ์ ์ฌ์ ์ธ ๋ฌธ์ ๊ฐ ์์์ ์์ฌ.
์๋ก์ด ๋ ธ๋ ๋๋ ์ฃ์ง ์ถ๊ฐ ๊ฒฐ๊ณผ
- ALCM ํ๋ ์์ํฌ๊ฐ ๊ธฐ์กด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ด ๋์น ์ ์๋ ์๋ก์ด ๋ ธ๋(๋ณ์)๋ ์ฃ์ง(์ธ๊ณผ ๊ด๊ณ)๋ฅผ ์ด๋ป๊ฒ ์๋ณํ๊ณ ์ถ๊ฐ๋์ง ํ์ธ
- ALCM์ LLM์ด ๊ฐ์ง ๋ฐฉ๋ํ ์ต์ ์ง์๊ณผ ์ ๋ฌธ๊ฐ ์์ค์ ๊ฐ๋
๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ด๋ฌํ 'ํ์
ํ๊ธฐ ์ด๋ ค์ด ๋ณ์(Markov blanket)'์ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ํฌ๊ฒ ๊ธฐ์ฌํ๊ณ ์์
- ALCM์ LLM ์ปดํฌ๋ํธ์ ๊ฐ์ ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ ์กด์ฌํ์ง ์๊ฑฐ๋ ๊ฐ๊ณผ๋์๋ ์จ๊ฒจ์ง ๋ณ์์ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ๋ฐํ๋
- LLM์ด ์ ๊ณตํ ์๋ต์ ์ ๋ขฐ ์์ค์ ์์ฒญํ ์ ์์ผ๋ฉฐ, ALCM์ ๋ต๋ณ์ Tobacco smoke and involuntary smoking๊ณผ ๊ฐ์ ์ต์ ์ํ ๋ ผ๋ฌธ์ ํตํด ๊ฒ์ฆ๋์์
๐ฌ 5. ๋นํ์ ๋ถ์
5-1. ํ๊ณ์
(1) ๊ตฌ์กฐ์ ๋งฅ๋ฝ์ ์์ค
- Causal Wrapper๊ฐ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ํ๋กฌํํธ๋ก ๋ณํํ๋ ๊ณผ์ ์์ ์ ์ฌ์ ์ธ ์ ๋ณด ์์ค์ด๋ ์๊ณก ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์
(2) ํ์ฅ์ฑ ๋ฌธ์ ๋ฐ ํ๋กฌํํธ ๊ธธ์ด ์ ํ
- ๋ ธ๋์ ์ฃ์ง ์๊ฐ ๋งค์ฐ ๋ง์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ, ๋ชจ๋ ์ฃ์ง๋ฅผ ๊ฐ๋ณ ํ๋กฌํํธ๋ก ๋ณํํ์ฌ LLM์ ์ ๋ฌํ๋ ๊ฒ์ ํ๋กฌํํธ์ ๊ธธ์ด๋ฅผ ์ง๋์น๊ฒ ๊ธธ๊ฒ ๋ง๋ค ์ ์์
- ์ปจํ ์คํธ ๊ธธ์ด ์ ํ์ผ๋ก ํ๋กฌํํธ๊ฐ ์๋ ค ์ ๋ณด ๋๋ฝ ์ํ ์์
(3) ์๊ณ ๋ฆฌ์ฆ์ ์ธ๋ถ ์ ๋ณด์ ์์ค
- ์ด๊ธฐ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์์ฑํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ํ ๊ทธ๋ํ ๊ตฌ์กฐ๋ฟ๋ง ์๋๋ผ ๊ฐ ์ฃ์ง์ ๋ํ ํต๊ณ์ ์ ์์ฑ, ์ ๋ขฐ ๊ตฌ๊ฐ, ํน์ ๋์์ ์ธ ๊ทธ๋ํ ๊ฐ์ค ๋ฑ ๋ค์ํ ๋ถ๊ฐ ์ ๋ณด๋ฅผ ์ฐ์ถ
- Causal Wrapper๊ฐ 'raw, initial causal graph'๋ง์ ์ ๋ฌํ๊ณ ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ์ธ๋ถ ์ ๋ณด๋ฅผ ํ๋กฌํํธ์ ์ถฉ๋ถํ ํฌํจํ์ง ์์ผ๋ฉด, LLM์ด ๋ ํ๋ถํ ๊ทผ๊ฑฐ๋ฅผ ๋ฐํ์ผ๋ก ์ ์ ํ ๊ธฐํ๋ฅผ ์๊ฒ ๋จ.
5-2. ๋ณด์ํ ์
(1) ํ๋กฌํํธ์ ๊ตฌ์กฐ์ ๋งฅ๋ฝ ์ถ๊ฐ
- ๊ฐ๋ณ ์ฃ์ง์ ๋ํ ์ง๋ฌธ ์ธ์, ํน์ ์๋ธ๊ทธ๋ํ(subgraph), ๊ณตํต ์กฐ์/์์ ๊ด๊ณ, ๋๋ ํน์ ์ธ๊ณผ ํจํด(์: "PC ์๊ณ ๋ฆฌ์ฆ์ด X, Y, Z์์ v-๊ตฌ์กฐ๋ฅผ ๊ฐ์งํ์ต๋๋ค. ์ด๋ฅผ ํ๊ฐํ์ญ์์ค.")์ ๋ํ ์ ๋ณด๋ฅผ ํ๋กฌํํธ์ ํฌํจ์์ผ LLM์ด ๋ ๋์ ๊ด์ ์์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋๋ก ์ ๋
(2) ์ ๋์ ์ฆ๊ฑฐ ๋ฐ ์ ๋ขฐ๋ ํฌํจ
- ์ด๊ธฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐ ์ฃ์ง์ ๋ํด ๊ณ์ฐํ ํต๊ณ์ ์ ๋ขฐ๋ ์ ์๋ ์ ์ ํ๋ฅ ๊ฐ์ ํ๋กฌํํธ์ ๋ช ์์ ์ผ๋ก ์ถ๊ฐํฉ๋๋ค (์: "์๊ณ ๋ฆฌ์ฆ์ '์ค์ผ'์ด '์'์ ์์ธ์ด๋ผ๊ณ 0.85์ ์ ๋ขฐ๋๋ก ์ ์ํฉ๋๋ค."). ์ด๋ฅผ ํตํด LLM์ ๋จ์ํ ์กด์ฌ ์ฌ๋ถ๋ฟ๋ง ์๋๋ผ ํด๋น ๊ด๊ณ์ ํต๊ณ์ ๊ฐ๋๊น์ง ๊ณ ๋ คํ์ฌ ์ ์ ๊ฒฐ์
(3) ๋ฐ๋ณต์ /๊ณ์ธต์ ํ๋กฌํํธ ์ ๋ต
- ๊ทธ๋ํ๋ฅผ ๋ ผ๋ฆฌ์ ์ธ ์๋ธ๊ทธ๋ํ๋ ๋ชจ๋๋ก ๋ถํ ํ์ฌ ๊ฐ ๋ถ๋ถ์ ๊ฐ๋ณ์ ์ผ๋ก LLM์ ํ๋กฌํํธํ๊ณ ์ ์
(4) Retrieval-Augmented Generation (RAG) ์์คํ ํตํฉ
- ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ๋ฌธ์์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ค์๊ฐ์ผ๋ก ๊ฒ์ํ์ฌ ๋ต๋ณ์ ์์ฑ
- ์ด๋ฅผ ํตํด LLM์ ํ๋กฌํํธ์ ํฌํจ๋ ์ ํ๋ ์ ๋ณด๋ฟ๋ง ์๋๋ผ, ์ต์ ์ ๋ฐฉ๋ํ ์ธ๋ถ ์ง์(์: ์๋ฃ ๋ฌธํ, ๊ณผํ ๋ ผ๋ฌธ)์ ํ์ฉํ์ฌ ์ ๋ณด ์์ค ์์ด ๋ ์ ํํ๊ณ ๊ทผ๊ฑฐ ์๋ ํ๋จ
- ๊ด๋ จ ๋ ผ๋ฌธ :Causal graph discovery with retrieval-augmented generation based large language models
(5) ์ ๋ฌธ๊ฐ ํผ๋๋ฐฑ ๋ฐ ๊ฐํ ํ์ต ๋ฃจํ
- ์ ์ ๋ ์ธ๊ณผ ๊ทธ๋ํ์ ๋ํด ์ค์ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ์ ํผ๋๋ฐฑ์ ๋ฐ์ LLM์ ์ ์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๊ณ , ์ด ํผ๋๋ฐฑ์ Causal Wrapper์ ํ๋กฌํํธ ์ ๋ต์ ๊ฐ์ ํ๊ฑฐ๋ LLM ์์ฒด๋ฅผ ์ถ๊ฐ๋ก ํ์ต์ํค๋ ๋ฐ ํ์ฉํ๋ ๊ฐํ ํ์ต(Reinforcement Learning) ๋ฃจํ๋ฅผ ๊ตฌ์ถ
5-3. ๋ ผ๋ฌธ์ด ์ ์ํ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ง์ ๊ทธ๋ํ(Knowledge Graphs) ํ์ฉ
- ์ง์ ๊ทธ๋ํ๋ ๊ตฌ์กฐํ๋ ์ง์์ ํํํ๋ ๋ฐ ๊ฐ๋ ฅํ ๋๊ตฌ๋ก, ์ฐ๊ตฌํ์ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ์ง์ ๊ทธ๋ํ๋ฅผ ํ์ฉํ๋ ๋ ์ ๊ตํ ์ธ๊ณผ ์ธ์ ํ๋ ์์ํฌ(causal-aware framework)๋ฅผ ๊ฐ๋ฐํ ๊ณํ
- ๋ชฌํ
์นด๋ฅผ๋ก ํธ๋ฆฌ ํ์(Monte Carlo Tree Search, MCTS) ํตํฉ
- ALCM ์์คํ ์ ๋์ฑ ๋์ ์ด๊ณ ์ ์์ ์ธ ๋ฌธ์ ํด๊ฒฐ ์์ด์ ํธ๋ก ๋ฐ์ ์ํค๊ธฐ ์ํด ๋ชฌํ ์นด๋ฅผ๋ก ํธ๋ฆฌ ํ์(MCTS)๊ณผ์ ํตํฉ ์ ์. MCTS๋ ๋ค์ํ ์์ฌ๊ฒฐ์ ์๋๋ฆฌ์ค์์ ์ต์ ์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ์ฌ์ฉ๋๋ ํ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ธ๊ณผ ๋ฐ๊ฒฌ ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ๋ณต์กํ ์์ฌ๊ฒฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฐ ๋์์ด ๋ ์ ์์.
- ๊ฒ์ ์ฆ๊ฐ ์์ฑ(Retrieval-Augmented Generation, RAG) ๋ฐ openCHA ํตํฉ
- LLM์ ํ๊ณ ์ค ํ๋์ธ ํ๊ฐ(hallucination) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ALCM ํ๋ ์์ํฌ์ ์ญ๋์ ๊ฐํํ๊ธฐ ์ํด ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG) ์์คํ ๋ฐ openCHA์์ ํตํฉ์ ์ ์
๐ 6. ๊ฒฐ๋ก
6-1. ์ฐ๊ตฌ๋ก๋ถํฐ ์ป์ ํต์ฐฐ
ALCM์ ๊ธฐ์กด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ(์: ๋์ ๋ฐ์ดํฐ์ ๋ํ ์ ์์ฑ ๋ถ์กฑ, ์จ๊ฒจ์ง ๋ณ์ ๊ฐ์ง ์ด๋ ค์, ์ ๋ฌธ๊ฐ ์์กด์ฑ)์ LLM์ ํ๊ณ(์: ์ ๋ฐ๋ ๋ถ์กฑ, ๋ณต์กํ ์ธ๊ณผ ๊ฐ๋ ์ฒ๋ฆฌ์ ์ด๋ ค์)๋ฅผ ์ํธ ๋ณด์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ ๋์ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ์๋ฃจ์ ์ผ๋ก ์ธ๊ณผ ๊ตฌ์กฐ ํ์ต(Causal Structure Learning), ์ธ๊ณผ ๋ํผ(Causal Wrapper), LLM ๊ธฐ๋ฐ ์ ์ ๊ธฐ(LLM-driven Causal Refiner)์ ์ธ ๊ฐ์ง ํ์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ALCM์ ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ค์ ํ์ ์ ํตํด ๊ธฐ์กด์ LLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๋ฐ ์ ํต์ ์ธ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ๊ณผ ์ถ๋ก ๋ฉ์ปค๋์ฆ๋ณด๋ค ์ ํ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ ๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ, LLM์ ๋ฐฉ๋ํ ์ง์ ๊ธฐ๋ฐ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ํ์ ํ๊ธฐ ์ด๋ ค์ด ์ธ๊ณผ ๊ด๊ณ๋ฅผ ๋ฐ๊ฒฌํ๊ณ ๊ธฐ์กด ๊ทธ๋ํ๋ฅผ ์ ์ ํ๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
์ธ๊ณผ ๊ทธ๋ํ์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์ด๊ณ ์จ๊ฒจ์ง ๋ณ์ ํ์ ์ ์ฉ์ดํ๋ค๋ ์ ์์ LLM์ ๋์ ํ ์ด์ ๋ ์ถฉ๋ถํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ๋ฌธ์ ๋ ๊ทธ๋ํ๋ฅผ ์ผ๋ง๋ ์ ์ดํดํ๊ณ ๊ทธ๋ํ์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ์ธ๊ณผ ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ ๋งฅ๋ฝ์ LLM์ด ์ผ๋ง๋ ์ ์ดํดํ๋๋์ LLM์ ํ ๋ฃจ์๋ค์ด์ ์ ์ผ๋ง๋ ์ ๋ฐฉ์งํ๋๋์ผ ๊ฒ ๊ฐ์ต๋๋ค.
์ด์ ๋ ์ค๋ช ํ ์ ์๋ ๋ธ๋๋ฐ์ค ๋ชจํ์ AI๋ ํ์ ์์ ๋ฐ๊ธฐ์ง ์๊ณ ์์ต๋๋ค. ๊ทธ๋ ๊ธฐ์ ๋๋์ฑ ํด์์ ๋์์ฃผ๋ LLM๊ณผ์ ๊ฒฐํฉ์ด ์์ผ๋ก๋ ํ์๊ฐ ๋์ง ์์๊น ์ถ๋ค์.
6-2. ์ค์ ํ๋ก์ ํธ์ ์ ์ฉํ ์ ์๋ ๋ถ๋ถ
ํ๋ก์ ํธ์ ํด๋น ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๋ค๋ฉด ์ธ๊ณผ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ์ ์ข ๋ ๋ค์ํ๊ฒ ์จ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ์ธ๊ณผ๋ฐ๊ฒฌ ์๊ณ ๋ฆฌ์ฆ๋ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ด ๋๋ ทํ๊ณ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ํํ๊ฐ ์ ํด์ ธ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ ์๊ณ ๋ฆฌ์ฆ๋ง ์ฌ์ฉํ๋ ๊ฒ์ ์ํํ ๊ฒ ๊ฐ๊ณ , ๋ค์๊ฒฐ๋ก ํ๋จํ๊ธฐ์ ์ ํฉํ์ง ์์ ๋ณด์ ๋๋ค.
๋ค์๊ฒฐ์ ์์น๋ ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ์ด๋ ์ฑ๋ฅ์ ๋ฐ๋ผ์ ๊ฐ์ค์น๋ฅผ ๋ค๋ฅด๊ฒ ์ค ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
๋ํ ๋ณด์์ ์๋ ์ธ๊ธํ๋ฏ์ด RAG ๋์ ์ผ๋ก ํ ๋ฃจ์๋ค์ด์ ์ ์ค์ด๊ณ ์ข ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ๋ต๋ณ์ด ๊ฐ๋ฅํ๊ฒ ๊ณ ๋ํํด์ผ ํ ๊ฒ ๊ฐ์ต๋๋ค.
ํ๋ก์ ํธ์ ์ ์ฉํ๋ค๋ฉด ์ ์ผ ๊ด๊ฑด์ ํ๋กฌํํธ์ผ ๊ฒ ๊ฐ๋ค์. ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ์ ์ด๋ป๊ฒ ์ ์ฉ์ํฌ ์ง, ๋ฉํ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ์ ์ ์ ํด์ context ๊ธธ์ด ์์ ์ ๋ฃ์์ง ๊ณ ๋ฏผ์ด ํ์ํ ๊ฒ ๊ฐ์ต๋๋ค.
์ด๊ฒ์ ๊ฒ ๊ณ ๋ คํด์ผ ํ ๋ถ๋ถ๋ค์ด ์์ง๋ง ์๋ง ๋ง๋ ๋ค๋ฉด ์ ๋ง ๊ด์ฐฎ์ ์ ํ์ด ๋ง๋ค์ด์ง์ง ์์๊น ์ถ์ต๋๋ค.