판결문 속 민감한 개인정보, AI가 자동으로 지운다

판결문 속 민감한 개인정보, AI가 자동으로 지운다: 이선용 기자 / 2026-04-15 10:52:20

왼쪽부터 고려대 컴퓨터학과 정연돈 교수(교신저자), 최우석 학사과정(제1저자), 김형빈 박사과정(제2저자).

[대학저널 이선용 기자] 고려대학교 컴퓨터학과 정연돈 교수 연구팀이 인공지능을 이용해 판결문 속 개인정보를 빠르고 정확하게 비식별화하는 기술을 개발했다.

대한민국 헌법 제109조에 따라 재판의 심리와 판결은 공개되어야 하며, 이는 사법적 투명성을 보장하고 국민의 신뢰를 유지하기 위한 필수적인 조치다. 이때 판결문 공개는 개인의 이름, 주민등록번호, 주소 등 민감한 개인식별정보를 보호하는 방식으로 이뤄져야 한다.

기존의 수작업 방식으로는 개인정보를 가리는 데 문서 한 건당 약 2주가 소요됐다. 그 결과, 병목 현상이 발생해 전체 판결문 중 단 5.97%만이 비식별화 처리가 완료되어 공개된 상태다. 법원에서도 자동화를 추진하려 했으나 기존 시스템은 개인정보를 찾아 마스킹하는 정확도가 약 8% 수준에 그쳐 실효성이 떨어졌다.

연구팀은 대규모 벤치마크 데이터셋 ‘K-LegalDeID’과 고성능 인공지능 모델 ‘KLUEBERT-CRF’를 개발해 문제를 해결했다. 39개 법률 분야 2,000건의 판결문과 SNS 대화 데이터 등을 결합해 약 100만 건에 달하는 대규모 학습 데이터를 구축하고, 인공지능이 이를 학습해 비식별화를 수행하는 방식이다. 기존 모델에 조건부 무작위장을 결합해 한국어 특유의 교착어 형태와 법률 문서의 복잡한 문장 구조를 효과적으로 처리하는 게 특징이다.

특히 KLUEBERT-CRF 모델은 정확도를 평가하는 지표인 ‘개체 수준 마이크로 F1 점수’에서 세계 최고 수준인 0.9923을 달성했다. 또 파라미터를 기존 타 모델 대비 20배 가벼운 1억 1천만 개 수준으로 설계해, 메모리 사용량을 대폭 절감했다. 법원에서 실제로 활용할 수 있도록 실용성과 효율성을 극대화한 것이다.

연구팀은 “고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다”며 “판결문 비식별화 업무를 자동화함으로써 판결문 공개를 획기적으로 확대하고 사법 투명성을 높이는 데 기여할 것”이라고 의의를 밝혔다.

이번 연구 성과는 3월 26일 모로코 라바트에서 개최된 자연어 처리 분야 세계 최고 권위 학회 중 하나인 ‘EACL 2026’에서 발표됐으며, 국내 특허로도 출원됐다.

한편, 이번 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업과 한국연구재단 이공분야기초연구사업의 지원을 받아 수행됐다.