숭실대 AI안전성연구센터, AI 음성 복제 방지 기술 ‘RoCo’ 개발

AI가 음성 특징 학습 못 하게 하는 사전 차단 기술…보이스피싱·금융사기 대응
음성·신호처리 분야 최고 권위 학회 채택…방어 무력화 시도에서도 성능 유지

이선용 기자

lsy419@kakao.com | 2026-05-08 10:30:28

왼쪽부터 최대선 교수, 박소희 연구교수, 석사과정 김승민 학생(제1저자), 김다인 학생.

[대학저널 이선용 기자] 숭실대학교는 AI안전성연구센터 최대선 교수 연구팀(박소희 연구교수, 석사과정 김승민 학생, 김다인 학생)이 개인의 음성이 범죄에 악용되는 것을 사전에 차단할 수 있는 AI 음성 복제 방지 기술을 개발했다고 8일 밝혔다.

해당 연구는 음성·신호처리 분야에서 세계 최고 권위 학회인 ‘ICASSP 2026(IEEE 국제음향·음성·신호처리학회)’에 채택됐으며, 오는 5월 4일부터 스페인 바르셀로나에서 열리는 학회에서 공개될 예정이다.

연구팀이 개발한 ‘RoCo(Robust Code)’는 AI 음성 복제 방지 기술로, 사용자 음성에 사전 보호 처리를 적용해 무단 녹음 및 복제 시 다른 음성으로 변환되도록 설계됐다. 사람에게는 자연스럽게 들리지만, AI는 해당 음성의 특징을 정확히 학습하지 못하도록 하는 방식이다.

최근 보이스피싱, 금융사기, 가짜뉴스 등 AI 기반 음성 위·변조 범죄가 증가하는 가운데, RoCo와 같은 사전 차단 기술의 필요성이 커지고 있다.

기존 음성 복제 방지 기술은 사람이 인지하기 어려운 미세한 잡음을 추가해 AI 학습을 방해하는 방식이었다. 그러나 처리 시간이 길어 실시간 서비스 적용이 어렵고, 최신 잡음 제거 기술 적용 시 방어 효과가 저하되는 한계가 있었다.

연구팀이 제안한 AI 음성 복제 방지 기술 ‘RoCo’의 작동 원리를 설명한 개요도.

RoCo는 이러한 한계를 개선하기 위해 음성 신호에 잡음을 추가하는 기존 방식과 달리, AI가 음성을 분석하는 내부 단계에 보호 신호를 삽입하는 방식을 적용했다. 그 결과 잡음 제거를 통해 방어를 무력화 하는 시도에서도 방어 성능이 유지됐으며, 처리 시간은 평균 15초 수준으로 단축돼 기존 대비 5~10배 빠른 성능을 보였다. 이를 통해 실제 서비스 적용 가능성도 확인했다.

최대선 숭실대 교수는 “RoCo는 음성 자체를 변형하는 기존 방식과 달리 AI의 음성 인식 과정에 보호 신호를 적용하는 점에서 차별성이 있다”며 “가짜 음성을 사후 탐지하는 것이 아니라 생성 자체를 차단하는 기술적 기반을 마련했다는 데 의미가 있다”고 말했다.

제1저자인 김승민 학생은 “기존 방어 기술이 잡음 제거 기술에 의해 무력화되는 문제가 있었다”며 “지워지지 않는 방어 기술 구현을 목표로 연구를 진행했다”고 밝혔다. 이어 “향후 다양한 공격 환경과 실제 서비스 적용을 고려해 기술을 고도화할 계획”이라고 덧붙였다.

숭실대 AI안전성연구센터는 AI의 잠재적 위험과 불확실성에 대응하기 위해 설립된 국내 최초의 민간 연구센터로, 딥페이크·생성형 AI·멀티모달 AI 등 다양한 분야에서 기술 개발과 정책 연구를 수행하고 있다.

이번 연구는 과학기술정보통신부 지원, 정보통신기획평가원(IITP)이 전담하는 ‘엣지 AI 보안을 위한 Robust AI 및 분산 공격탐지기술 개발’ 과제의 일환으로 수행됐다. 연구팀은 RoCo 기술의 작동 원리를 확인할 수 있는 음성 샘플을 공식 페이지를 통해 공개했다.

숭실대 AI안전성연구센터, AI 음성 복제 방지 기술 ‘RoCo’ 개발

AI가 음성 특징 학습 못 하게 하는 사전 차단 기술…보이스피싱·금융사기 대응 음성·신호처리 분야 최고 권위 학회 채택…방어 무력화 시도에서도 성능 유지

AI가 음성 특징 학습 못 하게 하는 사전 차단 기술…보이스피싱·금융사기 대응
음성·신호처리 분야 최고 권위 학회 채택…방어 무력화 시도에서도 성능 유지