카카오, AI 안전성 지키는 ‘세이프가드’ 모델 오픈소스 공개

증오표현·프롬프트 공격·개인정보 탐지 기능 포함…“책임감 있는 AI 확산 선도”

최영준 기자

cyj@sateconomy.co.kr | 2025-05-27 09:56:48

▲ 카나나 세이프가드 모델 <사진=카카오>

[토요경제 = 최영준 기자] 카카오가 생성형 AI의 안전성과 윤리성을 강화하기 위한 자체 ‘AI 가드레일’ 모델을 개발해 공개했다. 카카오의 한국어 기반 언어 모델 ‘카나나(Kanana)’를 활용해 만든 이번 모델은 생성형 AI의 오작동 가능성과 윤리 리스크를 줄이기 위한 목적이다.

카카오는 27일, AI 가드레일 모델 ‘카나나 세이프가드(Kanana Safeguard)’를 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에 오픈소스로 공개했다고 밝혔다. 이 모델은 사용자의 발화나 AI의 응답에서 유해 요소를 감지하고, 다양한 위험 요소에 대응하는 기능을 포함한다.

공개된 모델은 총 3종이다. ▲‘카나나 세이프가드’는 증오 표현, 괴롭힘, 성적 콘텐츠 등 사회적 유해 발화를 탐지하고, ▲‘세이프가드-사이렌’은 개인 정보, 지식재산권 등 법적 위험을 식별하며, ▲‘세이프가드-프롬프트’는 AI 시스템을 악용하려는 프롬프트 공격을 탐지한다.

카카오는 “카나나 세이프가드는 한국어와 한국 문화를 반영한 자체 구축 데이터셋을 활용해 개발했다”고 설명했다. 기존 글로벌 모델들이 영어권 중심으로 구축돼 국내 이용자 환경과 괴리감이 있다는 점에서, 보다 정교한 한국어 안전 대응을 목표로 한 것이 특징이다.

카카오는 향후 다양한 개발자들과 협업하며, 생성형 AI 안전성 강화를 위한 기술적 기여를 이어갈 계획이다.

김경훈 카카오 AI 세이프티 리더는 “생성형 AI의 등장 이래, 기술의 발전과 더불어 AI 윤리와 안전성에 대한 중요성이 국내외에서 점차 부각되고 있다”며 “책임감 있는 AI 구축에 대한 인식을 널리 확산시키고, 사회적 가치를 고려한 기술 개발이 이어질 수 있도록 선제적인 대응을 이어갈 계획”이라고 밝혔다.

토요경제 / 최영준 기자 cyj@sateconomy.co.kr