"110억 파라미터급 한국어 모델 '믿:음 2.0' 오픈소스로 공개"
MS 협업으로 GPT 기반 초고성능 한국어 모델 준비 중

이미지=KT AI 홈페이지 캡처
이미지=KT AI 홈페이지 캡처

|스마트에프엔 = 양대규 기자| "KT는 자체 기술로 만든 AI 모델 개발을 단 한 번도 멈춘 적이 없다"

KT가 자체 개발한 한국형 대규모 언어모델(LLM) ‘믿:음 2.0’을 공개하며 ‘한국적 AI’ 생태계 확산에 본격 나섰다. 

3일 온라인으로 열린 기술설명회에서 신동훈 KT 생성형AI랩(Gen AI Lab)장(상무)은 이같이 말하며 KT의 독자 개발 AI 전략에 대한 의지를 강조했다.

"110억 파라미터급 한국어 모델 '믿:음 2.0' 오픈소스로 공개"

‘믿:음 2.0’은 ▲115억 파라미터의 ‘Base’ 모델과 ▲23억 파라미터의 경량형 ‘Mini’ 모델로 구성되며, 4일 오픈소스 플랫폼 허깅페이스(HuggingFace)를 통해 공개된다. 

신 상무는 "내일 공개될 미니와 베이스 모델은 상업적으로도 아무 제약 없이 활용 가능하다"며 "110억 파라미터급 한국어 모델을 오픈소스로 제공하는 건 국내에서 처음"이라고 말했다.

이미지=KT AI 홈페이지 캡처
이미지=KT AI 홈페이지 캡처

모델의 설계 철학에 대해 그는 "한국의 말과 문화를 이해하는 것을 넘어, B2B 환경에서 자주 활용되는 문서 이해, 보고서 작성, 문서 기반 QA, 툴콜링 등에 최적화해 모델을 설계하고 개발했다"고 설명했다.

한국적 AI로 소버린 AI 실현···"한국어 벤치마크서 글로벌 AI 성능 능가"

KT는 ‘한국적 AI’라는 철학을 바탕으로, 데이터 수집과 모델 설계 모든 과정에서 철저한 기준을 적용했다. 신 상무는 "고품질 데이터를 확보하기 위해 도서, 법률, 특허, 사전 등 산업·공공·문화 분야의 한국어 데이터를 수집했고, 라이선스 이슈가 있는 데이터는 모두 제거했다"며 "데이터 정제와 품질 관리를 위해 전수 검사와 필터링을 진행했으며, 부족한 영역은 데이터 합성 기법으로 보완했다"고 설명했다.

이와 함께 "모델 학습에 사용된 모든 기술은 외부의 힘을 빌리지 않고 KT의 자체 기술로 구축됐다"며 "저작권 측면에서도 투명성과 책임감을 갖고 접근했다"고 덧붙였다.

신 상무는 성능 평가에 있어서도 독자적인 기준을 강조했다. "기존 글로벌 벤치마크는 영어 중심이기 때문에 한국적 특수성을 반영하기 어렵다"며 "그래서 고려대학교 민족문화연구원과 협업해 한국적인 문항들로 구성된 ‘Ko-Sovereign(코-소버린)’ 벤치마크 체계를 마련했고, 이를 통해 한국어와 문화, 사회·역사 이해도 등을 종합적으로 평가했다"고 전했다. ‘믿:음 2.0’은 이 벤치마크에서 글로벌 주요 오픈소스 모델을 능가하는 성능을 보였다고 KT 측은 밝혔다.

RAI(Responsible AI) 철학도 강조됐다. 신 상무는 “AI의 윤리성과 책임성을 확보하기 위해 RAI 거버넌스를 구축했고, 모든 라이프사이클에 걸쳐 이를 점검하는 프로세스를 운영하고 있다”며 “RAI 기준에 따라 초거대 언어모델의 신뢰성과 한국적 편향성 평가에서도 우리 모델은 우수한 성능을 입증했다”고 말했다.

이미지=KT AI 홈페이지 캡처
이미지=KT AI 홈페이지 캡처

MS 협업으로 GPT 기반 초고성능 한국어 모델 준비 중

KT는 향후 고성능 ‘프론티어 모델’은 물론, 추론모델, 멀티모달 모델도 순차 공개할 계획이다. 또, 마이크로소프트(MS)와의 협업을 통해 GPT 기반 한국형 모델도 준비 중이다. 이와 관련해 신 상무는 “GPT 같은 초고성능 모델이 필요한 복잡한 작업에는 해당 모델을 제공하되, 상대적으로 간단한 업무나 특정 상황에는 믿:음 모델이 효율적인 대안이 될 수 있다"며 "사용자 상황과 목적에 맞게 다양한 모델을 선택할 수 있도록 상호보완적인 라인업 전략을 추진 중"이라고 밝혔다.

정부의 ‘독자 AI 파운데이션 모델’ 구축 사업 참여에 대해서도 “KT의 한국적 AI 철학과 데이터 얼라이언스를 통한 고품질 데이터 확보 역량은 공공 AI 모델 개발에도 큰 기여를 할 수 있을 것”이라며 “국가 AI 경쟁력 향상에 기여하겠다”고 의지를 밝혔다.

마지막으로 그는 “믿:음 2.0은 일반적인 생성 능력은 물론 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델”이라며 “KT가 국내 사용자에게 고성능 한국적 AI에 대한 새로운 대안을 제시하고, 글로벌 경쟁력을 갖추는 중요한 발판이 될 것”이라고 강조했다.

관련기사
저작권자 © 스마트에프엔 무단전재 및 재배포 금지