카카오가 한국어와 한국 문화에 특화된 멀티모달 언어모델(MLLM) 카나나-v'(Kanana-v)를 공개했다. 사진은 이상호 카나나엑스 성과 리더가 지난 9월 경기 용인시 카카오AI캠퍼스에서 열린 '이프카카오'(if kakaoAI 2024) 개발자 콘퍼런스에서 기조연설을 하고 있는 모습. /사진=뉴스1
카카오가 한국어와 한국 문화에 특화된 멀티모달 언어모델(MLLM) 카나나-v'(Kanana-v)를 공개했다. 사진은 이상호 카나나엑스 성과 리더가 지난 9월 경기 용인시 카카오AI캠퍼스에서 열린 '이프카카오'(if kakaoAI 2024) 개발자 콘퍼런스에서 기조연설을 하고 있는 모습. /사진=뉴스1


한국어와 한국 문화에 특화된 멀티모달 언어모델(MLLM) 카나나-v'(Kanana-v)가 공개됐다. 텍스트와 이미지 등 다양한 데이터를 통합 처리하며 한국어 OCR(광학 문자 인식)과 문서 이해 등에서 글로벌 모델을 능가하는 성능을 입증해 주목된다.


카카오는 5일 공식 테크블로그를 통해 카나나-v의 성능과 특징을 공개했다. 카카오는 지난 10월 '이프 카카오 2024'(if kakaoAI 2024) 개발자 콘퍼런스에서 자체 인공지능(AI) 모델 '카나나'(Kanana) 라인업을 처음 선보였다.

카나나 모델은 ▲언어모델(LLM) 3종 ▲MLLM 3종 ▲비주얼 생성모델 2종 ▲음성모델 2종으로 구성돼 ▲크기 ▲종류 ▲특성에 따라 다양한 하위 모델을 포함한다.


이번에 공개된 카나나-v는 ▲텍스트 ▲이미지 등 다양한 모달리티를 통합적으로 처리할 수 있는 MLLM으로 한국어와 한국 문화적 맥락을 깊이 이해할 수 있도록 설계됐다.

카카오는 카나나-v의 성능을 GPT-4 등 글로벌 AI 모델과 비교 분석했다. 주요 평가 기준은 ▲한국어 OCR ▲한국어 문서·도표 이해 ▲한국어 문제 풀이 ▲한국 문화 지식 이해 등이었다.


카나나-v는 한국어 OCR 항목에서 압도적인 성능을 보이며 우위를 입증했다. OCR 기술은 이미지나 사진에서 텍스트를 추출하는 기술로 한국어 특유의 복잡한 글자 구조를 정확히 인식하고 처리할 수 있는 점이 높은 평가를 받았다. 단순한 이미지 분석을 넘어 ▲이미지 기반 창작 ▲문서 요약 ▲수학 문제 추론 ▲손글씨 이해 등 다양한 기능을 수행할 수 있다.

카카오는 카나나-v 모델의 고도화를 통해 정확한 답변을 넘어 사용자 선호에 맞춘 맞춤형 응답을 목표로 하고 있다. 또 기기에서 직접 데이터처리를 직접 수행하는 온디바이스(On-device) 환경에서도 원활하게 작동할 수 있도록 기술적 개선을 추진히고 있다.


▲음성 ▲영상까지 동시 처리할 수 있는 통합 멀티모달 언어모델 '카나나-o'(Kanana-o)도 개발하고 있다. 카나나-o는 이프카카오 기조세션에서 음성 기반 사용자 상호작용 데모를 통해 기술력을 공개한 바 있다.

카카오는 멀티모달 언어모델 연구를 통해 AI가 사용자 일상에 실질적 도움을 주는 파트너로 발전할 수 있도록 노력하고 있다. 차준범 카나나 알파 소속 연구원은 "더 많은 모달리티를 다루는 AI가 우리 삶에 실질적인 도움을 제공하길 기대한다"고 밝혔다.

카카오는 앞으로도 테크블로그를 통해 '카나나' 모델 패밀리를 포함해 언어모델, 비주얼 생성모델 등 다양한 AI 기술의 성능과 개발 과정을 공개하며 기술력과 비전을 지속 공유할 계획이다.