챗GPT·제미나이 '높은 벽'… 국산 AI로 수능 수학 풀면 '낙방'
서강대 김종락 교수팀, 해외 AI 모델과 한국 모델 수능 수학 테스트… 정답률 큰 차이
양진원 기자
공유하기
한국 대표 거대언어모델(LMM)들이 해외 모델들과 비교해 수학 수능·논술 문제 풀이에서 성능이 뒤지는 것으로 나왔다.
김종락 서강대 수학과 교수 연구팀은 국내 대표 AI 도전 5개 팀의 LLM 모델과 챗GPT·제미나이 등 5개 모델을 대상으로 수능 수학 20문제·논술 30문제를 풀게 한 결과를 공개했다.
연구팀은 수능 수학의 ▲공통과목 ▲확률과 통계 ▲미적분 ▲기하 영역에서 가장 어려운 5문항씩 총 20문제, 서울 주요대학 10곳의 논술 기출문제와 인도 대학 입시, 일본 도쿄대 공대 대학원 입시문제 각 10문항씩 총 30문제를 선정해 평가를 진행했다.
한국 모델은 ▲업스테이지 솔라 프로-2 ▲LG AI연구원 엑사원 4.0.1 ▲네이버 HCX-007 ▲SK텔레콤 A.X 4.0(72B) ▲엔씨소프트 라마 바르코 8B 인스트럭트 등을 시험했다. 미국·중국 등 해외 모델의 경우 ▲오픈AI GPT-5.1 ▲구글 제미나이 3 프로 프리뷰 ▲앤트로픽 클로드 오푸스 4.5 ▲xAI 그록 4.1 패스트 ▲딥시크 V3.2 등을 적용했다.
해외 모델 점수는 76점~92점을 기록했지만 한국 모델은 솔라 프로-2가 58점으로 가장 높았고 나머지는 20점대였다. 경량모델인 라마 바르코 8B 인스트럭트는 2점이었다.
연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 설명했다.
연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차는 컸다. 미·중 모델은 82.8점에서~90점, 한국 모델은 7.1점에서~53.3점에 그쳤다.
문제 풀이를 3번 시도해 정답을 맞히면 통과하도록 기준을 완화했을 땐 미국과 중국 모델은 대부분 90점 이상을 받았고 그록은 만점을 기록했다. 그럼에도 솔라 프로-2는 70점, 엑사원은 60점, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코는 20점에 머물렀다.
김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트했다"며 "국내 모델 수준이 해외 모델보다 많이 뒤처짐을 알 수 있었다"고 했다. 이어 "한국 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다"고 부연했다.
<저작권자 ⓒ ‘성공을 꿈꾸는 사람들의 경제 뉴스’ 머니S, 무단전재 및 재배포 금지>
<보도자료 및 기사 제보 ( [email protected] )>
-
양진원 기자
안녕하세요 양진원 기자입니다. 많은 제보 바랍니다.