한국어 학습자 말뭉치 나눔터


(서울=뉴스1) 박정환 문화전문기자 = 국립국어원(이하 국어원)이 '한국어 학습자 말뭉치 나눔터'를 통해 한국어 학습자 말뭉치 218만 어절을 29일부터 추가 공개한다. 이번 공개로 말뭉치 규모는 총 1588만 어절에 이른다.


한국어 학습자 말뭉치는 외국인들이 한국어를 학습하며 작성한 글쓰기·말하기 자료를 수집해 컴퓨터와 사람이 활용할 수 있도록 가공한 것이다.

2015년 기초 연구를 시작해 올해로 구축 10년을 맞았으며, 108개 언어권 학습자의 자료를 토대로 한다.


국어원은 학습자의 글쓰기·말하기 자료를 기반으로 기본 '원시 말뭉치'를 구축했다. 이를 바탕으로 '형태 주석 말뭉치', '오류 주석 말뭉치'를 제작한다.

원시 말뭉치는 문장·문단 경계와 형식 정보를 담고, 형태 주석 말뭉치는 단어의 구성 및 품사 정보를, 오류 주석 말뭉치는 학습자의 어휘·문법·표현 오류 정보를 기록한다.


국어원은 '한국어 학습자 말뭉치 나눔터'를 통해 자료를 공개·배포하며, 통계와 검색 서비스도 제공한다. 또한 연세대학교 산학협력단과 함께 '한국어 학습자 말뭉치 아카데미'를 8월부터 12월까지 총 4회 운영한다.

국어원 관계자는 "인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다"며 "데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다"고 밝혔다.