국립국어원, AI학습용 한국어 말뭉치 10종 공개
뉴스1 제공
공유하기

(서울=뉴스1) 박정환 문화전문기자 = 국립국어원이 인공지능 학습용 한국어 말뭉치와 국어 지식 자료 등 10종을 '모두의 말뭉치'에서 공개했다.
이번에 공개된 '표 설명 문장 작성 말뭉치', '요약 말뭉치', '글쓰기 말뭉치' 등은 인공지능이 다양한 유형의 한국어 텍스트를 이해하고 생성하며, 인공지능의 글쓰기 능력을 기르는 학습 자료로 활용할 수 있다.
또한, 한국문화 관련 용어 간의 의미 관계를 구축한 '한국언어문화 지식그래프'는 인공지능의 한국문화에 대한 지식을 넓히는 데 활용될 수 있으며, 한국어-한국수어 병렬 말뭉치는 한국어와 한국수어 간 자동 번역 기술 향상에 기여할 것으로 기대된다.
한편 국립국어원이 지금까지 공개한 112종의 말뭉치는 국어 연구와 언어 정보 처리 분야 연구 및 기술 개발에 활용하고자 하는 연구자, 개발자 등 누구나 이용할 수 있으며, '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하여 승인을 받으면 받을 수 있다.
국립국어원 관계자는 "2027년까지 한국어·한국언어문화 말뭉치 누적 200종을 구축할 계획"이라며 "앞으로도 고품질의 인공지능 한국언어문화 자원을 구축하여 한국형 인공지능 개발을 지원하고 인공지능 시대에 한국어와 한국문화가 보전될 수 있도록 역할을 하겠다"라고 밝혔다.
종류 | 내용 |
① 표 설명 문장 작성 말뭉치 2024 | o 수집된 1 만 건 이상의 표 자료를 대상으로 , 표의 핵심 내용이 드러나는 설명 영역을 선정한 후 , 표당 ‘ 행 ’, ‘ 열 ’, ‘ 불연속 영역 ’, ‘ 표 전체 ’ 4 종의 설명 문장을 각각 1 문장씩 작성한 말뭉치 |
② 요약 평가 주석 말뭉치 2024 ③ 요약 말뭉치 2024 | o ‘ 국립국어원 신문 말뭉치 2023’ 에서 주제별로 균등하게 추출한 사설 기사 3,856 건을 대상으로 , 중요 문장 선정과 추상 요약문을 작성하고 , 추상 요약 결과물 대상 인간 평가 결과를 진행한 후 가장 높은 평가를 받은 요약문을 입력한 말뭉치 o ‘ 국립국어원 신문 말뭉치 2023’ 에서 주제별로 균등하게 추출한 사설 기사 3,856 건을 대상으로 , 중요 문장 선정과 추상 요약문을 작성하고 , 추상 요약 결과물 대상 인간 평가 결과를 입력한 말뭉치 |
④ 한국언어문화 지식그래프 2024 | o 용어지식의 범위를 더 확장하여 인공지능이 용어의 의미와 관계를 이해할 수 있도록 지식 ( 개념 ? 사물 ? 사건 등 ) 간의 관계를 정의한 자료 |
⑤ 글쓰기 첨삭 지원을 위한 지시문 기반 생성 말뭉치 2024 | o ‘ 국립국어원 글쓰기 원시 자료 말뭉치 2023( 버전 1.0)’ 에서 다양한 글의 단위 ( 문서 , 문단 , 문장 ) 를 고려하여 글을 선별하고 진단 기준 ( 내용 , 조직 , 표현 ) 에 따라 첨삭한 말뭉치 |
⑥ 국어 지식 기초 자료 2024 | o 공문서 감수 자료 및 국어 생활 상담 자료를 토대로 분석한 한국어 표기 · 표현 오류 유형에 관한 국어 지식을 대표 사례 ( 질문답변형 , 설명형 , 사례형 ) 와 함께 제시한 자료 |
⑦ 한국어 - 한국수어 병렬 말뭉치 2024 | o 한국어 구어체 데이터 ( 일상생활 , 금융 , 교육 , 방송 분야 ) 를 한국수어로 번역하여 구성한 병렬 말뭉치 |
⑧ 글쓰기 원시 자료 말뭉치 2024 ⑨ 글쓰기 채점 자료 말뭉치 2023(2) ⑩ 글쓰기 채점 자료 말뭉치 2024 | o 전국 9 개 권역 국공립 대학생이 작성한 1,000 자 내외 논증형 글쓰기 자료 말뭉치 o 2023 년에 전국 9 개 권역 국공립 대학생이 작성한 1,000 자 내외 논증형 글쓰기 자료를 2024 년에 채점 전문가 2 인이 채점한 결과 정보를 제공한 채점 자료 말뭉치 o 전국 9 개 권역 국공립 대학생이 작성한 1,000 자 내외 논증형 글쓰기 자료를 채점 전문가 2 인이 채점한 결과 정보를 제공한 채점 자료 말뭉치 |
<저작권자 ⓒ ‘성공을 꿈꾸는 사람들의 경제 뉴스’ 머니S, 무단전재 및 재배포 금지>
<보도자료 및 기사 제보 ( [email protected] )>
-
뉴스1 제공