(서울=뉴스1) 박정환 문화전문기자 = 국립국어원이 인공지능 학습용 한국어 말뭉치와 국어 지식 자료 등 10종을 '모두의 말뭉치'에서 공개했다.
이번에 공개된 '표 설명 문장 작성 말뭉치', '요약 말뭉치', '글쓰기 말뭉치' 등은 인공지능이 다양한 유형의 한국어 텍스트를 이해하고 생성하며, 인공지능의 글쓰기 능력을 기르는 학습 자료로 활용할 수 있다.
또한, 한국문화 관련 용어 간의 의미 관계를 구축한 '한국언어문화 지식그래프'는 인공지능의 한국문화에 대한 지식을 넓히는 데 활용될 수 있으며, 한국어-한국수어 병렬 말뭉치는 한국어와 한국수어 간 자동 번역 기술 향상에 기여할 것으로 기대된다.
한편 국립국어원이 지금까지 공개한 112종의 말뭉치는 국어 연구와 언어 정보 처리 분야 연구 및 기술 개발에 활용하고자 하는 연구자, 개발자 등 누구나 이용할 수 있으며, '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하여 승인을 받으면 받을 수 있다.
국립국어원 관계자는 "2027년까지 한국어·한국언어문화 말뭉치 누적 200종을 구축할 계획"이라며 "앞으로도 고품질의 인공지능 한국언어문화 자원을 구축하여 한국형 인공지능 개발을 지원하고 인공지능 시대에 한국어와 한국문화가 보전될 수 있도록 역할을 하겠다"라고 밝혔다.
종류
내용
①
표 설명 문장 작성 말뭉치
2024
o
수집된
1
만 건 이상의 표 자료를 대상으로
,
표의 핵심 내용이 드러나는 설명 영역을 선정한 후
,
표당
‘
행
’, ‘
열
’, ‘
불연속 영역
’, ‘
표 전체
’ 4
종의 설명 문장을 각각
1
문장씩 작성한 말뭉치
②
요약 평가 주석 말뭉치
2024
③
요약 말뭉치
2024
o
‘
국립국어원 신문 말뭉치
2023’
에서 주제별로 균등하게 추출한 사설 기사
3,856
건을 대상으로
,
중요 문장 선정과 추상 요약문을 작성하고
,
추상 요약 결과물 대상 인간 평가 결과를 진행한 후 가장 높은 평가를 받은 요약문을 입력한 말뭉치
o
‘
국립국어원 신문 말뭉치
2023’
에서 주제별로 균등하게 추출한 사설 기사
3,856
건을 대상으로
,
중요 문장 선정과 추상 요약문을 작성하고
,
추상 요약 결과물 대상 인간 평가 결과를 입력한 말뭉치
④
한국언어문화 지식그래프
2024
o
용어지식의 범위를 더 확장하여 인공지능이 용어의 의미와 관계를 이해할 수 있도록 지식
(
개념
?
사물
?
사건 등
)
간의 관계를 정의한 자료
⑤
글쓰기 첨삭 지원을 위한
지시문 기반 생성 말뭉치
2024
o ‘
국립국어원 글쓰기 원시 자료 말뭉치
2023(
버전
1.0)’
에서 다양한 글의 단위
(
문서
,
문단
,
문장
)
를 고려하여 글을 선별하고 진단 기준
(
내용
,
조직
,
표현
)
에 따라 첨삭한 말뭉치
⑥
국어 지식 기초 자료
2024
o
공문서 감수 자료 및 국어 생활 상담 자료를 토대로 분석한 한국어 표기
·
표현 오류 유형에 관한 국어 지식을 대표 사례
(
질문답변형
,
설명형
,
사례형
)
와 함께 제시한 자료
⑦
한국어
-
한국수어 병렬 말뭉치
2024
o
한국어 구어체 데이터
(
일상생활
,
금융
,
교육
,
방송 분야
)
를 한국수어로 번역하여 구성한 병렬 말뭉치
⑧
글쓰기 원시 자료 말뭉치
2024
⑨
글쓰기 채점 자료 말뭉치
2023(2)
⑩
글쓰기 채점 자료 말뭉치
2024
o
전국
9
개 권역 국공립 대학생이 작성한
1,000
자 내외 논증형 글쓰기 자료 말뭉치
o 2023
년에 전국
9
개 권역 국공립 대학생이 작성한
1,000
자 내외 논증형 글쓰기 자료를
2024
년에 채점 전문가
2
인이 채점한 결과 정보를 제공한 채점 자료 말뭉치
o
전국
9
개 권역 국공립 대학생이 작성한
1,000
자 내외 논증형 글쓰기 자료를 채점 전문가
2
인이 채점한 결과 정보를 제공한 채점 자료 말뭉치
<저작권자 © ‘재테크 경제주간지’ 머니S, 무단전재 및 재배포 금지>