모두의 말뭉치

국립국어원 언어정보나눔터 -미래를 준비하는 소중한 우리말 자원-

말뭉치의 개념

말뭉치(코퍼스, corpus)란 평소 우리가 쓰는 말이나 글을 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료입니다.

말뭉치를 구축하려면 신문 기사, 책, 일상 대화, 메신저 대화, 블로그나 게시판의 글 등의 언어 자료를 모아서 원저작자의 저작권 이용 허락 동의를 받은 후 컴퓨터가 읽을 수 있는 형태로 입력합니다. 그리고 이 언어 자료의 종류나 제목, 작성자, 출처 등 언어 자료의 특징이나 성격을 알려 주는 정보와 문단이나 문장의 경계를 알려 주는 형식 정보 등을 컴퓨터가 읽을 수 있도록 입력하면 말뭉치의 기본이라고 할 수 있는 원시 말뭉치가 됩니다.

국립국어원의 말뭉치 구축 사업

1998년부터 '21세기 세종계획'이라는 국어 정보화 중장기 사업이 추진되어 국어 정보화 분야가 국어 정책의 한 축으로 자리 잡은 바 있습니다. 국어학과 컴퓨터공학 분야 연구자가 10년 동안 함께 모여 국어 정보 기반을 구축하였고, 그 당시 2억 어절 규모의 말뭉치를 구축·공개하였습니다. 그러나 21세기를 맞이하면서도 컴퓨터의 획기적인 성능 향상은 이루어지지 않아, 데이터 구축도 주춤한 모습을 보였습니다.

그러던 중 2015년에 우리에게 익숙한 ‘알파고’로 대변되는 심층 학습(딥러닝) 기술이 발전하면서 인공지능 분야의 기술 발전이 급격히 이루어졌습니다. 또한 한국어 처리 분야에서도 컴퓨터가 학습할 수 있는 대량의 한국어 자료를 확보하는 것이 중요해졌습니다.

국립국어원의 말뭉치 구축 사업은 우리나라가 인공지능의 한국어 처리 기술을 혁신하여 선도할 수 있도록 ‘한국어 말뭉치 상시 공급·활용 체계 구축’을 목표로 추진되었습니다. 2018년 기초 연구를 시작으로 2019년부터 말뭉치를 체계적으로 구축하고 있으며, 그 결과물을 배포 시스템인 ‘모두의 말뭉치(kli.korean.go.kr/corpus)’를 통해 2020년 8월 25일부터 공개하고 있습니다.

최근에는 거대언어모델(LLM), 생성형 인공지능의 발전으로 한국 언어문화를 잘 이해하고 한국어를 잘하는 인공지능을 개발하는 데 필수적인 고품질 말뭉치에 대한 요구가 높아졌습니다. 국립국어원은 인공지능의 한국어 이해와 생성 능력을 키움으로써 우리 언어문화 자산의 경쟁력을 강화하도록, 인공지능의 한국어 처리 기술 발전과 더불어 한국어 연구 및 인공지능 연구를 지원하는 품질 좋은 말뭉치를 <모두의 말뭉치>를 통해 지속적으로 공개할 계획입니다.

주요 화면

품질 요약

품질 요약이 없습니다. 자체 평가와 사용자 댓글을 정리하여 제공합니다.

한줄평을 쓰려면 로그인하세요.