• Title/Summary/Keyword: 세종말뭉치

Search Result 101, Processing Time 0.039 seconds

21st Century Sejong Modern Korean Corpora: Results and Expectations (21세기 세종계획 현대국어 기초말뭉치: 성과와 전망)

  • Kim, Hung-Gyu;Kang, Beom-Mo;Hong, Jungha
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.311-316
    • /
    • 2007
  • 현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

  • PDF

Corpus Analyzer for Linguists (언어학자를 위한 말뭉치 분석기)

  • Jeong, Seok-Pal;Lim, Seong-Jyeon;Jeon, Jin-Hyeong;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.95-98
    • /
    • 2012
  • 말뭉치는 언어를 연구하기 위한 중요한 재료이다. 본 논문에서는 말뭉치에서 나타나는 언어 현상을 보다 효율적으로 분석하기 위한 언어학자를 위한 말뭉치 분석기를 제안하고 그 구현 방법을 설명한다. 제안하는 말뭉치 분석기는 기본적인 통계 정보와 함께, 형태소 분석된 파일을 대상으로 위치 색인을 포함하는 역파일 색인을 구성하여 빠른 형태소 검색과 다앙한 수준의 연어 검색을 제공한다. 분석기는 세종말뭉치를 기본 말뭉치로 하며, 다앙한 말뭉치에 대한 통계자료와 검색 기능을 제공하기 위해 사용자 말뭉치 파일에 대한 처리도 지원한다. 시스템은 사용자가 업로드한 말뭉치 파일에 대하여 자동 형태소 분석을 제공하며 형태소 분석 결과 수정을 가능하게 하여 다앙한 말뭉치에서 언어학자들의 우리말 연구를 지원한다.

  • PDF

Unicode and Code Conversion for Sejong 21 Raw Corpus (21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.262-265
    • /
    • 2009
  • 21세기 세종계획은 국어정보화를 위한 범국가적 사업으로서 국어 기초 자원을 구축하는데 매우 큰 기여를 하였으며, 그 주요 결과물로 배포된 세종 말뭉치는 많은 연구자들에게 꼭 필요한 가치있는 결과물이다. 이처럼 소중한 국어 자원을 실제 연구자들이 활용하고자 할 때 불편함을 느끼는 경우가 있는데 그 이유는 균형 말뭉치의 구축이라는 말뭉치의 특성 및 원문 자료의 내용을 최대한 보존하기 위한 노력의 일환으로 사용자 정의 영역에 정의된 문자들이 다수 포함되어 있기 때문이다. 본 논문에서는 자연언어 처리, 정보검색 분야 연구자들이 세종계획 최종 결과물 중에서 원시 말뭉치를 활용하는데 있어서 말뭉치에 사용된 문자코드의 유형을 중심으로 코드 변환 문제점과 그 해결 방안을 모색하고자 한다.

  • PDF

Corpus Data Extracting Tool for Sejong Text Corpus (세종 문어체 말뭉치를 위한 말뭉치 데이터 추출 도구)

  • Park, Il-Nam;Jang, Wu-Seok;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.1102-1105
    • /
    • 2010
  • 본 논문에서는 세종 말뭉치 데이터를 활용할 때 한글코드의 변환 및 말뭉치에서 필요한 정보 추출 등 한국어 말뭉치에서 통계 정보를 추출하는데 사용되는 여러 가지 기능들을 한데 묶어, 말뭉치 작업의 사용자 편의성을 개선시키기 위한 도구를 설계, 구현하였다. 이 말뭉치 활용 도구는 세종 말뭉치의 원시, 형태, 형태의미, 구문 말뭉치들을 다양한 옵션에 따라 사용자가 원하는 데이터를 추출할 있을 뿐만 아니라 일반적인 한글 텍스트 파일에 공통적으로 사용되는 코드 변환, 파일 합병, 빈도 계산 등을 제공하기 때문에 말뭉치 작업을 하는 사용자들이 편리하게 사용할 수 있게 하였다.

Developing an Error Correction Tool for Sejong POS Tagged Corpus (세종 형태분석 말뭉치의 오류 수정 도구 개발)

  • Choi, Myung-Gil;Nam, Yoo-Rim;Seo, Hyung-Won;Jeon, Kil-Ho;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.114-116
    • /
    • 2011
  • 한국어 정보처리에서 널리 사용되는 세종 형태분석 말뭉치는 품사정보와 문장정보 등 다양한 한국어 정보를 포함하고 있다. 이 말뭉치는 방대한 양의 정보들로 구축되었지만 많은 오류 또한 포함되어 있다. 예를 들면 철자 오류, 띄어쓰기 오류, 그리고 품사부착 오류 등이 있다. 하지만 세종말뭉치와 같이 대용량 말뭉치의 오류를 수정하는 것은 많은 인력과 시간이 필요하며 일관성 있게 오류를 수정하는 것은 쉽지 않다. 따라서 본 논문에서는 세종 형태분석 말뭉치에 포함된 오류를 빠르고 일관성 있게 수정하기 위한 오류 수정 도구를 구현하였다. 본 논문에서 수정 대상이 되는 오류는 어절과 형태소 분석 결과의 불일치에 관한 오류만 대상으로 한다. 이를 위해 세종 형태분석 말뭉치를 데이터베이스로 재구축하였으며, 본래의 어절과 품사가 부착된 형태소의 자모를 각각 분리하여 두 자모의 차이점을 분석하여 오류 후보를 선정한다. 오류 후보에서 동일한 오류 패턴을 갖는 모든 오류 후보에 대하여 동일한 방법으로 일관성 있고 빠르게 수정할 수 있다.

  • PDF

KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database (꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구)

  • Lee, Dong-Joo;Yeon, Jong-Heum;Hwang, In-Beom;Lee, Sang-Goo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.11
    • /
    • pp.1046-1050
    • /
    • 2010
  • Corpus is widely used as a fundamental resource for various purposes in linguistic studies. There are several large corpora such as Sejong corpus in Korea. However, it is hard to find a tool utilizing such large corpora. In this paper, we propose a method of utilizing Sejong corpus based on the relational database. We designed the relational database scheme to store corpus and implemented a Web-based application so that many researchers can easily access and utilize the Sejong corpus.

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

Korean Semantic Tagged Corpus Construction working (한국어 의미 표지 부착 말뭉치 구축 작업)

  • Lee, Min-Ji;Lee, Yoon-Jeong;Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hae-Jung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

A Study on Effectively Detecting and Correcting POS-Tagged Errors (효율적인 품사부착 오류 검출 및 수정에 관한 연구)

  • Choi, Myung-Gil;Seo, Hyeong-Won;Nam, Yoo-Rim;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.132-137
    • /
    • 2012
  • 본 논문에서는 세종형태분석 말뭉치에 포함되어 있는 오류를 효율적으로 수정하기 위하여 오류 수정도구를 개발하였다. 세종형태분석 말뭉치에서 오류를 검출하기 위하여 형태소 생성과 자동 띄어쓰기 방법을 이용하였다. 검출된 오류를 수정하기 위하여 철자 오류 수정, 형태소 삭제 수정, 형태소 삽입 수정, 어절 재분석 방법을 사용하였다. 또한 최대한 반복적인 작업은 수행하지 않도록 설계하였다. 구현된 오류 수정 도구를 통하여 세종형태분석 말뭉치를 수정하였을 경우 텍스트 파일 형태의 말뭉치에서 오류를 수정하는 것보다 최소 9배 이상 빠른 작업이 가능하였으며, 사용자가 오류 수정 작업을 진행할수록 수정 속도가 빨라짐을 실험을 통해서 알 수 있었다.

  • PDF