• Title/Summary/Keyword: Corpus Compiling

Search Result 3, Processing Time 0.014 seconds

An Algorithm for Predicting the Relationship between Lemmas and Corpus Size

  • Yang, Dan-Hee;Gomez, Pascual Cantos;Song, Man-Suk
    • ETRI Journal
    • /
    • v.22 no.2
    • /
    • pp.20-31
    • /
    • 2000
  • Much research on natural language processing (NLP), computational linguistics and lexicography has relied and depended on linguistic corpora. In recent years, many organizations around the world have been constructing their own large corporal to achieve corpus representativeness and/or linguistic comprehensiveness. However, there is no reliable guideline as to how large machine readable corpus resources should be compiled to develop practical NLP software and/or complete dictionaries for humans and computational use. In order to shed some new light on this issue, we shall reveal the flaws of several previous researches aiming to predict corpus size, especially those using pure regression or curve-fitting methods. To overcome these flaws, we shall contrive a new mathematical tool: a piecewise curve-fitting algorithm, and next, suggest how to determine the tolerance error of the algorithm for good prediction, using a specific corpus. Finally, we shall illustrate experimentally that the algorithm presented is valid, accurate and very reliable. We are confident that this study can contribute to solving some inherent problems of corpus linguistics, such as corpus predictability, compiling methodology, corpus representativeness and linguistic comprehensiveness.

  • PDF

A Compilation of Maritime English Corpus for English for Specific Purposes Education (특수목적영어 교육을 위한 해사영어코퍼스 구축)

  • Lee, Sung-Min;Kim, Jae-Hoon;Jhang, Se-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.163-164
    • /
    • 2015
  • 본 연구는 특수목적영어분인 해사영어코퍼스의 구축을 목적으로 한다. 구축과정에서 코퍼스 구축에 필요한 대표성과 균형성을 고려하여 네 가지 장르인 학술, 뉴스, 법, 책으로 나누고 각 하위코퍼스를 백만 단어씩 구축하였다. 코퍼스 구축과정에서 웹사이트와 PDF형태의 자료에서 텍스트만을 수집하고 정제하기 위하여 파이썬(Python) 프로그래밍 코딩을 하였고 무료 공개 프로그램도 병행하였다. 앞으로 해사영어코퍼스는 해사영어어휘교육에 필요한 단어목록제공이나 예문 검색 등을 통한 자료중심학습법에 활용될 수 있을 것이다. 또한 본 연구의 코퍼스구축 과정은 다른 분야의 ESP코퍼스 구축에도 응용 될 수 있을 것이다.

  • PDF

Procedures and Problems in Compiling a Disambiguated Tagged Corpus (어휘의미분석 말뭉치 구축의 절차와 문제)

  • Shin, Chi-Hyon;Choi, Min-Woo;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.479-486
    • /
    • 2001
  • 동음이의어 간의 서로 다른 의미를 효율적으로 변별해 줄 수 있는 방법 중 하나로 어휘의미분석 말뭉치의 활용을 들 수 있다. 이는 품사 단위의 중의성을 해소해 줄 수 있는 형태소 분석 말뭉치를 기반으로, 이 단계에서 해결하지 못하는 어휘적인 중의성을 해결한 것으로, 보다 정밀한 언어학적 연구와 단어 의미의 중의성 해결(word sense disambiguation) 등 자연언어처리 기술 개발에 사용될 수 있는 중요한 언어 자원이다. 본 연구는 실제로 어휘의미분석 말뭉치를 구축하기 위한 기반 연구로서, 어휘의미분서 말뭉치의 설계와 구축 방법론상의 제반 사항을 살펴보고, 중의적 단어들의 분포적 특징과 단어의 중의성 해결 단계에서 발생할 수 있는 문제점을 지적하고, 아울러 그 해결 방법을 모색해 의는 것을 목적으로 한다.

  • PDF