• Title/Summary/Keyword: 말뭉치 자동 구축

Search Result 122, Processing Time 0.049 seconds

Derivational Morphology in a Tagged Corpus (형태소 분석 말뭉치의 파생명사 처리)

  • 차준경;강범모
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.390-394
    • /
    • 2000
  • 이 논문은 형태소 분석 말뭉치를 구축하면서 제기되었던 파생 명사 처리의 문제점을 논의하고 그 해결 방안을 모색한 것이다. 파생 명사의 분석에서 국어학적·전산 언어학적으로 유의미한 분석 범위를 정할 때 몇가지 고려해야 할 사항이 있다. 접두사는 어기가 불규칙하므로 규칙으로 자동처리가 어렵다. 형태소 분석의 대상은 생산성이 높고, 어기와 범주를 변화시키는 서술성 접두사로 그 범위를 정할 수 있을 것이다. 접미사의 분석은 생산성이 높고 규칙적인 굴절 접미사가 분석의 대상이 되며, 또한 서술성을 갖는 한자어계 접미사도 분석 대상이 된다. 파생 명사의 분석에 있어서 접사는 그 위상이 동요되므로 접두사는 고나형사와 구별이 어렵고, 접미사는 의존명사와 구별이어렵다. 그러므로, 대용량의 형태소 분석 말뭉치를 효율적으로 구축하기 위해서는 접사에 대한 다각적인 검토가 필요할 것이다.

  • PDF

Derivational Morphology in a Tagged Corpus (형태소 분석 말뭉치의 파생명사 처리)

  • Cha, Joon-Kyung;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.390-394
    • /
    • 2000
  • 이 논문은 형태소 분석 말뭉치를 구축하면서 제기되었던 파생 명사 처리의 문제점을 논의하고 그 해결 방안을 모색한 것이다. 파생 명사의 분석에서 국어학적 전산 언어학적으로 유의미한 분석 범위를 정할 때 몇가지 고려해야 할 사항이 있다. 접두사는 어기가 불규칙하므로 규칙으로 자동처리가 어렵다. 형태소 분석의 대상은 생산성이 높고, 어기와 범주를 변화시키는 서술성 접두사로 그 범위를 정할 수 있을 것이다. 접미사의 분석은 생산성이 높고 규칙적인 굴절 접미사가 분석의 대상이 되며, 또한 서술성을 갖는 한자어계 접미사도 분석 대상이 된다. 파생 명사의 분석에 있어서 접사는 그 위상이 동요되므로 접두사는 관형사와 구별이 어렵고 접미사는 의존명사와 구별이 어렵다. 그러므로, 대용량의 형태소 분석 말뭉치를 효율적으로 구축하기 위해서는 접사에 대한 다각적인 검토가 필요할 것이다.

  • PDF

A Automatic Learning of Syntactic Patterns by using Artificial Neural Network (신경망을 이용한 구문패턴의 자동 학습)

  • Lim, Heui-Seok;Han, Kun-Hee
    • Proceedings of the KAIS Fall Conference
    • /
    • 2006.11a
    • /
    • pp.245-249
    • /
    • 2006
  • 구문분석 말뭉치를 구축하는 작업은 문법 전문가의 많은 시간과 노력을 필요로 하기 때문에, 문법 전문가의 수작업을 감소시켜 줄 수 있는 방법이 연구되고 있다. 기존 방법 중 하나로 구문패턴을 사용하는 방법이 있는데, 이 방법은 두 개의 구문패턴이 완벽하게 일치하는 경우에만 구문패턴을 적용하는 방법이다. 본 논문은 신경망을 사용하여 구문패턴을 학습하고, 다시 구문분석 말뭉치를 구축하는데 학습된 신경망을 적용하는 방법을 사용한다. 소량의 말뭉치에서 실험한 결과, 본 논문에서 사용한 방법이 기존의 방법보다 12%이상의 수작업 감소율을 나타냈다.

  • PDF

A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain - (바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 -)

  • Choi, Sung-Pil;Yoo, Suk-Jong;Cho, Hyun-Yang
    • Journal of Korean Library and Information Science Society
    • /
    • v.47 no.4
    • /
    • pp.289-307
    • /
    • 2016
  • This paper introduces a software system and process model for constructing domain-specific relation extraction datasets semi-automatically. The system uses a set of terms such as genes, proteins diseases and so forth as inputs and then by exploiting massive biological interaction database, generates a set of term pairs which are utilized as queries for retrieving sentences containing the pairs from scientific databases. To assess the usefulness of the proposed system, this paper applies it into constructing a genic interaction dataset related to Alzheimer's disease domain, which extracts 3,510 interaction-related sentences by using 140 gene names in the area. In conclusion, the resulting outputs of the case study performed in this paper indicate the fact that the system and process could highly boost the efficiency of the dataset construction in various subfields of biomedical research.

Word and class-based language modeling for Korean (단어와 클래스 기반의 한국어 언어 모델링)

  • Kim, Kil-Youn;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.221-225
    • /
    • 2001
  • 본 논문에서는 대량의 말뭉치를 바탕으로 한국어에 대해 단어 기반의 n-gram 언어 모델과 클래스 기반의 언어 모델을 구축하고, 이를 실험적으로 검증한다. 단어 기반의 n-gram 모델링의 경우 Katz의 백오프와 Kneser-ney의 스무딩(smoothing) 알고리즘에 대해 실험을 수행한다. 클래스 기반의 언어 모델의 경우에는 품사 태그를 단어의 클래스로 사용한 경우와 말뭉치로부터 자동으로 구축된 클래스를 사용한 경우로 나누어 실험한다. 마지막으로 단어 기반 모델과 클래스 기반 모델을 결합하여 각각의 모델과 그 성능을 비교한다. 실험 결과 단어 기반의 언어 모델의 경우 Katz의 백오프에 비해 Knerser-ney의 스무딩이 보다 조은 성능을 나타내었다. 클래스 기반의 모델의 경우 품사 기반의 방범보다 자동 구축된 단어 클래스를 이용하는 방법의 성능이 더 좋았다. 또한, 단어 모델과 클래스 모델을 결합한 모델이 가장 좋은 성능을 나타냈다. 논문의 모든 알고리즘은 직접 구현되었으며 KLM Toolkit이란 이름으로 제공된다.

  • PDF

Development of the Corpus Refinement Workbench for Science & Technology Terminology (과학기술 전문용어를 위한 정제 말뭉치 워크벤치 개발)

  • Lee, Byeong-Hee;Jeong, Hwi-Woong;Jung, Han-Min;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.623-626
    • /
    • 2005
  • 본 논문에서는 효과적으로 문서를 정제할 수 있는 작업환경인 웹 기반의 정제 말뭉치 워크벤치 개발에 관하여 기술한다. 또한 정보검색의 효율성 향상, 전문용어의 자동추출, 전문용어가 쓰인 문맥의 파악 등을 위하여 정제된 문서에 포함된 과학기술 전문용어를 표시할 수 있게 하는 작업 환경도 구축하였다. 이렇게 개발된 정제 말뭉치 워크벤치와 전문용어 태깅 툴을 이용하여 과학기술과 관련된 신문 기사에서 한국어 전문용어를 태깅하고, 논문의 제목과 초록에서 한영 전문용어 쌍을 태깅하는 작업을 진행하였다.

  • PDF

A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus (한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발)

  • Cho, Jung-Hyun;Jung, Hyun-Ki;Kim, Yu-Seop
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.43-52
    • /
    • 2012
  • Semantic role labeling is the research area analyzing the semantic relationship between elements in a sentence and it is considered as one of the most important semantic analysis research areas in natural language processing, such as word sense disambiguation. However, due to the lack of the relative linguistic resources, Korean semantic role labeling research has not been sufficiently developed. We, in this paper, propose an automatic predicate-argument analyzer to begin constructing the Korean PropBank which has been widely utilized in the semantic role labeling. The analyzer has mainly two components: the semantic lexical dictionary and the automatic predicate-argument extractor. The dictionary has the case frame information of verbs and the extractor is a module to decide the semantic class of the argument for a specific predicate existing in the syntactically annotated corpus. The analyzer developed in this research will help the construction of Korean PropBank and will finally play a big role in Korean semantic role labeling.

Korean Learning Assistant System with Automatically Extracted Knowledge (자동 추출된 지식에 기반한 한국어 학습 지원 시스템)

  • Park, Gi-Tae;Lee, Tae-Hoon;Hwang, So-Hyun;Kim, Byeong Man;Lee, Hyun Ah;Shin, Yoon Sik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.2
    • /
    • pp.91-102
    • /
    • 2012
  • Computer aided language learning has become popular. But the level of automation of constructing a Korean learning assistant system is not so high because a practical language learning system needs large scale knowledge resources, which is very hard to acquire. In this paper, we propose a Korean learning assistant system that utilizes easily obtainable knowledge resources like a corpus, web documents and a lexicon. Our system has three modules - problem solving, pronunciation marker and writing assistant. Automatic problem generator uses a corpus and a lexicon to make problems with one correct answer and three distracters, then verifies their suitability by utilizing frequency information from web documents. We analyze pronunciation rules for a pronunciation marker and recommend appropriate words and sentences in real-time by using data extracted from a corpus. In experiment, we evaluate 400 automatically generated problems, which show 89.9% problem suitability and 64.9% example suitability.

Automatic Tension Classification from Lecture Show Transcripts (강연의 자막을 이용한 긴장도 자동 분류)

  • Yoon, Seungwon;Yang, Wonsuk;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.204-209
    • /
    • 2018
  • 긴장이라는 측면은 의사소통을 하거나 글을 읽을 때 사람에게 항상 영향을 주고 있다. 긴장의 개념은 자연언어처리 분야에서 광범위한 의미로 사용되어 왔는데, 본 논문은 이런 개념 중 강연과 같은 한 방향 대화에서 화자의 말에 대하여 청중이 가지는 긴장도에 집중하여 이를 정량화하는 방법을 제안한다. 한 명의 저자에 의해 서술된 문서에 긴장도 개념을 적용함에 있어, 한 방향 대화에서의 긴장도를 정량화하는 본 연구는 긴장도 개념을 일반 문서에 적용할 때에 보다 용이하게 활용될 것으로 예상한다. 본 연구에서는 먼저 화자의 말에 대한 청중의 긴장도가 주석되어 있는 새로운 말뭉치를 구축하였다. 또한 문맥을 고려하여 긴장도를 예측할 수 있는 모델과 이에 따른 긴장도 분류 성능에 대한 실험 결과를 통하여 자동 긴장도 분류가 계산적으로 가능하다는 것을 보인다.

  • PDF

Terminology Tagging System using elements of Korean Encyclopedia (백과사전 기반 전문용어 태깅 시스템)