• Title/Summary/Keyword: 자연언어처리

Search Result 429, Processing Time 0.027 seconds

Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model (은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델)

  • Oh, Jong-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary (반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템)

  • Myung, Jaeseok;Lee, Dongjoo;Lee, Sang-Goo
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.68-75
    • /
    • 2007
  • 웹 2.0 시대에 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치있는 데이터이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하는 상품평 분석 시스템을 설계하고 구현하였다. 각 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동으로 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘에 대한 처리 방법에 대해서도 논의한다. 실험은 2개 상품 분류의 63개 실제 리뷰를 대상으로 수행하였으며 결과로 평균 88.94%의 정확률, 47.92%의 재현율을 나타냈다.

  • PDF

Processing Korean Passives for Database Semantics (데이터베이스 의미론을 위한 한국어 피동형의 전산적 처리)

  • Hong, Jung-Ha;Choe, Seung-Chul;Lee, Ki-Yong
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.411-418
    • /
    • 2000
  • Hausser (1999)와 이기용 (1999a, 1999c)에서는 데이터베이스 관리 시스템(DBMS)을 이용하여 자연언어의 의미를 다루는 데이터베이스 의미론을 제안하였다. 특히 이기용 (1999c)에서는 수형도(tree), 논리 형태(logical fomulas), 자질 구조(feature structure)와 같은 다양한 언어 표상 형식들을 관계형 데이터베이스 관리 시스템(RDBMS)의 표상 형식인 테이블 형식으로 전환 가능함을 보임으로써 데이터베이스 의미론에 관계형 데이터 베이스 관리 시스템을 도입할 수 있음을 제시하였다. 한편, Lee (2000)에서 제시한 데이터베이스 의미론 모형에서는 데이터베이스 관리 시스템과 사용자(end-user)를 연결하는 언어 정보 처리 시스템(LIPS; Linguistic Information Processing System)을 제안하였다. 이 언어정보 처리 시스템은 사용자에 의해 입력된 언어 자료를 처리하여 그 분석 결과를 데이터베이스 관리 시스템에 전달하고, 이를 통해 구축된 데이터베이스에서 추출한 정보를 다시 사용자에게 전달하는 시스템이다. 이 논문은 한국어 '이, 히, 리, 기' 피동형을 전산처리를 할 수 있도록, 데이터베이스 의미론에서 핵심 요소인 언어정보 처리 시스템과 데이터베이스 관리 시스템을 구현하는 것 이 목적이다.

  • PDF

Implementation of Iconic Language for the Language Support System of the Language Disorders (언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현)

  • Choo Kyo-Nam;Woo Yo-Seob;Min Hong-Ki
    • The KIPS Transactions:PartB
    • /
    • v.13B no.4 s.107
    • /
    • pp.479-488
    • /
    • 2006
  • The iconic language interlace is designed to provide more convenient environments for communication to the target system than the keyboard-based interface. For this work, tendencies and features of vocabulary are analyzed in conversation corpora constructed from the corresponding domains with high degree of utilization, and the meaning and vocabulary system of iconic language are constructed through application of natural language processing methodologies such as morphological, syntactic and semantic analyses. The part of speech and grammatical rules of iconic language are defined in order to make the situation corresponding the icon to the vocabulary and meaning of the Korean language and to communicate through icon sequence. For linguistic ambiguity resolution which may occur in the iconic language and for effective semantic processing, semantic data focused on situation of the iconic language are constructed from the general purpose Korean semantic dictionary and subcategorization dictionary. Based on them, the Korean language generation from the iconic interface in semantic domain is suggested.

Solution Method and Embodying of Adverb's Positioning Restrictions and Orderings for Korean-English Machine Translation (한.영 기계 번역을 위한 부사의 위치 및 순서제약 해결의 방안 및 구현)

  • Jo, Jun-Mo;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.163-167
    • /
    • 1994
  • 본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.

  • PDF

Design of E-mail Client based on Automatic Recognition for Sender's Feeling (송신자의 감정 표현을 자동 인식하는 전자 메일 클라이언트의 설계)

  • Kim, Na-Young;Kim, Young-Jin;Lee, Samuel Sang-Kon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.205-209
    • /
    • 2007
  • 인터넷과 핸드폰의 보급으로 컴퓨터 사용자가 전자 메일 통한 통신 방법이 활발하다. 전자 메일의 사용은 개인적인 일은 물론 기업 사무, 광고 메일, 뉴스, 광고 메일 등 폭넓게 이용되고 있다. 전자 메일 클라이언트에 자연언어처리의 고급 기능의 탑재와 컴퓨터 바이러스 혹은 스팸 메일을 방지하는 고기능이 임베디드 되어야 한다. 자연언어처리 기법을 이용하여 전자 메일의 내용에 포함된 작성자의 "즐거움", "성남", "슬픔"등 인간의 복잡한 감정 표현을 송신과 수신 프로세서에서 이해시키며, 전자 메일을 송신하기 전문서의 내용 중에 불쾌한 표현을 제거하여 문서 교정을 독려하는 지능적인 전자 메일 클라이언트 시스템을 설계하였다.

  • PDF

TagBench: a Tool for Building Large Corpora (TagBench: 대용량 말뭉치 구축을 위한 언어 정보 부착 도구)

  • Seo, Hyeong-Won;Choi, Myung-Kil;Nam, Yoo-Rim;Kwon, Hong-Beok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.126-131
    • /
    • 2012
  • 본 논문은 자연언어처리에 필요한 여러 언어 정보를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 제안한 부착 도구는 기본적으로 형태소, 구묶음, 기반구의 품사 정보를 부착하고 추가적으로 명사에 대해서는 각 요소의 의미정보를 부착한다. 또한 형태소와 구묶음의 경우에는 사전형 정보를 부착함으로써 사전 구축 등 보다 폭넓게 사용될 수 있도록 하였다. 언어정보 부착에 있어서 가장 어려운 점은 어떻게 여러 작업자들이 일관성을 유지하느냐이다. 이를 위해 본 논문에서는 각 작업자들이 다른 작업자들의 부착 결과를 쉽게 참조하여 보다 손쉽게 수정할 수 있도록 설계되었다. 또한 기존에 잘못 부착된 정보를 발견하면 이를 쉽게 고칠 수 있도록 하였으며 또한 유사한 오류를 검색할 수 있도록 하여 쉽게 수정할 수 있도록 하였다.

  • PDF

Construction of Korean Wordnet "KorLex 1.5" (한국어 어휘의미망 "KorLex 1.5"의 구축)

  • Yoon, Ae-Sun;Hwang, Soon-Hee;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.92-108
    • /
    • 2009
  • The Princeton WordNet (PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers.