• Title/Summary/Keyword: Language Information Processing

Search Result 2,016, Processing Time 0.022 seconds

Comparison of Application Effect of Natural Language Processing Techniques for Information Retrieval (정보검색에서 자연어처리 응용효과 분석)

  • Xi, Su Mei;Cho, Young Im
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.18 no.11
    • /
    • pp.1059-1064
    • /
    • 2012
  • In this paper, some applications of natural language processing techniques for information retrieval have been introduced, but the results are known not to be satisfied. In order to find the roles of some classical natural language processing techniques in information retrieval and to find which one is better we compared the effects with the various natural language techniques for information retrieval precision, and the experiment results show that basic natural language processing techniques with small calculated consumption and simple implementation help a small for information retrieval. Senior high complexity of natural language processing techniques with high calculated consumption and low precision can not help the information retrieval precision even harmful to it, so the role of natural language understanding may be larger in the question answering system, automatic abstract and information extraction.

The Construction of Predicate Subcategorization Using Tree Tagged Corpus (구문구조부착 말뭉치를 이용한 술어의 하위범주화 정보 구축)

  • Ryu, Pum-Mo;Jang, Myung-Gil;Park, Soo-Jun;Park, Jae-Deuk;Park, Doing-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.116-121
    • /
    • 1997
  • 한국어 문장에서 술어의 역할이 매우 중요하기 때문에 술어의 하위범주화 정보는 한국어 분석 및 생성에서 필수적이다. 그러나 기존의 한국어 술어의 하위범주화 사전은 전문가의 사전지식이나 직관에 의존하여 만들어졌기 때문에 주관적이고 오류의 가능성이 높으며 많은 수작업이 필요했다. 또 영역에 독립적인 하위범주화 정보를 구축하는 작업은 매우 어렵기 때문에 응용영역에 맞는 하위범주화 정보를 쉽게 구축하는 방법이 요구되었다. 본 논문에서는 구문구조부착 말뭉치를 이용하여 전문가의 제한된 개입만으로 통계정보와 명사의 의미정보를 포함하는 술어의 하위범주화 정보 구축 방법을 제안한다.

  • PDF

Breaking Compound Nouns for Better Indexing (효율적인 색인을 위한 복합 명사의 분해)

  • Park, Soo-Jun;Lee, Hyun-A;Jang, Myung-Gil;Park, Jae-Deuk;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.42-48
    • /
    • 1996
  • 정보검색에서의 효율적인 복합명사의 분석은 정확도와 재현율의 향상을 통해 색인의 질을 높여준다. 복합명사의 분석은 많은 노력이 요구되는 작업이다. 본 논문은 간단한 분해규칙을 이용하여 복합명사의 의미해석을 대신하였다. 실험을 위해 동아일보 사설을 대상으로 복합명사를 추출하고 이를 도출된 분해규칙을 이용하여 분해하였다. 실험을 통해 평균 96.2%의 분해 성공률을 보였다.

  • PDF

A Preprocessor for Practical English-to-Korean Machine Translation (실용적인 영한 기계번역을 위한 전처리기의 설계 및 구현)

  • Yuh, Sang-Hwa;Jung, Han-Min;Chae, Young-Soog;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.313-321
    • /
    • 1996
  • 본 논문에서는 실용적인 기계번역 시스템을 위하여 다양한 입력 형태에서 나타나는 여러 현상을 전처리하는 기법을 설명한다. 전처리기는 문장 분리, Title 및 나열문 인식, HTML Tag의 처리, 하이픈처리, 숫자 표현 처리, 대소문자의 정규화, 고유명사 인식, 복합단위 인식 등을 수행하여 형태소 분석기의 처리 부담을 줄인다.

  • PDF

SERI Test Suites '97 : Test Sentences for Korean Syntactic Analyser (SERI Test Suites '97 : 한국어 구문분석기 성능 평가용 문장 모음)

  • Sung, Won-Kyung;Jang, Myung-Gil;Park, Jae-Deuk;Ryu, Pum-Mo;Lee, Hyun-A;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.320-326
    • /
    • 1997
  • 자연어 정보처리 분야의 거듭된 발전은 다양한 언어처리 도구들의 출현을 가져왔다. 그러나 객관적인 성능 평가 기준의 부재로 인해, 개발된 도구들은 임의의 기준에 따라 평가될 수 밖에 없었다. 그 결과 성능 평가 결과는 평가자와 평가자가 제안한 기준에 따라 다를 수 밖에 없었고 따라서 평가 결과 자체 역시 설득력을 갖을 수가 없었다. 이와 같은 문제에 대한 해결책을 찾고자 하는 노력의 일환으로, 본 연구에서는 한국어처리 도구들 중 특히 구문분석기의 체계적이고도 객관적인 성능 평가를 목적으로 제작된 문장들과 관련 주석 정보들로 구성된 SERI Test Suites '97을 소개한다.

  • PDF

Speech Recognition in the Pager System displaying Defined Sentences (문자출력 무선호출기를 위한 음성인식 시스템)

  • Park, Gyu-Bong;Park, Jeon-Gue;Suh, Sang-Weon;Hwang, Doo-Sung;Kim, Hyun-Bin;Han, Mun-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.158-162
    • /
    • 1996
  • 본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

  • PDF

Verb Pattern Based Korean-Chinese Machine Translation System

  • Kim, Changhyun;Kim, Young-Kil;Hong, Munpyo;Seo, Young-Ae;Yang, Sung-Il;Park, Sung-Kwon
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2002.02a
    • /
    • pp.157-165
    • /
    • 2002
  • This paper describes our ongoing Korean-Chinese machine translation system, which is based on verb patterns. A verb pattern consists of a source language pattern part for analysis and a target language pattern part for generation. Knowledge description on lexical level makes it easy to achieve accurate analyses and natural, correct generation. These features are very important and effective in machine translation between languages with quite different linguistic structures including Korean and Chinese. We performed a preliminary evaluation of our current system and reported the result in the paper.

  • PDF

FromTo/KE: A Korean-English Machine Translation (에서로/KE:한영 기계 번역 시스템)

  • Yuh, Sang-Hwa;Kim, Young-Kil;Choi, Sung-Kwon;Kim, Tae-Wan;Park, Dong-In;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.283-287
    • /
    • 1997
  • 본 논문에서는 당 연구소 주관으로 연구개발정보센터(KORDIC), 서울대와 공동으로 개발중인 한영 기계번역 시스템, '에서로/KE'의 prototype system을 설명한다. 에서로/KE는 KORDIC에서 한국어 형태소 분석기와 Tagger를 개발하고, 서울대에서 한국어 구문해석기와 한영 변환기를 개발하고, SERI에서 영어 구문 생성기와 영어 형태소 생성기를 개발한다. 한국어 Tagger는 HMM에 기반하여 제작되었으며 sample 200문장에 대해 98.9%의 정확률을 보인다. 한국어 구문 해석기는 의존 문법에 기반하여 CYK 알고리즘을 사용하여 제작되었으며 중의성 해결을 위해 29개의 최적 parse 선택 규칙이 구현되어 있다. 한영 변환기는 collocation과 idiom에 기반하여 한영 변환을 수행한다. 영어 구문 생성기는 Tree 변환 언어인 GWL(Grammar Writing Language)를 사용하여 작성되었으며, 영어 형태소 생성기는 최종적으로 자연스러운 영어 표층문을 생성한다. 에서로/KE는 현재 1차년도 Prototype system이 Unix 환경에서 구현되어 있으며, 현재 각 모듈별 성능 개선과 대량 사전 구축을 통해 상용화될 예정이다.

  • PDF

Korean Dependency Parsing Using Statistical/Semantic Information (통계/의미 정보를 이용한 한국어 의존 파싱)

  • Jang, Myung-Gil;Ryu, Pum-Mo;Park, Jae-Deuk;Park, Dong-In;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.313-319
    • /
    • 1997
  • 한국어 의존 파싱에서는 불필요한 의존관계의 과다한 생성과 이에 따른 다수의 구문분석 결과 생성에 대처하는 연구가 필요하다. 본 논문에서는 한국어 의존 파싱 과정에서 생기는 불 필요한 의존관계에 따른 다수의 후보 의존 트리들에 대하여 통계/의미 정보를 활용하여 최적 트리를 결정하는 구문 분석 방법을 제안한다. 본 논문의 구문 분석에서 사용하는 통계/의미 정보는 구문구조부착 말뭉치(Tree Tagged Corpus)를 이용하여 구축한 술어 하위범주화 정보 사전에서 얻었으며, 이러한 정보를 활용한 구문 분석은 한국어 구문 분석의 모호성 해소에 적용되어 한국어 구문 분석의 정확도를 높인다.

  • PDF

Chart Parser Using Compound Unit Information (복합 단위 정보를 이용한 차트 파서)

  • Jung, Han-Min;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.291-295
    • /
    • 1997
  • 본 논문은 복합 단위 정보를 이용하여 모호성을 감소시키고 자연스러운 대역어 정보를 제공할 수 있는 차트파서를 기술한다. 복합 단위 정보를 사용하는 파싱은 태깅과 구문 분석 과정 사이에서 여러 단어들을 하나의 단위로 만들어서 형태론적/구문적 모호성과 파스 트리의 수를 감소시킨다. 우리는 Bottom-up 차트 파싱을 사용하는데, 이는 모호성 있는 태깅 결과가 많을수록 파스 트리의 생성 시간과 수의 증가를 초래하므로 복합 단위를 사용하여 파서에 대한 입력 단어의 수 및 모호성을 감소시켜 안정적인 파싱 결과를 얻을 수 있게 한다. 실험 결과는 복합 단위 정보를 사용한 차트 파싱이 차트들의 크기와 파스 트리의 수를 50%까지 감소시킴을 보여준다.

  • PDF