• 제목/요약/키워드: Compound Noun Analysis

검색결과 25건 처리시간 0.027초

복합명사 분리 색인 방법이 문서 클러스터링에 미치는 영향 분석 (An Analysis of the Hierarchical Agglomerative Clustering based on various Compound Noun Indexing Method)

  • 양명석;최성필
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.697-699
    • /
    • 2002
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결함 문서 클러스터링 시스템의 결과를 분석하고자 한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglumerative Clustering) 엔진에 대해서 설명하고 한글 색인엔진에서 제공되는 세가지 복합명사 분석 모드에 대해서 설명한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 설명한다. 실험에서는 다양한 요소를 가지고 클러스터링된 문서 집합에 대한 분석 결과를 보인다. 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

  • PDF

한글 문서 검색에서 n-Gram 색인방법의 성능 분석 (Performance Analysis of n-Gram Indexing Methods for Korean text Retrieval)

  • 이준규;심수정;박혁로
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.145-148
    • /
    • 2003
  • The agglutinative nature of Korean language makes the problem of automatic indexing of Korean much different from that of Indo-Eroupean languages. Especially, indexing with compound nouns in Korean is very problematic because of the exponential number of possible analysis and the existence of unknown words. To deal with this compound noun indexing problem, we propose a new indexing methods which combines the merits of the morpheme-based indexing methods and the n-gram based indexing methods. Through the experiments, we also find that the best performance of n-gram indexing methods can be achieved with 1.75-gram which is never considered in the previous researches.

  • PDF

통계적 정보를 이용한 복합명사 검색 모델 (A Compound Term Retrieval Model Using Statistical lnformation)

  • 박영찬;최기선
    • 인지과학
    • /
    • 제6권3호
    • /
    • pp.65-81
    • /
    • 1995
  • 복합명사는 한국어에서 가장 빈번하게 나타나는 색인어의 한 형태로서,영어권 중심의 정보검색 모델로는 다루기가 어려운 언어 현상의 하나이다.복합명사는 2개 이상의 단일어들의 조합으로 이루어져 있고,그 형태 또한 여러가지로 나타나기 때문에 색인과 검색의 큰 문제로 여겨져 왔다.본 논문에서는 복합명사의 어휘적 정보를 단위명사들의 통계적행태(statistical behavior)에 기반 하여 자동 획득하고,이러한 어휘적 정보를 검색에 적용하는 모델을 제시하고자 한다.본 방법은 색인시의 복합명사 인식의 어려움과 검색시의 형태의 다양성을 극복하는 모델로서 한국어를 포함한 동양권의 언어적 특징을 고려한 모델이다.

  • PDF

단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원 (Restoring Functional Word and Noun-Verb Syntactic Relations for Korean Compound Noun Analysis)

  • 양성일;김영길;서영애;박은진;나동렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.694-695
    • /
    • 2007
  • 한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존 관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.

  • PDF

한국어 오류 교정 시스템의 구현 (Implementation of Korean Error Correction System)

  • 최재혁;김권양
    • 컴퓨터교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.115-127
    • /
    • 2000
  • 기존 워드프로세서의 맞춤법 검사기는 여러 오류 단어 후보군 중에서 1개를 선택하는 오류 작업의 불편함과 60%대의 낮은 교정률 그리고 늦은 처리 속도 등의 단정을 갖고 있다. 본 연구에서는 이러한 단점들을 해결하기 위하여 1개의 교정 단어와 페이지 단위의 일괄 교정으로 교정의 불편함을 해소하고, 높은 오류 교정률과 빠른 처리 속도를 가능하게 하는 방안을 제시한다. 이를 위하여 형태소 분석 시 처리 속도를 향상시키기 위한 방법으로 양방향 최장일치법을 적용하며, 교정 시의 정확성보장과 처리 속도의 향상을 위한 사전과 여러 알고리즘(복합명사 분리, 보조용언 분리, 오타 교정 등) 등을 개발하여 적용하였다. 특히 한국어에서 모호성이 많이 발생되는 의존명사 및 접미사와 조사/어미의 구분 방안, "로써/로서, 되다" 등의 구분 처리 방안을 제시하여 교정 시스템의 신뢰성을 높였다.

  • PDF

Noun Sense Identification of Korean Nominal Compounds Based on Sentential Form Recovery

  • Yang, Seong-Il;Seo, Young-Ae;Kim, Young-Kil;Ra, Dong-Yul
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.740-749
    • /
    • 2010
  • In a machine translation system, word sense disambiguation has an essential role in the proper translation of words when the target word can be translated differently depending on the context. Previous research on sense identification has mostly focused on adjacent words as context information. Therefore, in the case of nominal compounds, sense tagging of unit nouns mainly depended on other nouns surrounding the target word. In this paper, we present a practical method for the sense tagging of Korean unit nouns in a nominal compound. To overcome the weakness of traditional methods regarding the data sparseness problem, the proposed method adopts complement-predicate relation knowledge that was constructed for machine translation systems. Our method is based on a sentential form recovery technique, which recognizes grammatical relationships between unit nouns. This technique makes use of the characteristics of Korean predicative nouns. To show that our method is effective on text in general domains, the experiments were performed on a test set randomly extracted from article titles in various newspaper sections.

효율적인 색인어 추출을 위한 복합명사 분석 방법 (A Korean Compound Noun Analysis Method for Effective Indexing)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-35
    • /
    • 1996
  • 정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.

  • PDF

의미 정보를 이용한 한국어 복합명사 분석 (Analysis of Korean Compound Noun using Semantic Information)

  • 김수남;원상현;권혁철;주종철;이상기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.195-197
    • /
    • 1998
  • 복합명사 분석은 조합이 자유롭고 제한이 없으므로 여러 가지 모호성을 발생시킨다. 이러한 모호성을 해결하는 기존 방법으로 사전을 이용하는 방법[2]과 통계적 정보를 이용하는 방법[3,4]이 있다. 본 논문에서는 하위 범주화된 어휘 정보를 가진 전자사전을 이용하여 복합명사를 분석한다. 그리고 어휘 정보만으로 처리했을 때 의미상으로 잘못된 분석이 발생할 수 있으므로 본 논문은 복합명사를 구성하는 어휘의 정보와 특정단어의 의미에 따른 복합명사 제약조건을 규칙베이스로 구축하여 분석에 이용한다. 또한 분석에 실패한 복합명사의 유형을 분석하여 각 유형에 따른 교정 방법도 제시한다. 실험 데이터는 부산일보, 교과서, 그리고 각종 문서에서 무작위로 추출한 27,945개의 복합명사를 사용하였다. 본 논문에서 제시한 의미적 제약조건을 이용하여 분석했을 때 복합명사로 잘못 쓴 어절의 검사율이 21% 향상되었다.

  • PDF

Two-level 한국어 형태소 해석에서의 복합명사 처리 (A Compound Noun Processing in the Two-level Morphological Analysis of Korean)

  • 이근용;박기선;이용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.505-507
    • /
    • 2002
  • Two-level 형태소 해석 모델은 단어들이 결합할 때 발생하는 철자변화를 처리하는 언어 독립적인 형태소 해석 모델이다. 그러나 한국어의 경우 활용과 첨용이 자유로운 교착어에 속하며 음절단위 표현법 때문에 two-level 모델을 이용한 형태소 해석 방법보다는 언어 종속적인 형태소 해석 방법을 사용하여 왔다. 한국어 용언과 다양한 변형을 처리하기 위한 two-level 규칙이 표현되었지만, 형태소 해석에서 사용하기 위해서 필요한 복합명사 치리와 미지어 처리에 대한 적절한 방법이 아직 계시되지 않았다. 본 논문은 어절 생성 규칙을 이용한 사전 구성을 이용하여 two-level 모델에서의 한국어 복합명사의 처리에 대해서 다루고, two-level 모델에서 한국어 복합명사 처리가 가능함을 보이고자 한다.

  • PDF

합성명사 의미해석용 사전 구축을 위한 워크벤치 (Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun)

  • 이경순;김도완;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF