• 제목/요약/키워드: 복합어

Search Result 337, Processing Time 0.028 seconds

A Compound Term Retrieval Model Using Statistical Noun-Pattern Categorization (통계적 명사패턴 분류를 이용한 복합명사 검색 모델)

  • Park, Young-C.;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.21-31
    • /
    • 1996
  • 복합명사는 한국어에서 가장 빈번하게 나타나는 색인어의 한 형태로서, 영어권 중심의 정보검색 모델로는 다루기가 어려운 언어 현상의 하나이다. 복합명사는 2개 이상의 단일어들의 조합으로 이루어져 있고, 그 형태 또한 여러 가지로 나타나기 때문에 색인과 검색의 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사의 어휘적 정보를 단위명사들의 통계적 행태(statistical behavior)에 기반 하여 자동 획득하고, 이러한 어휘적 정보를 검색에 적용하는 모텔을 제시하고자 한다. 본 방법은 색인시의 복합명사 인식의 어려움과 검색시의 형태의 다양성을 극복하는 모델로서 한국어를 포함한 동양권의 언어적 특징을 고려한 모델이다.

  • PDF

Term Weighting Method by Postposition and Compound Noun Recognition (조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법)

  • 강승식;이하규;손소현;홍기채;문병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF

Improvement of retrieval system and generation of compound noun using word weight method (단어 가중치 값을 이용한 복합명사 제한적 확장 및 검색 성능 개선)

  • Kim, Hyun-Jin;Lee, Chung-Hee;Hur, Jeong;Jang, Myeong-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.603-606
    • /
    • 2002
  • 자동색인이나 정보검색 엔진에서는 효율적인 색인어 추출이 주요한 요인으로 작용한다. 특히 색인 집합의 많은 부분을 차지하는 복합명사의 경우에는 색인과 검색 두 분야 모두에 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사를 이루는 단일 단어 중에 단어 가중치가 높은 것을 중심으로 복합명사를 확장하는 방식을 이용하여, 색인어를 추출하여, 복합명사가 제한적으로 확장되는 효과를 보여 주며, 검색에서는 질의문에 나타나는 명사들에 이러한 가중치 값을 적용하여 검색에 효과를 높여 주는 방식을 제안한다.

  • PDF

An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications (한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법)

  • Lee, Samuel Sang-kon
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.7
    • /
    • pp.636-649
    • /
    • 2005
  • Field-associated Terms itself have field Information. So, they determine field of document just like when human being perceives field. In case of Korean, we organized and experimented them by collecting approximately IS,999 document banks that are classified into 180 fields. We obtained high precision of extraction that 88,782 single field-associated terms are contracted into 8,405 ones thus recording compression rate as approximately 9$\%$ and recall as above 0.77 (average 0.85), precision as above 0.90 (average 0.94). By applying established field-associated terms to initial determination for document classification and comparing it with filed determination by human being, we got correct answers above approximately 90$\%$. We can use results of research as fundamental research for initial stage and apply it document retrieval between multilingual environment thus utilizing it as fundamental research for multilingual information retrieval.

A Design of Efficient Automatic Indexing based on Dictionary Information (사전 정보에 기반한 효율적인 자동색인기 설계)

  • Jin, Joung-Hwan;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

A Method Of Compound Noun Phrase Indexing for Resolving Syntactic Diversity (구문 다양성 해소를 위한 복합명사구 색인 방법)

  • Cho, Min-Hee;Jeong, Do-Heon
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.3
    • /
    • pp.467-476
    • /
    • 2011
  • Compound noun phrase (CNP) is important factor for semantic information process because the meaning of the CNP is more disambiguous than that of single word. However, the CNP can be expressed in various types even though it expresses same meaning. It is called syntactic diversity. It makes information system difficult to grasp sense identity. In order to resolve the syntactic diversity in this research, we propose an indexing method for compound noun phrase. The main purpose is to make identical index term for various types of CNPs which has same meaning. To do so, the research follows next steps. For the first, we make rule template and utilize the template to extract CNPs from set of domestic research papers. In general, the CNP has a unique meaning. Considering the characteristic, we suggest synthesis rules of index terms and apply the rule to CNPs extracted in previous step. For the objective performance evaluation of the research, a test set, HANTEC 2.0, was utilized and the result was compared to baseline model. Through the experiment and the evaluation, we have confirmed that the indexing method suggested in this paper could positively affect retrieval precision and improve performance of the information retrieval.

A Dynamic Comprehension Syseem with Extended Semotaction Codes (은유적 표현과 의미의 범위확장)

  • 이창인;김상하
    • Korean Journal of Cognitive Science
    • /
    • v.4 no.2
    • /
    • pp.263-278
    • /
    • 1994
  • This paper proposes a way of decoding and translating some metaphorical use in a SL(Source Language). The process of metaphorical usage should be different from that of idiomatic expressions,which can be treated as a flat structure or chunks(cf.Lee(1985)[5],Yoon & Kim(1993)[7].The representation of metaphorical usage is approached with'M'in a separate dictionary with the extened meaning of property.

A Korean Compound Noun Analysis Method for Effective Indexing (효율적인 색인어 추출을 위한 복합명사 분석 방법)

  • Jang, Dong-Hyun;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.32-35
    • /
    • 1996
  • 정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.

  • PDF

A Compound Noun Processing in the Two-level Morphological Analysis of Korean (Two-level 한국어 형태소 해석에서의 복합명사 처리)

  • 이근용;박기선;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.505-507
    • /
    • 2002
  • Two-level 형태소 해석 모델은 단어들이 결합할 때 발생하는 철자변화를 처리하는 언어 독립적인 형태소 해석 모델이다. 그러나 한국어의 경우 활용과 첨용이 자유로운 교착어에 속하며 음절단위 표현법 때문에 two-level 모델을 이용한 형태소 해석 방법보다는 언어 종속적인 형태소 해석 방법을 사용하여 왔다. 한국어 용언과 다양한 변형을 처리하기 위한 two-level 규칙이 표현되었지만, 형태소 해석에서 사용하기 위해서 필요한 복합명사 치리와 미지어 처리에 대한 적절한 방법이 아직 계시되지 않았다. 본 논문은 어절 생성 규칙을 이용한 사전 구성을 이용하여 two-level 모델에서의 한국어 복합명사의 처리에 대해서 다루고, two-level 모델에서 한국어 복합명사 처리가 가능함을 보이고자 한다.

  • PDF