• Title/Summary/Keyword: 분야연상어

Search Result 21, Processing Time 0.022 seconds

Automatic Dictionary Construction of Indonesian Field-Associated Terms by Using Korean Associated Knowledge (한국어의 분야 연상 지식의 추출 방법에 관한 연구)

  • Lee, Sang-Gon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.205-210
    • /
    • 2016
  • 인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체는 물론 부분 텍스트(단락)에 출현하는 소수의 단어 정보에서 문서의 분야를 정확히 결정하기 위한 분야연상어의 구축은 중요한 연구과제이다. 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집 문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준을 정하였다. 인도네시아어의 분야연상어 사전을 자동으로 구축하기 위해 먼저 한국어로 구축한 분야 연상 지식을 추출하는 방법을 제안한다.

  • PDF

Automatic Dictionary Construction of Indonesian Field-Associated Terms by Using Korean Associated Knowledge (한국어의 분야 연상 지식의 추출 방법에 관한 연구)

  • Lee, Sang-Gon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.205-210
    • /
    • 2016
  • 인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체는 물론 부분 텍스트(단락)에 출현하는 소수의 단어 정보에서 문서의 분야를 정확히 결정하기 위한 분야연상어의 구축은 중요한 연구과제이다. 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집 문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준을 정하였다. 인도네시아어의 분야연상어 사전을 자동으로 구축하기 위해 먼저 한국어로 구축한 분야 연상 지식을 추출하는 방법을 제안한다.

  • PDF

Extraction Algorithm of Field-Associated Terms for Korean Document Classification (한글문서 분류용 분야연상어의 추출 알고리즘)

  • 김숙영;최창원;이상곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF

Collection and Extraction Algorithm of Field-Associated Terms (분야연상어의 수집과 추출 알고리즘)

  • Lee, Sang-Kon;Lee, Wan-Kwon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.3
    • /
    • pp.347-358
    • /
    • 2003
  • VSField-associated term is a single or compound word whose terms occur in any document, and which makes it possible to recognize a field of text by using common knowledge of human. For example, human recognizes the field of document such as or , a field name of text, when she encounters a word 'Pitcher' or 'election', respectively We Proposes an efficient construction method of field-associated terms (FTs) for specializing field to decide a field of text. We could fix document classification scheme from well-classified document database or corpus. Considering focus field we discuss levels and stability ranks of field-associated terms. To construct a balanced FT collection, we construct a single FTs. From the collections we could automatically construct FT's levels, and stability ranks. We propose a new extraction algorithms of FT's for document classification by using FT's concentration rate, its occurrence frequencies.

Extraction of Field-Associated Term for the Purpose of Document Classification (문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법)

  • Choi, Hyun;Hwang, Nam-Seon;Lee, Samuel Sangkon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.892-894
    • /
    • 2004
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.

  • PDF

Design and Implementation for Extraction of Field-Associationed Terms (분야연상어 추출 방법의 설계 및 구현)

  • Lee, Won-Hee;Choi, Hyun;Lee, Samuel Sangkon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.651-654
    • /
    • 2004
  • 우리는 특정 문서를 읽을 때 문서 전체를 읽지 않더라도 대표적인 몇 개의 단어를 보는 것만으로 정치나 경제, 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체를 대상으로 하지 않고 부분텍스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집문서의 분야를 정확히 지시하는 분야연상어를 자동으로 수집하는 시스템을 설계하고 구현하는데 목적이 있다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준, 안정성 랭크, 집중률, 빈도정보를 이용하여 단일 분야연상어를 수집하는 방법을 제안하고 구현한다.

  • PDF

A Passage Retrieval Method by Using Field-Associated Information (연상정보를 이용한 단락분할 방법)

  • Hong, Sung-Og;Lee, Samuel Sang-Kon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.497-500
    • /
    • 2003
  • 문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

  • PDF

Design and Implementation of Graphical Field Recognizer (그래픽컬한 분야인식기의 설계 및 구현)

  • 이원휘;김도연;이상곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.769-771
    • /
    • 2004
  • 사람은 문서를 읽을때 문서 전체를 읽지 않더라도 대표적인 단어를 보는 것만으로 정치, 경제, 교육, 스포츠 등의 분야를 정확히 인지한다. 이러한 단어를 분야연상어로 정의하고, 빈도수 조사를 통해 전자사전에 자동으로 구축한다. 이러한 분야연상 어는 문서의 초기인식 시 어느 분야인지 분명하지 않거나 애매한 경우에도 문서를 읽어가면서 분야를 인지할 수 있도록 도와준다. 본 논문에서는 이러한 특성을 가지고 있는 분야연상어를 이용하여 시스템에 새로운 문서가 주어질 때 해당 문서의 분야정보를 추출하고 분야연상어의 분포정보를 인간에게 그래픽컬 하게 보여줄 수 있도록 분야인식기를 설계하고 구현한다.

  • PDF

Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term (분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법)

  • Lee, Sang-Kon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.57-66
    • /
    • 2003
  • We propose a technique to extract a relevant passage from text collection based on field-associated terms since they tries to concentrate relevant text to users query. Documents are supposed to be managed as a whole without any segmentation into small pieces, but the method presented is independent upon any text-embedded auxiliary information, and is based on topic continuity and transition. For users needs-relative sentences or passages, we present a passage retrieval techniques by using occurrence frequency of a field-associated term to delimit text, that is likely to be relevant to a particular topic, considering continuity and transition within topic flowing in text. We evaluate 50 Japanese documents and verify the usefulness with 82% for average precision and 63% for recall.

An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications (한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법)

  • Lee, Samuel Sang-kon
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.7
    • /
    • pp.636-649
    • /
    • 2005
  • Field-associated Terms itself have field Information. So, they determine field of document just like when human being perceives field. In case of Korean, we organized and experimented them by collecting approximately IS,999 document banks that are classified into 180 fields. We obtained high precision of extraction that 88,782 single field-associated terms are contracted into 8,405 ones thus recording compression rate as approximately 9$\%$ and recall as above 0.77 (average 0.85), precision as above 0.90 (average 0.94). By applying established field-associated terms to initial determination for document classification and comparing it with filed determination by human being, we got correct answers above approximately 90$\%$. We can use results of research as fundamental research for initial stage and apply it document retrieval between multilingual environment thus utilizing it as fundamental research for multilingual information retrieval.