• 제목/요약/키워드: 분야연상어

검색결과 21건 처리시간 0.028초

한국어의 분야 연상 지식의 추출 방법에 관한 연구 (Automatic Dictionary Construction of Indonesian Field-Associated Terms by Using Korean Associated Knowledge)

  • 이상곤
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.205-210
    • /
    • 2016
  • 인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체는 물론 부분 텍스트(단락)에 출현하는 소수의 단어 정보에서 문서의 분야를 정확히 결정하기 위한 분야연상어의 구축은 중요한 연구과제이다. 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집 문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준을 정하였다. 인도네시아어의 분야연상어 사전을 자동으로 구축하기 위해 먼저 한국어로 구축한 분야 연상 지식을 추출하는 방법을 제안한다.

  • PDF

한국어의 분야 연상 지식의 추출 방법에 관한 연구 (Automatic Dictionary Construction of Indonesian Field-Associated Terms by Using Korean Associated Knowledge)

  • 이상곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-210
    • /
    • 2016
  • 인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체는 물론 부분 텍스트(단락)에 출현하는 소수의 단어 정보에서 문서의 분야를 정확히 결정하기 위한 분야연상어의 구축은 중요한 연구과제이다. 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집 문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준을 정하였다. 인도네시아어의 분야연상어 사전을 자동으로 구축하기 위해 먼저 한국어로 구축한 분야 연상 지식을 추출하는 방법을 제안한다.

  • PDF

한글문서 분류용 분야연상어의 추출 알고리즘 (Extraction Algorithm of Field-Associated Terms for Korean Document Classification)

  • 김숙영;최창원;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF

분야연상어의 수집과 추출 알고리즘 (Collection and Extraction Algorithm of Field-Associated Terms)

  • 이상곤;이완권
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.347-358
    • /
    • 2003
  • 인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분텍스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준과 안정성 랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성 랭크, 집중률, 빈도정보를 이용하여 단일 분야연상어를 수집하는 방법을 제안한다.

문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법 (Extraction of Field-Associated Term for the Purpose of Document Classification)

  • 최현;황남선;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.892-894
    • /
    • 2004
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.

  • PDF

분야연상어 추출 방법의 설계 및 구현 (Design and Implementation for Extraction of Field-Associationed Terms)

  • 이원휘;최현;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.651-654
    • /
    • 2004
  • 우리는 특정 문서를 읽을 때 문서 전체를 읽지 않더라도 대표적인 몇 개의 단어를 보는 것만으로 정치나 경제, 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체를 대상으로 하지 않고 부분텍스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집문서의 분야를 정확히 지시하는 분야연상어를 자동으로 수집하는 시스템을 설계하고 구현하는데 목적이 있다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준, 안정성 랭크, 집중률, 빈도정보를 이용하여 단일 분야연상어를 수집하는 방법을 제안하고 구현한다.

  • PDF

연상정보를 이용한 단락분할 방법 (A Passage Retrieval Method by Using Field-Associated Information)

  • 홍성옥;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.497-500
    • /
    • 2003
  • 문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

  • PDF

그래픽컬한 분야인식기의 설계 및 구현 (Design and Implementation of Graphical Field Recognizer)

  • 이원휘;김도연;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.769-771
    • /
    • 2004
  • 사람은 문서를 읽을때 문서 전체를 읽지 않더라도 대표적인 단어를 보는 것만으로 정치, 경제, 교육, 스포츠 등의 분야를 정확히 인지한다. 이러한 단어를 분야연상어로 정의하고, 빈도수 조사를 통해 전자사전에 자동으로 구축한다. 이러한 분야연상 어는 문서의 초기인식 시 어느 분야인지 분명하지 않거나 애매한 경우에도 문서를 읽어가면서 분야를 인지할 수 있도록 도와준다. 본 논문에서는 이러한 특성을 가지고 있는 분야연상어를 이용하여 시스템에 새로운 문서가 주어질 때 해당 문서의 분야정보를 추출하고 분야연상어의 분포정보를 인간에게 그래픽컬 하게 보여줄 수 있도록 분야인식기를 설계하고 구현한다.

  • PDF

분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법 (Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 기술을 단락분할이라 한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야에서 중요한 역할을 담당할 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어란 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야별로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 일본어 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있었고, 한국어에 적용하여도 좋을 것으로 예상한다.

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.