• 제목/요약/키워드: 복합 분야연상어

검색결과 2건 처리시간 0.02초

문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법 (Extraction of Field-Associated Term for the Purpose of Document Classification)

  • 최현;황남선;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.892-894
    • /
    • 2004
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.

  • PDF

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.