• 제목/요약/키워드: Hangul test collections

검색결과 3건 처리시간 0.017초

정보 검색 연구를 위한 KRIST 테스트 컬렉션의 개발 (Developing the KRIST Test Collection for Researches in Information Retrieval)

  • 이준호
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.225-232
    • /
    • 1995
  • 정보검색에 대한 연구를 위해 테스트 컬렉션은 필수적인 요소로 인식되어 왔다. 외국의 경우, 다양한 테스트 컬렉션들이 개발되어 정보 검색에 대한 연구에 이용되어 왔다. 그러나 국내의 경우, 최근에 한글 정보 검색에 대한 관심이 확산되었음에도 불구하고 정보 검색용 테스트 컬렉션에 대한 부족으로 인하여 한글 정보 검색에 대한 연구에 어려움을 겪고 있다. 본 연구에서는 연구개발정보센터 소유의 KRIST 데이타베이스를 기반으로 하여 개발된 KRIST 테스트 컬렉션에 대하여 기술한다. KRIST 테스트 컬렉션은 과기처 연구보고서에 대한 서지 레코드 13, 515건과 30개의 자연어 질의 그리고 각 질의에 대한 적합 문헌리스트로 구성된다.

  • PDF

HKIB-20000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research

  • Kim, Jin-Suk;Choe, Ho-Seop;You, Beom-Jong;Seo, Jeong-Hyun;Lee, Suk-Hoon;Ra, Dong-Yul
    • Journal of Computing Science and Engineering
    • /
    • 제3권3호
    • /
    • pp.165-180
    • /
    • 2009
  • The HKIB, or Hankookilbo, test collections are two archives of Korean newswire stories manually categorized with semi-hierarchical or hierarchical category taxonomies. The base newswire stories were made available by the Hankook Ilbo (The Korea Daily) for research purposes. At first, Chungnam National University and KISTI collaborated to manually tag 40,075 news stories with categories by semi-hierarchical and balanced three-level classification scheme, where each news story has only one level-3 category (single-labeling). We refer to this original data set as HKIB-40075 test collection. And then Yonsei University and KISTI collaborated to select 20,000 newswire stories from the HKIB-40075 test collection, to rearrange the classification scheme to be fully hierarchical but unbalanced, and to assign one or more categories to each news story (multi-labeling). We refer to this modified data set as HKIB-20000 test collection. We benchmark a k-NN categorization algorithm both on HKIB-20000 and on HKIB-40075, illustrating properties of the collections, providing baseline results for future studies, and suggesting new directions for further research on Korean text categorization problem.

정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축 (Construction of a Balanced Test Collection for Evaluation of Information Retrieval System)

  • 맹성현;이석훈;이준호;이응봉;송사광
    • 정보관리학회지
    • /
    • 제16권2호
    • /
    • pp.135-148
    • /
    • 1999
  • 검색 시스템들의 평가를 위해 국내에서도 테스트 컬렉션에 관한 여러 연구가 진행되어왔다. 그러나 그 규모나 대상 분야가 편중되어 있고 질의 및 문헌 특성의 균형 등에 대한 고려가 반영되어 있지 않아 평가 결과를 객관화하기는 사실상 어려운 실정이다. 본 논문에서는 분야별, 사용자별 균형을 고려한 대규모 테스트 컬렉션인 HANTEC에 대해 기술한다. HANTEC 테스트 컬렉션은 총 12만 건의 문헌집합으로 구성되었는데 일반, 사회과학, 과학기술 각 분야별 4만 건씩으로 특정 분야에 편중되지 않도록 하였고 질의집합도 각 분야별 10개씩 30개로 구성하였다.

  • PDF