한텍(HANTEC) 테스트 컬렉션 적합성 정보 재평가 및 보완

Review and Make Up of HANTEC Test Collection Relevant Information

  • 발행 : 2007.11.16

초록

정보검색 시스템 평가를 위한 한글 테스트 컬렉션인 한텍(HANTEC) 테스트 컬렉션 2.0이 배포되었다. 한텍 2.0은 12만건의 문서 집합과 50개의 질의 집합, 그리고 각 질의에 대한 적합성 정보로 구성되어 있다. 테스트 컬렉션에서 중요한 부분 중의 하나인 적합성 정보가 한텍에서는 풀링(pooling) 방법으로 구축되었다. 보다 더 정확한 정보검색 시스템의 평가를 위해서는 무엇보다도 정확한 적합성 정보가 중요하다. 따라서 현재 구축된 12만건 중 2만건을 대상으로 풀링방법이 아닌 수동방법으로 적합성 정보를 재평가함으로서 풀링방법의 유용성과 현재 배포된 한텍 테스트 컬렉션의 정보검색 평가용으로서의 유용성 여부를 확인 하고자 한다. 수동 적합성 정보판정를 위한 도구를 만들었으며 적합성 판정 기준을 정하여 적합성을 판정하였다. 한텍과의 적합성 정보 비교 평가를 함으로서 풀링방법 및 현재 배포된 한텍 적합성 정보의 유용성을 비교 확인 하였다. 앞으로 2만 데이터에 대한 수동 적합성 판정 결과를 이용한 정보검색 시스템 신뢰도 측정에도 사용될 수 있을 것이다.

HANTEC 2.0 (A Korean Test Collection) is distributed for evaluation of information retrieval systems. HANTEC 2.0 is consists of 120,000 documents, 50 topics(queries) and relevant information. The relevant information is constructed by pooling methods. The relevant information is very important for evaluation of information retrieval systems. So we would like to review of the relevant information by manual method. It will be show validation of pooling method and HANTEC relevant information. We make tool for manual review of relevant information and review of that. We review of relevant information between manual relevant information and HANTEC's. We review of pooling method and HANTEC relevant information. The manual relevant information will be use evaluation of information retrieval systems.

키워드