• 제목/요약/키워드: KRISTAL-IRMS

검색결과 2건 처리시간 0.015초

HKIB-20000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research

  • Kim, Jin-Suk;Choe, Ho-Seop;You, Beom-Jong;Seo, Jeong-Hyun;Lee, Suk-Hoon;Ra, Dong-Yul
    • Journal of Computing Science and Engineering
    • /
    • 제3권3호
    • /
    • pp.165-180
    • /
    • 2009
  • The HKIB, or Hankookilbo, test collections are two archives of Korean newswire stories manually categorized with semi-hierarchical or hierarchical category taxonomies. The base newswire stories were made available by the Hankook Ilbo (The Korea Daily) for research purposes. At first, Chungnam National University and KISTI collaborated to manually tag 40,075 news stories with categories by semi-hierarchical and balanced three-level classification scheme, where each news story has only one level-3 category (single-labeling). We refer to this original data set as HKIB-40075 test collection. And then Yonsei University and KISTI collaborated to select 20,000 newswire stories from the HKIB-40075 test collection, to rearrange the classification scheme to be fully hierarchical but unbalanced, and to assign one or more categories to each news story (multi-labeling). We refer to this modified data set as HKIB-20000 test collection. We benchmark a k-NN categorization algorithm both on HKIB-20000 and on HKIB-40075, illustrating properties of the collections, providing baseline results for future studies, and suggesting new directions for further research on Korean text categorization problem.

분산 저장된 과학기술정보 서비스를 위한 검색 데이터베이스 관리 도구의 설계 및 개발 (Development of the Management Tool for S&T information in distributed retrieval database)

  • 이석형;윤희준;여일연;최성필;윤화묵
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.677-681
    • /
    • 2006
  • 본 논문에서는 과학기술정보의 관리에 필요한 여러 기능을 포함하는 GUI 기반의 검색 데이터베이스 관리 도구(K-Manager)를 제안한다. 일반적으로, 웹 기반의 과학기술정보 서비스를 위해서는 검색 데이터베이스의 구성이 필수적이나, 검색 데이터베이스의 관리 기능이 관계형 데이터베이스와 같은 기능을 모두 지원하지 않을 뿐 만 아니라 TOAD나 GOLDEN과 같은 데이터베이스 관리 도구를 지원하지 않기 때문에, 콘텐츠 관리자나 시스템 관리자가 손쉽게 정보를 처리하기가 어려운 실정이다. 이 도구에는 과학기술정보를 관리하는 콘텐츠 관리자가 필요한 기능과 검색 데이터베이스를 관리하는 시스템 관리자가 필요한 기능이 GUI 기반으로 통합 구성되어 있어 콘텐츠 관리자가 원하는 데이터베이스에 접근하여 각종 데이터 작업을 수행할 수 있고, 데이터베이스 관리자가 데이터베이스의 관리도 수행할 수 있다. 특히 K-Manager는 대용량 과학기술정보의 빠르고 정확한 검색 서비스와 안정적인 관리를 위해 구성된, 분산 검색 데이터베이스에 저장된 정보를 처리하는데 효과적이다. 본 관리 도구는 크게 콘텐츠 관리기와 데이터베이스 관리기로 그 기능을 분류할 수 있으며, 국내 최대 과학기술 포털사이트인 Yeskisti의 콘텐츠 및 데이터베이스 관리를 그 기본 모델로 하였다.

  • PDF