• Title/Summary/Keyword: 테스트 컬렉션

Search Result 39, Processing Time 0.023 seconds

Developing a Test Collection for Korean Text Categorization (한국어 문서분류 테스트컬렉션 개발)

  • Ra, Dong-Yul;Kim, Yunsik;Shin, Hyun-Joo;Lee, Kyu-Hee;Kim, Tae-Kyu;Kang, Hyun-Kyu;Choe, Ho-Seop;Yoon, Hwa-Mook
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.435-439
    • /
    • 2007
  • Document categorization system is important in the internet age in which huge number of documents are created and need to be dealt with. By this reason a lot of research has been done in this field. For the development of the system, a supervised learning method is widely used. This approach needs a test collection as a prerequisite. For the case of English, several test collections are available which provide a lot of help for developing systems and doing research. But no public test collections have been reported and are not available in the case of Korean. To improve the situation for Korean we are undergoing the construction of a Korean test collection. In this paper the approaches being used and current stage of the collection will be described.

  • PDF

Review and Make Up of HANTEC Test Collection Relevant Information (한텍(HANTEC) 테스트 컬렉션 적합성 정보 재평가 및 보완)

  • Kang, Hyun-Kyu;Jang, Hyeong-Il;Park, Kyung-Il;Kim, Hyun-Tae;Yeom, Sung-Wook;Ra, Dong-Yeol;Choe, Ho-Sup;Yoon, Hwa-Mook
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.160-166
    • /
    • 2007
  • HANTEC 2.0 (A Korean Test Collection) is distributed for evaluation of information retrieval systems. HANTEC 2.0 is consists of 120,000 documents, 50 topics(queries) and relevant information. The relevant information is constructed by pooling methods. The relevant information is very important for evaluation of information retrieval systems. So we would like to review of the relevant information by manual method. It will be show validation of pooling method and HANTEC relevant information. We make tool for manual review of relevant information and review of that. We review of relevant information between manual relevant information and HANTEC's. We review of pooling method and HANTEC relevant information. The manual relevant information will be use evaluation of information retrieval systems.

  • PDF

Classification Protein Subcellular Locations Using n-Gram Features (단백질 서열의 n-Gram 자질을 이용한 세포내 위치 예측)

  • Kim, Jinsuk
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.12-16
    • /
    • 2007
  • The function of a protein is closely co-related with its subcellular location(s). Given a protein sequence, therefore, how to determine its subcellular location is a vitally important problem. We have developed a new prediction method for protein subcellular location(s), which is based on n-gram feature extraction and k-nearest neighbor (kNN) classification algorithm. It classifies a protein sequence to one or more subcellular compartments based on the locations of top k sequences which show the highest similarity weights against the input sequence. The similarity weight is a kind of similarity measure which is determined by comparing n-gram features between two sequences. Currently our method extract penta-grams as features of protein sequences, computes scores of the potential localization site(s) using kNN algorithm, and finally presents the locations and their associated scores. We constructed a large-scale data set of protein sequences with known subcellular locations from the SWISS-PROT database. This data set contains 51,885 entries with one or more known subcellular locations. Our method show very high prediction precision of about 93% for this data set, and compared with other method, it also showed comparable prediction improvement for a test collection used in a previous work.

  • PDF

A Development of the Test Set for Estimating the Retrieval Performance of an Automatic Indexer (자동색인기 성능시험을 위한 Test Set 개발)

  • 김성혁;서은경;이원규;김명철;김영환;김재군
    • Journal of the Korean Society for information Management
    • /
    • v.11 no.1
    • /
    • pp.81-102
    • /
    • 1994
  • Accordmg to the development of various information retneval system suitable for Korean database, many researchers have realized the need of R Test ColleAon which can be r d y used for evaluatmg a retneval system. Therefore, This study developed the TEST SET whch helps ob&vely evaluatmg the retrieval performance of an Hangul Automatic Indexer or Korean Information Retrieval System. The developed Test Set has four files such as: 1) Korean Document Set( * . all): 2) Natural Language Query Set(KTsetnq1): 3) Boolean Query Set(Ktset.bq1): 4) Query-Relevance Judgment Set ( KTsetrel) .

  • PDF

Task Review of INEX Book Search Track (INEX Book Search 트랙의 실험 고찰)

  • Park, Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.40 no.4
    • /
    • pp.199-225
    • /
    • 2009
  • The purpose of this paper is to grow more interest and to forster research in full-texts retrieval of digitized books area through the review of Book Search Track and the analysis of research methods. First, this paper introduces the INEX tracks, the registration of INEX, the task process and the participating organizations. Second, to introduce the Book Search Track of all INEX tracks, this paper provides an overview of the test collection, the tasks, the task and submission guidelines and evaluation results of the Book Search Track's. Third, through paper review of the Book Search track that was lunched in 2007 as part of the INEX initiative, this paper presents the future research subject. This study expects that the readers are attracted by INEX tracks and full-texts retrieval of digitized books in korea.

  • PDF

Construction of Test Collection for Evaluation of Scientific Relation Extraction System (과학기술분야 용어 간 관계추출 시스템의 평가를 위한 테스트컬렉션 구축)

  • Choi, Yun-Soo;Choi, Sung-Pil;Jeong, Chang-Hoo;Yoon, Hwa-Mook;You, Beom-Jong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2009.05a
    • /
    • pp.754-758
    • /
    • 2009
  • Extracting information in large-scale documents would be very useful not only for information retrieval but also for question answering and summarization. Even though relation extraction is very important area, it is difficult to develop and evaluate a machine learning based system without test collection. The study shows how to build test collection(KREC2008) for the relation extraction system. We extracted technology terms from abstracts of journals and selected several relation candidates between them using Wordnet. Judges who were well trained in evaluation process assigned a relation from candidates. The process provides the method with which even non-experts are able to build test collection easily. KREC2008 are open to the public for researchers and developers and will be utilized for development and evaluation of relation extraction system.

  • PDF

Construction of an Information Retrieval Test Collection and its Validation (정보검색 테스트 컬렉션 구축 및 유효성 평가)

  • Myaeng, Sung-Hyon;Jang, Dong-Hyun;Song, Sa-Kwang;Kim, Ji-Young;Lee, Seok-Hoon;Lee, Joon-Ho;Lee, Eung-Bong;Seo, Jeong-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.20-27
    • /
    • 1999
  • 본 논문은 정보검색 시스템 평가에 필요한 한국어 문서집합 구축과 적합 문서리스트(relevance file) 생성에 관한 기법을 문서 수집과정부터 평가작업까지 상세히 기술한다. 문서집합은 일반, 사회과학, 과학기술 분야에서 각각 4만 건으로 영역별로 균등히 구축하였으며, 질의 집합도 각 분야에 대해 10개씩 할당하여 총 30개의 질의 집합을 생성하였다. 또한 질의집합은 사용자의 수준을 고려하여 일반인, 영역 전문가, 중고등학생에 해당하는 질의를 생성함으로써 특정 영역, 특정 사용자에 독립적인 문서집합 및 질의집합을 구축하고자 하였다. 생성된 질의를 사용하여 여러 검색기에서 총 38가지의 방법으로 검색을 실시하였으며, 검색결과를 바탕으로 각 질의당 500개의 문서로 이루어진 후보 결과집합을 만든 후 이들을 대상으로 각 질의에 대한 문서의 적합성 평가를 실시하였다. 이 과정을 통해 생성된 적합문서 집합의 유효성을 보이기 위해 후보 문서 리스트 이외의 문서집합에서 적합문서가 존재할 가능성을 확인하였는데 그 방법으로 후보 리스트의 개수 증가에 따른 적합문서 개수의 변동 추세를 알아보았다. 현재 질의 개수를 50개로 확장하는 방향으로 테스트 컬렉션 구축에 대한 연구를 진행 중에 있으며, 일본 NACSIS와의 질의 교환을 통해 질의 개수를 확장할 뿐만 아니라 일본어 질의 또는 한국어 질의에 대해서 한국어 문서, 일본어 문서를 각각 검색할 수 있는 한일 교차언어 문서검색 환경을 구축하고 있다.

  • PDF

Evaluation of the documents from the Web-based Question and Answer Service (지식 검색 서비스 개선을 위한 문서의 적합도 및 신뢰도 분석)

  • Park So-Yeon;Lee Joon-Ho;Jeon Ji-Woon
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.40 no.2
    • /
    • pp.299-314
    • /
    • 2006
  • This study suggests evaluation criteria for the web-based question-answer databases provided by major Korean search portals. In particular, this study suggests evaluation criteria for the relevance of question titles, entire questions, and answer's. The evaluation criteria for the qualify of answers are also developed. Based on these criteria. evaluation of documents from Naver Knowledge-in are performed. The results of this study can be implemented to the development of test collection of question-answer databases. The implications for system designers and web content providers are discussed.

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Answer Extraction based on Named Entity in Korean Question Answering System (한국어 질의응답시스템에서 개체인식에 기반하여 대답 추출)

  • 이경순;김재호;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.184-189
    • /
    • 2000
  • 본 논문에서는 한국어 질의응답시스템에서 개체인식에 기반하여 대답을 추출하는 방법을 제안한다. 질의에 대한 문서검색을 통해 검색된 상위 문서를 대상으로 하여 대답이 들어 있을 가능성이 높은 단락을 추출한다. 질의 유형 분석을 통해 대답 유형을 파악한다. 단락에 나타나는 어휘들에 대해서 대답유형에 속하는지에 대한 개체인식을 통해서 대답을 추출한다. 질의응답 시스템의 평가를 위한 테스트컬렉션을 이용한 성능평가에서는 순위 5위까지의 대답추출에서 역순위 평균값이 개체추출에 대해서는 0.322, 50바이트 대답추출에서는 0.449, 250바이트 대답추출에서는 0.559이다. 상위 5이내에 정답을 포함할 비율은 개체추출에서는 48.90%, 50바이트 대답추출에서는 62.20%, 250바이트 대답추출에서는 68.90%을 성능을 보였다.

  • PDF