• Title/Summary/Keyword: 테스트 컬렉션

Search Result 39, Processing Time 0.028 seconds

Answer Extraction based on Named Entity in Korean Question Answering System (한국어 질의응답시스템에서 개체인식에 기반한 대답 추출)

  • Lee, Kyung-Soon;Kim, Jae-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.184-189
    • /
    • 2000
  • 본 논문에서는 한국어 질의응답시스템에서 개체인식에 기반하여 대답을 추출하는 방법을 제안한다. 질의에 대해 문서검색을 통해 검색된 상위 문서를 대상으로 하여 대답이 들어 있을 가능성이 높은 단락을 추출한다. 질의 유형 분석을 통해 대답 유형을 파악한다 단락에 나타나는 어휘들에 대해서 대답유형에 속하는지에 대한 개체인식을 통해서 대답을 추출한다. 질의응답 시스템의 평가를 위한 테스트컬렉션을 이용한 성능평가에서는 순위5까지의 대답추출에서 역순위 평균값이 개체추출에 대해서는 0.322, 50바이트 대답추출에서는 0.449, 250바이트 대답추출에서는 0.559이다. 상위 5이내에 정답을 포함할 비율은 개체추출에서는48.90%, 50바이트 대답추출에서는 62.20%, 250바이트 대답추출에서는 68.90%을 성능을 보였다.

  • PDF

Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support (의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Measuring memory leak in real applications (실제 응용프로그램들의 메모리 릭 측정)

  • Choi, Jin-Sun;Lee, In-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.272-275
    • /
    • 2006
  • C/C++언어로 구현된 응용프로그램들은 언어적인 특성으로 메모리 릭에 취약하다고 알려져왔다. 이에 이러한 언어적인 약점을 보완하기위해 가비지 컬렉션 등과 같은 기술이 연구/발표되어왔다. 그러나 릭이 실제 응용프로그램 사이에서 얼마나 발생이 되고 있으며 얼마나 심각한지 발표된 자료는 찾을 수 없었다. 제안된 보완기술들 조차 실제 응용프로그램을 적용하여 테스트한 사례는 찾을 수 없었다. 따라서, 본 논문에서는 실제 응용 프로그램을 선정하여 메모리 릭의 발생 정도를 측정하고, 발생 원인은 무엇이고 C/C++ 언어간의 릭 발생 특징은 존재하는지 조사해 보고자 한다. 또한 Valgrind 툴을 이용하면서 발견된 문제점을 토론함으로써 향후 더 우수한 동적 메모리 디버깅 툴을 개발하는데 기여하고자 한다.

  • PDF

Query Expansion Based on Word Graph Using Core Query Clusters (핵심질의 클러스터를 이용한 어휘 그래프 기반 질의 확장)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.430-432
    • /
    • 2011
  • 본 논문에서는 질의 조합을 기반한 핵심질의 클러스터와 비핵심질의 클러스터를 각각 어휘 그래프로 표현한다. 이 때, 핵심질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 핵심질의 클러스터의 어휘 그래프에서 비핵심질의 클러스터의 어휘 그래프를 빼서 확장어휘를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 테스트컬렉션인 TREC WT10g 에 대해 실험하였고, 언어모델보다 평균정확률의 평균(MAP)이 9.4% 향상되었다.

Automatic Text Categorization Using Passage-based Weight Function and Passage Type (문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화)

  • Joo, Won-Kyun;Kim, Jin-Suk;Choi, Ki-Seok
    • The KIPS Transactions:PartB
    • /
    • v.12B no.6 s.102
    • /
    • pp.703-714
    • /
    • 2005
  • Researches in text categorization have been confined to whole-document-level classification, probably due to lacks of full-text test collections. However, full-length documents availably today in large quantities pose renewed interests in text classification. A document is usually written in an organized structure to present its main topic(s). This structure can be expressed as a sequence of sub-topic text blocks, or passages. In order to reflect the sub-topic structure of a document, we propose a new passage-level or passage-based text categorization model, which segments a test document into several Passages, assigns categories to each passage, and merges passage categories to document categories. Compared with traditional document-level categorization, two additional steps, passage splitting and category merging, are required in this model. By using four subsets of Routers text categorization test collection and a full-text test collection of which documents are varying from tens of kilobytes to hundreds, we evaluated the proposed model, especially the effectiveness of various passage types and the importance of passage location in category merging. Our results show simple windows are best for all test collections tested in these experiments. We also found that passages have different degrees of contribution to main topic(s), depending on their location in the test document.

A Study on Implementation of Printed Character Recognition System And Performance Evaluation (인쇄체 문자 인식기의 성능 평가에 관한 연구)

  • Kim, Min-Soo;Kang, Eun-Young;Kim, Eun-Young;Han, Sun-Hwa;Kim, Jin-Hyung
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.11
    • /
    • pp.3584-3591
    • /
    • 2000
  • In this paper we propose measure for performance evaluationof character recognition, We used three commercial character recognizers and one laboratory character recognizer for test. The characteristics of each recognizer is compared by proposed evaluation standrd, and analyzed characteristrics For the input test data, KT test collection are used. KT test collection is composed of 1000 document images about and complete source text. In this paper we propose method for measuring recognition rage in character unit for evaluation of character recogrition, The recogrition rates are compared and analyzed by single feature characteristic or mixed feature characteristic.

  • PDF

Query Expansion based on Word Graph using Term Proximity (질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장)

  • Jang, Kye-Hun;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.37-42
    • /
    • 2012
  • The pseudo relevance feedback suggests that frequent words at the top documents are related to initial query. However, the main drawback associated with the term frequency method is the fact that it relies on feature independence, and disregards any dependencies that may exist between words in the text. In this paper, we propose query expansion based on word graph using term proximity. It supplements term frequency method. On TREC WT10g test collection, experimental results in MAP(Mean Average Precision) show that the proposed method achieved 6.4% improvement over language model.

Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model (확률적 정보 검색 모델에서의 유사 적합성 피드백 실험)

  • Cho, Bong-Hyun;Lee, Chang-Kee;An, Joo-Hui;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure (술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Chun, Hong-Woo;Hong, Soon-Chan;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.

A BM25 based Passage Retrieval System for Developing an Efficient Question and Answering System (효율적인 질의응답시스템 개발을 위한 BM25기반의 단락 검색 시스템)

  • Lim, Heui Seok;Lee, Yong Shin;Rim, Hae Chang
    • The Journal of Korean Association of Computer Education
    • /
    • v.6 no.4
    • /
    • pp.23-30
    • /
    • 2003
  • This paper proposes a passage retrieval system based on Okapi's BM25 for developing an efficient QA system and evaluates performances of the passage retrieval system. The test collection of TREC Q&A track which is composed of about one million documents was indexed and a hundred queries of TREC Q&A track are used as testing queries. The experimental results shows that the proposed passage retrieval system can reach to 100% recall rate by searching in only 1700 sentences while the conventional document retrieval system have to search about 120 thousands sentences which are about 70 times more than the proposed passage retrieval system.

  • PDF