• 제목/요약/키워드: Word-proximity Search

검색결과 4건 처리시간 0.019초

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템 (Question and Answering System through Search Result Summarization of Q&A Documents)

  • 유동현;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권4호
    • /
    • pp.149-154
    • /
    • 2014
  • 지식iN과 같은 사용자 참여 질의응답 커뮤니티에서 원하는 질문에 대한 답을 찾기 위해서는 검색 결과로 제공되는 다양한 문서를 일일이 확인하여 판단하는 과정이 필요하다. 만일 사용자가 원하는 답변을 자동으로 정제하여 제시할 수 있다면, 질의응답의 사용성이 크게 향상될 수 있다. 본 논문에서는 질의응답 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 문서 내 통계적 특성을 활용하여 각 분류별 답변을 자동으로 제시하기 위한 방식을 제안한다. 단어, 목록, 글 유형은 질의어에 대해 검색된 질문을 군집화하고, 군집 내 빈도와 질의어에 대한 근접도, 답변 신뢰도 등으로 계산된 답변 내 어휘의 적합도를 활용하여 요약한 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로 제시한다.

직업교육 데이터베이스 VOCED의 검색기법 연구 (A Study on Information Retrieval Techniques of VOCED Database)

  • 김순원
    • 정보관리연구
    • /
    • 제27권1호
    • /
    • pp.40-65
    • /
    • 1996
  • 본고에서는 VOCED 데이터베이스의 정보검색기법을 살펴보았다. VOCED 데이터베이스를 직업 교육 및 훈련, 그러고 성인교육분야와 관련된 국제적인 정보를 수록하고 있다. VOCED는 CDS/ISIS 소프트웨어를 통해 구축되었으며, 레코드는 APSDEP 시소러스를 사용하여 색인되었다. VOCED 데이터베이스의 정보검색시에는 여러가지 검색기법들을 사용할 수 있다. 다수용어, 구문, 불리안 논리, 용어절단, 제한탐색 및 인접탐색기법 등을 통해 원하는 정보에 신속히 접근할 수 있다.

  • PDF

질의응답시스템에서 정답 특징에 관한 실험적 분석 (Experimental Analysis of Correct Answer Characteristics in Question Answering Systems)

  • 한경수
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권5호
    • /
    • pp.927-933
    • /
    • 2018
  • 자연어 질문에 대해 답변을 찾아 제공하는 질의응답시스템의 오류에 가장 큰 영향을 미치는 요소 중 하나가 질문으로 정답을 포함하고 있을 만한 문서나 단락을 검색하는 단계이다. 검색의 성능 향상을 위해서는 정답 포함 문서 및 단락의 특징을 잘 이해해야 한다. 본 논문은 질문, 정답 포함 문서, 정답 미포함 문서로 구성된 말뭉치를 사용하여 정답 문서에는 질문 단어가 얼마나 많이 출현하는지, 출현 위치는 어떻게 분포하는지, 질문과 정답 문서의 주제는 얼마나 유사한지 등을 실험적으로 분석한다. 이를 통해 질의응답시스템을 위한 기존의 검색 연구 결과들에 대한 원인을 설명하고 효과적인 검색 단계의 필요 요소에 관해 논의한다.