• Title/Summary/Keyword: 단어 검색

Search Result 559, Processing Time 0.025 seconds

Re-ranking for Search result using association relationship and TF*IDF (연관 관계와 TF*IDF를 이용한 검색 결과 Re-Ranking)

  • Lee, Jung-Hun;Cheon, Suh-H.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.349-352
    • /
    • 2010
  • 질의를 이용한 정보 검색 기술에서 단어 의미의 모호성에 의해 사용자가 검색 하고자 하는 주제 이외의 문서 까지 검색되고 있다. 이러한 문제는 모바일기기의 검색 환경에서 두드러진다. 모바일에서의 검색은 문서의 로딩속도가 느리며 작은 화면에 의해 스크롤이 잦다. 그러므로 원하는 검색 결과가 검색 첫 페이지 이외에 위치하거나, 또는 페이지 하단에 위치할 경우 검색 결과를 확인하는 대에 많은 시간과 노력이 필요하다. 이러한 문제를 해결하기위해선 단어 의미의 모호성을 해결하고 사용자가 검색하고자하는 주제의 검색결과를 검색 상위에 위치시킬 수 있는 방법을 필요로 한다. 이 연구에서는 연관 단어 추출과 TF*IDF를 이용하여, 검색결과를 re-ranking하는 방법을 제시한다.

  • PDF

An Electronic Dictionary Structure supporting Truncation Search (절단검색을 지원하는 전자사전 구조)

  • 김철수
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.9 no.1
    • /
    • pp.60-69
    • /
    • 2003
  • In an Information Retrieval System(IRS) based on an inverted file as a file structure it is possible to retrieve related documents when the searcher know the complete words of searching fields. however, there are many cases in which the searcher may not know the complete words but a partial string of words with which to search. In this case, if the searcher can search indexes that include the known partial string, it is possible to retrieve related documents. Futhermore, when the retrieved documents are few, we need a method to find all documents having indexes which include known the partial string. To satisfy these requests, the searcher should be able to construct a query formulation that uses the term truncation method. Also the IRS should have an electronic dictionary that can support a truncated search term. This paper designs and implements an electronic dictionary(ED) structure to support a truncation search efficiently. The ED guarantees very fast and constant searching time for searching a term entry and the inversely alphabetized entry of it, regardless of the number of inserted words. In order to support a truncation search efficiently, we use the Trie structure and in order to accommodate fast searching time we use a method using array. In the searching process of a truncated term, we can reduce the searching time by minimizing the length of string to be expanded.

An Information Retrieval System for IT Terminologies Using a Main Memory DBMS (메인 메모리 DBMS를 이용한 정보기술 전문용어 검색 시스템)

  • 강옥선;경원현;조완섭
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.311-322
    • /
    • 2001
  • 대부분의 일반 정보 검색 시스템은 색인어를 통해 이루어지는데 이런 경우 사용자는 원하는 정보를 얻기 위해 데이터베이스에 저장된 색인어를 정확하게 입력해야 한다. 그러나 일반 사용자가 필요한 색인어를 정확하게 입력하기는 어렵고 특히 원하는 정보가 전문분야의 것일 때는 더욱 그러하다. 따라서 특정 분야의 용어들을 중심으로 전문용어를 관리할 수 있는 시스템의 개발이 요구되고 있다. 정보기술 분야도 빠르게 성장하고 있는 전문분야의 하나로 사용되는 대부분의 단어가 영어이고 한글 표기 또한 다양하여 많은 사용자들이 원하는 정보를 정확하게 찾지 못하고 있다. 이렇듯 단어간의 형태적인 불일치로 인해 생기는 정보 검색의 문제를 해결하고 검색어의 범위를 확장하기 위해 만든 것이 전문용어 검색 시스템이다. 정보 검색시 사용자가 입력한 검색어뿐만 아니라 동의어나 상위어, 하위어까지 검색하여 질의를 확장함으로써 검색 효율을 높일 수 있다. 또한 객체-관계형 데이터베이스로 설계하여 검색이 용이하고, 새로운 단어의 확장이 용이하도록 그 구조를 설계하였다. 제안한 시스템은 메인 메모리 DBMS 를 이용하여 전자상거래와 같이 많은 사용자들이 동시에 접근하는 환경에서도 빠른 검색 성능을 유지할 수 있도록 하였다.

  • PDF

A Two-Pass Algorithm for Fast Retrieval of Korean Words (한글 단어의 고속 검색을 위한 두 단계 알고리즘)

  • 양진호;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.439-441
    • /
    • 2001
  • 대용량 한글 문서를 대상으로 하는 검색 시스템은 고속의 단어 매칭 알고리즘을 필요로 한다. 이 논문은 두 단계 매칭 접근 방법을 제시하고 그 유용성을 실험을 통해 입증한다. 특징으로는 웨이브렛(wavelet) 계수를 사용하여 첫 단계에서는 적은 수의 특징만을 사용하여, 거친 정합(coarse matching)을 하며 두 번째 단계에서는 미세한 정합(fine matching)을 한다. 거친 정합은 가능성이 없는 단어를 아주 빠른 속도로 걸러내는 역할을 한다. 실제 한글 단어 영상 데이터베이스에 적용한 실험 결과 검색률의 희생 없이 약 7배의 속도 향상을 얻었다.

  • PDF

Answer Suggestion for Knowledge Search (지식검색의 답변 추천 시스템)

  • Lee, Hochang;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.201-205
    • /
    • 2012
  • 지식검색은 방대한 지식정보 데이터를 바탕으로 사용자의 질문에 대한 답변을 검색하는 시스템이다. 이러한 사용자 참여로 구축된 지식정보는 잘못된 답변으로 인한 신뢰성 부족과 중복 답변 등의 문제점이 있어, 원하는 답변을 찾기 위해서는 지식검색에서 다수의 답변을 읽고 그 답변의 진위여부를 판단해야만 한다. 만일 정답에 포함되는 단어나 어구가 답변들에서 나타내는 통계적 특성을 활용하여 사용자가 원하는 답변을 제시할 수 있다면, 지식검색의 효용성과 신뢰성이 크게 향상될 수 있다. 본 논문에서는 지식정보 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 각 분류에 대한 사용자 질의어의 답변을 요약하는 방식을 제안한다. 단어, 목록, 글 유형은 TF와 IDF, 어휘 간의 거리 정보를 통해서 중요 단어를 추출하여 각 유형에 적합한 형식의 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로서 제시한다.

  • PDF

Relation Analysis of Disease and Biomarker based on Google Scholar (구글 학술 검색 기반의 질병과 바이오마커 관계 분석)

  • Oh, Byoung-Doo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.238-241
    • /
    • 2017
  • 본 논문에서는 구글 학술 검색 기반의 데이터를 이용하여 질병과 폐질환과 관련된 바이오마커 단어의 유사도를 계산하는 방법을 제안한다. 질병과 바이오마커의 유사도를 계산할 때, 각 단어의 구글 학술 검색의 검색 결과를 이용하였다. 이를 통해 폐질환 관련 바이오마커와 다른 질병간의 관계를 파악하고자 하며, 의료 전문가에게 폐질환 관련 바이오마커와 다른 질병간의 새로운 관계를 제시하고자 한다. 이러한 데이터를 이용하여 계산한 결과, Wor2Vec의 결과를 이용한 코사인 유사도의 결과와 상관 계수가 약 0.64로 상당히 높은 상관 관계를 확인할 수 있었다. 따라서 이 방법을 통해 질병과 바이오마커의 관계를 파악하고자 하였다. 또한 Word2Vec을 이용한 질병과 바이오마커 단어의 벡터 값과 단어 유사도 계산 방법의 결과를 이용한 Deep Neural Networks (DNNs) 모델을 구축하고자 하며, 이를 통해 자동적으로 유사도를 분석하고자 하였다.

  • PDF

Relation Analysis of Disease and Biomarker based on Google Scholar (구글 학술 검색 기반의 질병과 바이오마커 관계 분석)

  • Oh, Byoung-Doo;Kim, Yu-Seop
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.238-241
    • /
    • 2017
  • 본 논문에서는 구글 학술 검색 기반의 데이터를 이용하여 질병과 폐질환과 관련된 바이오마커 단어의 유사도를 계산하는 방법을 제안한다. 질병과 바이오마커의 유사도를 계산할 때, 각 단어의 구글 학술 검색의 검색 결과를 이용하였다. 이를 통해 폐질환 관련 바이오마커와 다른 질병간의 관계를 파악하고자 히며, 의료 전문가에게 폐질환 관련 바이오마커와 다른 질병간의 새로운 관계를 제시하고자 한다. 이러한 데이터를 이용하여 계산한 결과, Wor2Vec의 결과를 이용한 코사인 유사도의 결과와 상관 계수가 약 0.64로 상당히 높은 상관 관계를 확인할 수 있었다. 따라서 이 방법을 통해 질병과 바이오마커의 관계를 파악하고자 하였다. 또한 Word2Vec을 이용한 질병과 바이오마커 단어의 벡터 값과 단어 유사도 계산 방법의 결과를 이용한 Deep Neural Networks (DNNs) 모델을 구축하고자 하며, 이를 통해 자동적으로 유사도를 분석하고자 하였다.

  • PDF

A Study on the Characteristics of Opinion Retrieval Using Term Statistical Analysis in Opinion Documents (의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구)

  • Han, Kyoung-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.11
    • /
    • pp.21-29
    • /
    • 2010
  • Opinion retrieval which searches the opinions expressed in documents by users cannot outperform significantly yet traditional topical retrieval which searches the facts. Therefore, the focus of this paper is to identify the statistical characteristics which can be applied to opinion retrieval by comparing and analyzing the term statistics of opinion and non-opinion documents in the blog domain. The TREC Blogs06 collection and 150 TREC topics are used in the experiments. The difference between term probability distributions in opinion documents is measured by JS divergence, and the difference according to the topic types and topic domains is also investigated. Moreover, the term probabilities of opinion terms are analyzed comparatively. The main findings of this study include the following: it is necessary to consider the topic-specific characteristics for the opinion detection; it is effective to extract positive and negative opinion terms according to the topics; the topic types are complementary to the topic domains; and special attention has to be given to the usage of the positive opinion terms.

Implementation of Digital Map Information Retrieval System Using Speech Recognition (음성을 이용한 수치지도정보 검색시스템의 구현)

  • 김태수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.55-58
    • /
    • 1998
  • 본 논문에서는 음성인식기능을 이용하여 지리정보 검색시스템을 구현하고 그 성능 평가 결과에 관하여 보고한다. 성능평가실험을 위하여 사용한 수치지도 자료는 1:5,000의 대구광역시 수성구의 국가 기본도를 사용하였으며, 이 수치지도에서 속성단어와 제어단어를 포함한 68단어를 음성인식과 지도정보 검색의 대상으로 한다. 또한, 음성인식 결과와 지도자료와의 인터페이스는 OLE Automation 프로그래밍 기법을 이용하였으며, Pentium 150MHz, 64MB 메모리를 가진 개인용 컴퓨터 환경하에서 개발하였다. 성능평가 실험결과 남성 3인이 지도검색용 68단어를 실제 사무실 환경하에서 마이크를 통하여 on-line 테스트하여 평균 98.02%의 인식률을 얻었다. 이사의 결과로부터 음성인식기능을 이용한 수치지도 정보검색 시스템의 실용화 가능성을 확인할 수 있었다.

  • PDF

Parallel Information Retrieval with Query Expansion (질의 확장을 이용한 병렬 정보 검색)

  • 정유진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.103-105
    • /
    • 2002
  • 이 논문에서는, PC 클러스터 환경에서 질의 확장을 사용하는 정보 검색 시스템 (IR)을 설계하고 구현한 내용을 기술한다. 이 정도 검색 시스템은 문서 집합을 저장하고, 문서 집합은 역색인 파인 (IIF)로 색인되고, 랭킹 방법으로 벡터 모델을 사실하며, 질의 확장 방법으로 코사인 유사도를 사용한다. 질의 확장이란 사용자가 준 원래의 질의에 연관된 단어를 추가하여 검색 효율을 향상시키는 것이다. 여기서 제안하는 병렬 정보 검색 시스템에서는 역색인 과일은 여러 개로 분활되는데 lexical 분할 방법과 greedy 분할 방법을 사용한다. 사용자의 질의가 들어오면 질의확장을 하여 여러 개의 단어로 이루어진 확장된 질의가 만들어 지는데 이 확장된 질의를 구성하는 단어들은 각 단어와 연관된 IIF를 가지고 있는 노드에 보내어져서 병렬로 처리된다. 실험을 통하여 병렬 IR 시스템의 성능이 질의 확장과 IIF의 두 가지 분한 방법에 의해 어떻게 영향을 받는지 보인다. 실험에는 표준 한국어 테스트 말뭉치인 EKSET과 KTSET을 사용하였다. 실험에 따르면 greedy 분활 방법이 lexical 분할 방법에 비해 20%정도의 성능 향상을 보였다.

  • PDF