DOI QR코드

DOI QR Code

사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현

Implementation of Search Method based on Sequence and Adjacency Relationship of User Query

  • 소병철 (동국대학교 컴퓨터공학과) ;
  • 정진우 (동국대학교 컴퓨터공학과)
  • 투고 : 2011.11.19
  • 심사 : 2011.12.16
  • 발행 : 2011.12.25

초록

정보 검색은 다수 자료에서 사용자가 원하는 부분을 찾는 과정을 의미한다. 일반적으로 대규모 자료 집합의 관리를 위해서는 데이터베이스가 사용되는데 인터넷과 같은 복잡한 문서구조들이 공존하는 환경에서는 한 번에 사용자가 원하는 문서를 정확히 찾아내는 것이 어렵기 때문에, 문서에 순위를 부여하여 사용자에게 제시하는 방법이 일반적으로 많이 사용된다. 본 논문에서는 자료에 포함되어 있는 단어들을 단순히 검색하는 것 뿐만 아니라 단어들 간의 순서 및 인접성을 고려한 검색방법을 용어빈도-역문헌빈도 및 n-gram 기법을 응용하여 구현하였다. 그 결과 19,000개 이상의 다수 문서 집합에서 73%의 정확율로 보다 정확한 검색이 가능하게 되었다.

Information retrieval is a method to search the needed data by users. Generally, when a user searches some data in the large scale data set like the internet, ranking-based search is widely used because it is not easy to find the exactly needed data at once. In this paper, we propose a novel ranking-based search method based on sequence and adjacency relationship of user query by the help of TF-IDF and n-gram. As a result, it was possible to find the needed data more accurately with 73% accuracy in more than 19,000 data set.

키워드

참고문헌

  1. C. D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008.
  2. S. Brin and L page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proc. of 7th international conference on World Wide Web," pp. 107-117, 1998
  3. K. S. Jones, "IDF term weighting and IR research lessons," Journal of Documentation, Vol. 28, pp.11-21, 1972. https://doi.org/10.1108/eb026526
  4. S. Brin, "The Anatomy of a Large Scale Hypertextual Web Search Engine," International world wide web conference, pp. 107-118, 1998
  5. 김정훈, 윤태복, 이지형, "효율적인 블로그 검색을 위한 블로그-랭크 알고리즘," 한국정보과학회 2008 가을 학술발표논문집, Vol. 35, No. 2, 2008
  6. 김정훈, 윤태복, 이지형, "블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘," 정보과학회논문지. 소프트웨어 및 응용, Vol. 36, No. 7, 2009
  7. 김현주, 박소미, 박석, "확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML문서 순위화 기법," 정보과학회논문지. Journal of KIISE. 데이터베이스, Vol. 37, No. 2, pp.113-120, 2010
  8. 김용호, 김형균, 최광미, "사용자 프로파일을 이용한 문서순위 결정 방법," 한국해양정보통신학회 2005년도 추계종합학술대회, Vol. 9, No. 2, pp.615-618, 2005
  9. 김분희, 한상용, 김영찬, "웹 문서 중요도 평가를 위한 적합도 향상 HITS 알고리즘 설계," 한국전자거래학회지, Vol. 8, No. 2, pp.23-31, 2003
  10. John Coleman, Introducing Speech and Language Processing, Cambridge University Press, 2005
  11. Martin Porter. 2001. The Porter Stemming Algorit hm. http://www.tartarus.org/martin/PorterStemmer/ind ex.html