DOI QR코드

DOI QR Code

Implementation of Search Method based on Sequence and Adjacency Relationship of User Query

사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현

  • 소병철 (동국대학교 컴퓨터공학과) ;
  • 정진우 (동국대학교 컴퓨터공학과)
  • Received : 2011.11.19
  • Accepted : 2011.12.16
  • Published : 2011.12.25

Abstract

Information retrieval is a method to search the needed data by users. Generally, when a user searches some data in the large scale data set like the internet, ranking-based search is widely used because it is not easy to find the exactly needed data at once. In this paper, we propose a novel ranking-based search method based on sequence and adjacency relationship of user query by the help of TF-IDF and n-gram. As a result, it was possible to find the needed data more accurately with 73% accuracy in more than 19,000 data set.

정보 검색은 다수 자료에서 사용자가 원하는 부분을 찾는 과정을 의미한다. 일반적으로 대규모 자료 집합의 관리를 위해서는 데이터베이스가 사용되는데 인터넷과 같은 복잡한 문서구조들이 공존하는 환경에서는 한 번에 사용자가 원하는 문서를 정확히 찾아내는 것이 어렵기 때문에, 문서에 순위를 부여하여 사용자에게 제시하는 방법이 일반적으로 많이 사용된다. 본 논문에서는 자료에 포함되어 있는 단어들을 단순히 검색하는 것 뿐만 아니라 단어들 간의 순서 및 인접성을 고려한 검색방법을 용어빈도-역문헌빈도 및 n-gram 기법을 응용하여 구현하였다. 그 결과 19,000개 이상의 다수 문서 집합에서 73%의 정확율로 보다 정확한 검색이 가능하게 되었다.

Keywords

References

  1. C. D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008.
  2. S. Brin and L page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proc. of 7th international conference on World Wide Web," pp. 107-117, 1998
  3. K. S. Jones, "IDF term weighting and IR research lessons," Journal of Documentation, Vol. 28, pp.11-21, 1972. https://doi.org/10.1108/eb026526
  4. S. Brin, "The Anatomy of a Large Scale Hypertextual Web Search Engine," International world wide web conference, pp. 107-118, 1998
  5. 김정훈, 윤태복, 이지형, "효율적인 블로그 검색을 위한 블로그-랭크 알고리즘," 한국정보과학회 2008 가을 학술발표논문집, Vol. 35, No. 2, 2008
  6. 김정훈, 윤태복, 이지형, "블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘," 정보과학회논문지. 소프트웨어 및 응용, Vol. 36, No. 7, 2009
  7. 김현주, 박소미, 박석, "확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML문서 순위화 기법," 정보과학회논문지. Journal of KIISE. 데이터베이스, Vol. 37, No. 2, pp.113-120, 2010
  8. 김용호, 김형균, 최광미, "사용자 프로파일을 이용한 문서순위 결정 방법," 한국해양정보통신학회 2005년도 추계종합학술대회, Vol. 9, No. 2, pp.615-618, 2005
  9. 김분희, 한상용, 김영찬, "웹 문서 중요도 평가를 위한 적합도 향상 HITS 알고리즘 설계," 한국전자거래학회지, Vol. 8, No. 2, pp.23-31, 2003
  10. John Coleman, Introducing Speech and Language Processing, Cambridge University Press, 2005
  11. Martin Porter. 2001. The Porter Stemming Algorit hm. http://www.tartarus.org/martin/PorterStemmer/ind ex.html