DOI QR코드

DOI QR Code

Relevant Keyword Collection using Click-log

클릭로그를 이용한 연관키워드 수집

  • 안광모 (충북대학교 컴퓨터공학과) ;
  • 서영훈 (충북대학교 컴퓨터공학과) ;
  • 허정 (한국전자통신연구원 지식마이닝연구팀) ;
  • 이충희 (한국전자통신연구원 지식마이닝연구팀) ;
  • 장명길 (한국전자통신연구원 지식마이닝연구팀)
  • Received : 2011.08.02
  • Accepted : 2011.10.11
  • Published : 2012.04.30

Abstract

The aim of this paper is to collect relevant keywords from clicklog data including user's keywords and URLs accessed using them. Our main hyphothesis is that two or more different keywords may be relevant if users access same URLs using them. Also, they should have higher relationship when the more same URLs are accessed using them. To validate our idea, we collect relevant keywords from clicklog data which is offered by a portal site. As a result, our experiment shows 89.32% precision when we define answer set to only semantically same words, and 99.03% when we define answer set to broader sense. Our approach has merits that it is independent on language and collects relevant words from real world data.

본 논문은 사용자가 웹 검색을 위해 입력한 키워드와 그 키워드에 의해서 접근한 웹문서의 URL을 이용하여 연관키워드(relevant keyword)를 수집하는데 목적이 있다. 서로 다른 키워드들이라 할지라도 각각의 키워드들이 동일하게 링크된 URL의 수가 많다면, 그 키워드들은 서로 관련성이 높을 것이라는 것이 본 논문의 주된 가정이다. 실제로 이를 검증하기 위해 사용자가 입력한 키워드와 이 키워드를 이용하여 접근한 URL의 정보가 담겨있는 포털사이트의 클릭로그 데이터를 이용하여 URL과 키워드들의 쌍을 추출한 후, 연관키워드 집합을 생성하였다. 그 결과, 실험에서는 최소지지도(minimum support)가 10일 때, 유사어휘 수준에서의 정확도는 89.32%를 보였으며, 유사 어휘는 아니나 관련성이 있는 어휘 수준에서는 99.03%의 정확도를 보였다. 본 논문에서 제안하는 접근 방법은 언어에 독립적이고, 실세계의 데이터로부터 관련성이 있는 단어를 수집할 수 있다는 장점이 있다.

Keywords

References

  1. B. Liu, 'Web Data Mining', Springer, 2006.
  2. Y. Matsuo, M. Ishizuka, "Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information," American Association for Artificial Intelligence, Vol.13, No.1, pp.157-169, 2003.
  3. 박소연, 이준호, 김지승, "클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석", 한국문헌정보학회지, 제39권 제1호, pp.265-278, 2005. https://doi.org/10.4275/KSLIS.2005.39.1.265
  4. 서범준, 이세일, 유승학, 윤성로, "인터넷 광고를 위한 웹 페이지 기반의 키워드 확장 알고리즘", 한국인터넷정보학회 2010년도 학술발표대회, pp.241-246, 2010.
  5. 윤태복, 이승훈, 윤광호, 이지형, "웹 사용 정보에 기반한 다중 성향 키워드 모델의 설계와 응용", 인터넷정보학회논문지, 제10 권 제5호, pp.95-105, 2009.
  6. 이상훈, 김기태, "클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장", 한국정보과학회 2003년 도 봄 학술발표논문집, 제30권 제1호(B), pp.479-481, 2003.
  7. 이성직, 김한준, "TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법", 한국전자거래학회지, 제14권 제4호, pp.59-73, 2009.
  8. 전종근, 박철, "웹 로그 데이터를 이용한 온라인 소비자의 가격민감도 영향 요인에 관한 연구", Journal of Information Technology Applications & Management, pp.1-16, 2006.
  9. 최동진, 황명권, 김판구, "웹 로그 데이터를 이용한 사용자관심분야 분석 모델 설계", 한국정보기술학회 하계학술대회 논문집, pp.333-336, 2010.

Cited by

  1. Related Term Extraction with Proximity Matrix for Query Related Issue Detection using Twitter vol.3, pp.1, 2014, https://doi.org/10.3745/KTSDE.2014.3.1.31