• Title/Summary/Keyword: 웹 페이지 간 유사도

Search Result 23, Processing Time 0.035 seconds

Measuring Web Page Similarity using Tags (태그를 이용한 웹 페이지간의 유사도 측정 방법)

  • Kang, Sang-Wook;Lee, Ki-Yong;Kim, Hyeon-Gyu;Kim, Myoung-Ho
    • Journal of KIISE:Databases
    • /
    • v.37 no.2
    • /
    • pp.104-112
    • /
    • 2010
  • Social bookmarking is one of the most interesting trends in the current web environment. In a social bookmarking system, users annotate a web page with tags, which describe the contents of the page. Numerous studies have been done using this information, mostly on enhancing the quality of web search. In this paper, we use this information to measure the semantic similarity between two web pages. Since web pages consist of various types of multimedia data, it is quite difficult to compare the semantics of two web pages by comparing the actual data contained in the pages. With the help of social bookmarks, this comparison can be performed very effectively. In this paper, we propose a new similarity measure between web pages, called Web Page Similarity Based on Entire Tags (WSET), based on social bookmarks. The experimental results show that the proposed measure yields more satisfactory results than the previous ones.

A Web Page Categorization Model Based on Document Structural Information (문서 구조 정보에 기반한 웹 페이지 범주화 모델)

  • Jung, Sung-Hwa;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

Improved PageRank Algorithm Using Similarity Information of Documents (문서간의 유사도를 이용한 개선된 PageRank 알고리즘)

  • 이경희;김민구;박승규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.169-171
    • /
    • 2003
  • 웹에서의 검색 방법에는 크게 Text-Based 기법과 Link-Based 기법이 있다. 본 논문은 그 중에서 Link-Based 기법의 하나인 PageRank 알고리즘에 대해 연구 하고자 한다. 이 PageRank 알고리즘은 각 페이지의 중요성을 수치로 계산하는 방법이다. 하지만 이 알고리즘에서는 페이지에서 페이지로 링크를 따라갈 확률의 값을 일정하게 주어서 모든 페이지의 값을 획일적으로 계산하였기 때문에 각 페이지의 검색 효율성에 문제가 있다고 판단하여, 이를 해결하고자 본 논문은 페이지사이의 유사도를 측정하여 유사도에 따라 링크를 따라가는 확률 값인 Damping factor값을 다르게 부여하여 검색의 효율성을 높였다. 이를 위하여 두 가지 방법의 실험을 통하여 구현, 증명하였다.

  • PDF

Semantic Classification of Web Pages using Ontology Concept Structure (온톨로지의 개념구조에 의한 웹페이지의 의미적 분류)

  • Song, Mu-Hee;Lim, Soo-Yeon;Park, Seong-Bae;Kang, Dong-Jin;Lee, Sang-Jo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.487-489
    • /
    • 2005
  • 본 논문에서는 온톨로지의 개념구조를 이용한 웹페이지의 의미적 분류방법을 제안한다. 웹 문서들이 가지는 용어 정보들과 어휘들 간의 개념 구조를 파악하여 온톨로지를 확장시키면서 이를 문서분류에 적용하여 의미적 분류가 이루어지게 한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하여 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 온톨로지와 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

Similarity Pattern Analysis of Web Log Data using Multidimensional FCM (다차원 FCM을 이용한 웹 로그 데이터의 유사 패턴 분석)

  • 김미라;조동섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 마이닝(Data Mining)이란 저장된 많은 양의 자료로부터 통계적 수학적 분석방법을 이용하여 다양한 가치 있는 정보를 찾아내는 일련의 과정이다. 데이터 클러스터링은 이러한 데이터 마이닝을 위한 하나의 중요한 기법이다. 본 논문에서는 Fuzzy C-Means 알고리즘을 이용하여 웹 사용자들의 행위가 기록되어 있는 웹 로그 데이터를 데이터 클러스터링 하는 방법에 관하여 연구하고자 한다. Fuzzv C-Means 클러스터링 알고리즘은 각 데이터와 각 클러스터 중심과의 거리를 고려한 유사도 측정에 기초한 목적 함수의 최적화 방식을 사용한다. 웹 로그 데이터의 여러 필드 중에서 사용자 IP, 시간, 웹 페이지 필드를 WLDF(Web Log Data for FCM)으로 가공한 후, 다차원 Fuzzy C-Means 클러스터링을 한다. 그리고 이를 이용하여 샘플 데이터와 임의의 데이터간의 유사 패턴 분석을 하고자 한다.

  • PDF

Dynamic Recommendation System Using Web Document Type and Document Similarity in Cluster (웹 문서 형식과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템)

  • 김진수;김태용;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.274-276
    • /
    • 2001
  • 기존의 여러 동적 추천 시스템에서 사용자들의 브라우징 패턴을 반영하려고 노력하였다 .그러나 대부분의 동적 추천 시스템들은 웹 문서들의 형식이나 웹 문서들 간의 연관성을 고려하지 않고, 사용자들의 브라우징 패턴에만 근거하기 때문에 연관성이 없거나 의미 없는 웹 문서들에 대한 추천까지 제공하는 문제점을 지니고 있다. 본 논문에서는 웹 문서들 사이의 유사도와 로그 파일 안에 들어있는 사용자들이 패턴을 이용하여 웹 문서 자체의 형식에 따라 연관된 웹 문서뿐만 아니라 순차적인 특성을 가진 웹 문서를 추천 문서로 제공한다. 이때 추천 웹 문서의 형식이 탐색 페이지이면 사용자 브라우징 순차 패턴 DB 중에서 사용자들이 자주 항해하는 순차적인 특성을 갖는 웹 문서까지 제공하는 동적 추천 시스템을 제안한다.

  • PDF

빅 데이터 접근방식의 공공 데이터 비주얼라이제이션 사례

  • Lee, Man-Jae;On, Byeong-Won
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.36-42
    • /
    • 2012
  • 대부분의 빅 데이터 분석 결과는 문장으로 다듬어진 보고서로 결과를 제시하기보다는 비주얼라이제이션으로 결과를 보이고 보는 사람이 갖고 있는 배경지식과 통찰력에 따라 의미 있는 내용을 도출할 수 있도록 한다. 본 고에서는 공공 데이터와 비주얼라이제이션의 중요성을 알리기 위한 국회의원 투표 성향 분석 프로젝트를 소개한다. 우리나라 국민이라면 누구나 관심을 가질만한 국회의원의 성향을 파악하는 것을 세부 목표로 하고 18대 국회의원의 본 회의 회의록으로부터 투표 데이터를 수집하여 유사한 투표성향을 가진 국회의원을 가깝게 배치하여 누구나 쉽게 의원간의 유사성을 알 수 있도록 하였다. 데이터 수집부터 분석모델 개발과 웹 페이지를 만들기까지의 프로젝트 진행과정에서 모델의 수정이 필요했으며 왜 그러한 선택을 했는지를 설명한다.

Ascertaining the Structure and Content of a National Scholarly Web Space Based on Content Analysis (내용 분석을 통한 한국의 학술적 웹 공간 구조 분석)

  • Chung, Young-Mee;Yu, So-Young
    • Journal of the Korean Society for information Management
    • /
    • v.26 no.3
    • /
    • pp.7-24
    • /
    • 2009
  • Since the Web is dynamic, it is necessary to analyze scholarly Web space with both quantitative and qualitative methods for better understanding of communication characteristics. In this study, we analyzed contents of pages and links to ascertain the characteristics of Korean scholarly Web space in terms of network structure and communication behavior. The result shows that the structure of the original network with all the external links remained is not much different from that of the network with activated external links only. However, the purposes of linking vary among scholarly institutions. The centrality measures correlate more strongly with the clustering coefficient than with the constraint index implying the similar explanatory power of the two types of structural indices.

Improving Web Personalization Service Using Web Mining and Collaborative Filtering (웹 마이닝과 협력적 정보 여과를 이용한 개인화 서비스의 성능 개선 방안)

  • 이치훈;고세진;김용환;이필규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.63-65
    • /
    • 2000
  • 웹 개인화 기술의 발달은 많은 업체들이 기존 고객의 유지와 신규 고객의 확보를 위한 수단을 제공하였다. 현재의 개인화 기술은 크게 내용 기반 그리고 협력적 정보 여과 방식에 기반한 기술로 나뉘어질 수 있다. 내용 기반 정보 여과 방식에 기반한 개인화 기술은 멀티미디어 정보로 표현된 대부분의 웹 오브젝트(페이지, 이미지, 동영상, 사운드, 상품 등)에는 적용하기 어렵고, 협력적 정보 여과방식은 Cold Start Problem과 단일 도메인내에서의 개인화 서비스만이 가능하다는 문제점이 있다. 본 논문에서는 협력적 정보 여과 방식과 데이터 마이닝 기술 중의 연관 규칙 생성 방법을 혼합한 웹 개인화 시스템을 제안한다. 다양한 멀티미디어 형태로 표현되는 웹 오브젝트의 내용 분석이 어려우므로, 각각의 오브젝트를 하나의 아이템으로 인식하고 개인화 서비스를 시도하는 협력적 정보 여과 방식을 채택하였다. 협력적 정보 여과의 결과로 발견된 도메인별 유사 사용자의 웹 오브젝트 사용 정보를 연관 규칙 생성 알고리즘에 적용하여 오브젝트간의 연관성을 발견한다. 발견된 오브젝트간의 연관성은 서로 다른 정보 도메인의 오브젝트가 현재 사용자에게 흥미있는 것인가를 예측할 수 있는 자료로서 사용될 수 있다. 협력적 정보 여과 방식에 의해 생성된 오브젝트의 선호도값과 오브젝트 연관성 정보를 비교하여 사용자에게 개인화된 웹 서비스를 제공한다.

  • PDF

A Music Recommendation System by Using Graph-based Collaborative Filtering (그래프 기반 협동적 여과를 이용한 음악 추천 시스템)

  • Kim, Hyung-Il;Lee, Jin-Seok;Lee, Jeong-Hyun;Cho, Chin-Kwna;Kim, Kyoung-Sup;Kim, Jun-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.51-54
    • /
    • 2006
  • 본 논문에서는 각 사용자들의 취향에 맞는 음악을 추천하는 개인화된 음악 추천 시스템을 소개한다. 추천 시스템이란 사용자의 선호도를 분석하고 아이템들에 대한 사용자의 선호도를 예측하여 영화, 음악, 기사, 책, 웹 페이지 등과 같은 아이템들을 추천하는 시스템을 말한다. 추천 시스템들에서 가장 많이 사용하고 있는 협동적 추천 방식은 선호도 데이터를 기반으로 유사한 사용자들을 찾고, 유사 사용자들의 선호도를 기반으로 예측을 수행하는 것으로서, 여러 장점들이 있으나 희소성(sparsity) 문제와 확장성(scalability) 문제에 대해 취약점을 가지고 있다. 아이템들의 전체 수에 비해 매우 적은 수의 아이템 선호도 데이터만 존재한다면 사용자들의 유사도를 계산하기가 어려우며, 또한 사용자의 수가 늘어날수록 유사도 계산에 걸리는 시간이 급격하게 늘어남으로써 수백만 사용자가 있는 웹 사이트 등에서 실시간 추천을 수행하기 어렵다. 본 논문에서 소개하는 음악 추천 시스템은 이러한 문제점들을 해결하기 위해 그래프 기반 협동적 여과 기법을 사용한다. 그래프 기반 협동적 여과 기법은 기존의 협동적 여과 기법들과 달리 아이템들 사이의 연관관계를 그래프 모델로 표현하고 저장함으로써 묵시적인 선호도 정보들을 누적하여 희소성 문제를 해결하고, 추천 아이템을 선정하는데 필요한 계산 시간을 크게 단축하여 대규모 데이터에서 실시간 추천을 가능하게 한다는 장점이 있다.

  • PDF