• 제목/요약/키워드: web link analysis

검색결과 92건 처리시간 0.025초

빅데이터 환경에서의 B-tree 구조 기반 링크정보 관리서버의 개발 (A Study on the Link Server Development Using B-Tree Structure in the Big Data Environment)

  • 박승범;황종성;이상원
    • 인터넷정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.75-82
    • /
    • 2015
  • 주요 기업들과 포털들은 사용자들에게 웹 기반 환경에서 보다 효율적인 콘텐츠 이용을 지원하기 위해 이른바 콘텐츠관리시스템(CMS, Contents Management Systems)과 콘텐츠의 데이터베이스 내 물리적 주소를 연결하여 관리하는 링크 서버를 적극적으로 도입하고 있다. 이를 통해 웹브라우저 화면에서 보여지는 콘텐츠의 URL과 실제 데이터베이스 안의 콘텐츠의 물리적 주소를 자동으로 연결해 주고, URL이나 데이터베이스의 물리적 주소의 변경시 두 주소를 재 연결하는 역할을 수행한다. 최근 빅데이터 환경의 도래에 따라 디지털 콘텐츠와 사용자 접속수가 폭발적으로 증가하고 있는 상황에서 CMS와 링크 서버에서 수행해야 하는 유효 링크 검사 횟수도 따라서 증가하고 있다. Peta-Byte 또는 Eta-Byte 환경 하에서 수행되는 유효 링크 검사를 기존 URL 기반의 순차적 방식으로 수행할 경우 속도저하에 따른 데이터 링크 식별률(identification rate)의 저하와 빈번한 링크 검사에 따른 데이터베이스에 부하를 주는 요인으로 작용될 수 있다. 따라서, 본 연구는 상기와 같은 종래의 문제점을 해결하기 위해 대량의 URL에 대해 B-Tree 기반의 정보식별자의 구간별 개수 분석을 기반으로 URL 삭제 링크 및 추가 링크를 인식하고 효과적으로 관리하는 것이 가능하도록 해주는 링크 서버를 제공하는 데 있다. 본 연구를 통해 기존 방식보다 빠르고 낮은 부하를 주는 데드 링크 체크 처리가 가능해 질 것이다.

웹의 연결구조로부터 Hub와 Authority를 효과적으로 도출하기 위한 상호강화모델의 확장 (An Extended Mutual Reinforcement Model for Finding Hubs and Authorities from Link Structures on the WWW)

  • 황인수
    • 한국경영과학회지
    • /
    • 제30권2호
    • /
    • pp.1-11
    • /
    • 2005
  • The network structures of a hyperlinked environment can be a rich source of information about the contents of the environment and it provides effective means for understanding it. Recently, there have been a number of algorithms proposed analyzing hypertext link structure so as to determine the best authorities for a given topic or query. In this paper, we review the algorithm of mutual reinforcement relationship for finding hubs and authorities from World Wide Web, and suggest SHA, a new approach for link-structure analysis, which uses the relationships among a set of relative authoritative pages, a set of hub pages, and a set of super hub pages.

Combining Multiple Sources of Evidence to Enhance Web Search Performance

  • Yang, Kiduk
    • 한국도서관정보학회지
    • /
    • 제45권3호
    • /
    • pp.5-36
    • /
    • 2014
  • 웹은 하이퍼링크 및 야후와 같이 수동으로 분류된 웹 디렉토리 처럼 문서의 콘텐츠를 넘어선 다양한 정보의 소스가 풍부하다. 이 연구는 웹문서 내용을 활용한 텍스트기반의 검색 방식, 하이퍼 링크를 활용한 링크 기반의 검색 방식, 그리고 야후의 카테고리를 활용한 분류 기반의 검색 방식을 융합하므로서 여러 정보소스를 결합하면 검색 성능을 향상시킬 수 있다는 기존 융합검색연구들을 확장시켰다. 텍스트, 링크, 분류 기반 검색 결과를 여러가지 선형조합식으로 생성한 융합결과를 기존의 검색 평가 지표를 사용하여 각각의 검색 결과와 비교 한 후, 검색결과 오버랩의 중요성 또한 조사 하였다. 본 연구는 텍스트, 링크, 분류 기반 검색의 솔루션 스패이스들의 다양성이 융합검색의 적합성을 제시한다는 결론과 더불어 시스템 파라미터의 영향, 그리고 오버랩, 문서순위, 관련성들의 상호 관계 같은 융합 환경의 중요한 특성들을 분석하였다.

링크구조분석을 이용한 스팸메일 분류 (A Spam Mail Classification Using Link Structure Analysis)

  • 이신영;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.30-39
    • /
    • 2007
  • 기존의 내용기반 스팸메일 분류는 전자메일이 이미지를 많이 가지고 있고 텍스트는 적게 가지고 있을 경우에는 내용을 분석하기 어려우므로 스팸메일을 분류하는 데 한계가 있다. 이와 같은 문제를 해결하기 위하여 본 논문에서는 전자메일의 구조를 분석하는 링크구조분석 스팸메일 분류 알고리즘을 제안한다. 이것은 전자메일 안의 하이퍼링크의 개수와 하이퍼링크가 가리키는 웹 문서들이 다른 웹 문서에 의해 링크된 수를 측정하여 전자메일의 중요도를 계산한 후 의사결정트리를 학습하여 스팸메일과 정상메일을 분류한다. 또한 위의 링크구조분석 알고리즘과 하이퍼링크의 서버 주소만을 이용한 변형된 링크구조 분석 알고리즘, 그리고 SVM(support vector machine)을 이용한 내용기반 방법을 다수결 원칙으로 결합한 통합 스팸메일 분류 시스템을 제안한다. 실험 결과, 제안한 링크구조분석 알고리즘은 기존의 내용기반 방법 보다 스팸메일 분류 정확도가 94.8%로 약간 향상되었으며 또한 통합 스팸메일 분류 시스템도 내용기반 방법과 비교하여 향상된 97.7%를 나타냈다.

시맨틱 웹 자원의 랭킹을 위한 알고리즘: 클래스중심 접근방법 (A Ranking Algorithm for Semantic Web Resources: A Class-oriented Approach)

  • 노상규;박현정;박진수
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.31-59
    • /
    • 2007
  • We frequently use search engines to find relevant information in the Web but still end up with too much information. In order to solve this problem of information overload, ranking algorithms have been applied to various domains. As more information will be available in the future, effectively and efficiently ranking search results will become more critical. In this paper, we propose a ranking algorithm for the Semantic Web resources, specifically RDF resources. Traditionally, the importance of a particular Web page is estimated based on the number of key words found in the page, which is subject to manipulation. In contrast, link analysis methods such as Google's PageRank capitalize on the information which is inherent in the link structure of the Web graph. PageRank considers a certain page highly important if it is referred to by many other pages. The degree of the importance also increases if the importance of the referring pages is high. Kleinberg's algorithm is another link-structure based ranking algorithm for Web pages. Unlike PageRank, Kleinberg's algorithm utilizes two kinds of scores: the authority score and the hub score. If a page has a high authority score, it is an authority on a given topic and many pages refer to it. A page with a high hub score links to many authoritative pages. As mentioned above, the link-structure based ranking method has been playing an essential role in World Wide Web(WWW), and nowadays, many people recognize the effectiveness and efficiency of it. On the other hand, as Resource Description Framework(RDF) data model forms the foundation of the Semantic Web, any information in the Semantic Web can be expressed with RDF graph, making the ranking algorithm for RDF knowledge bases greatly important. The RDF graph consists of nodes and directional links similar to the Web graph. As a result, the link-structure based ranking method seems to be highly applicable to ranking the Semantic Web resources. However, the information space of the Semantic Web is more complex than that of WWW. For instance, WWW can be considered as one huge class, i.e., a collection of Web pages, which has only a recursive property, i.e., a 'refers to' property corresponding to the hyperlinks. However, the Semantic Web encompasses various kinds of classes and properties, and consequently, ranking methods used in WWW should be modified to reflect the complexity of the information space in the Semantic Web. Previous research addressed the ranking problem of query results retrieved from RDF knowledge bases. Mukherjea and Bamba modified Kleinberg's algorithm in order to apply their algorithm to rank the Semantic Web resources. They defined the objectivity score and the subjectivity score of a resource, which correspond to the authority score and the hub score of Kleinberg's, respectively. They concentrated on the diversity of properties and introduced property weights to control the influence of a resource on another resource depending on the characteristic of the property linking the two resources. A node with a high objectivity score becomes the object of many RDF triples, and a node with a high subjectivity score becomes the subject of many RDF triples. They developed several kinds of Semantic Web systems in order to validate their technique and showed some experimental results verifying the applicability of their method to the Semantic Web. Despite their efforts, however, there remained some limitations which they reported in their paper. First, their algorithm is useful only when a Semantic Web system represents most of the knowledge pertaining to a certain domain. In other words, the ratio of links to nodes should be high, or overall resources should be described in detail, to a certain degree for their algorithm to properly work. Second, a Tightly-Knit Community(TKC) effect, the phenomenon that pages which are less important but yet densely connected have higher scores than the ones that are more important but sparsely connected, remains as problematic. Third, a resource may have a high score, not because it is actually important, but simply because it is very common and as a consequence it has many links pointing to it. In this paper, we examine such ranking problems from a novel perspective and propose a new algorithm which can solve the problems under the previous studies. Our proposed method is based on a class-oriented approach. In contrast to the predicate-oriented approach entertained by the previous research, a user, under our approach, determines the weights of a property by comparing its relative significance to the other properties when evaluating the importance of resources in a specific class. This approach stems from the idea that most queries are supposed to find resources belonging to the same class in the Semantic Web, which consists of many heterogeneous classes in RDF Schema. This approach closely reflects the way that people, in the real world, evaluate something, and will turn out to be superior to the predicate-oriented approach for the Semantic Web. Our proposed algorithm can resolve the TKC(Tightly Knit Community) effect, and further can shed lights on other limitations posed by the previous research. In addition, we propose two ways to incorporate data-type properties which have not been employed even in the case when they have some significance on the resource importance. We designed an experiment to show the effectiveness of our proposed algorithm and the validity of ranking results, which was not tried ever in previous research. We also conducted a comprehensive mathematical analysis, which was overlooked in previous research. The mathematical analysis enabled us to simplify the calculation procedure. Finally, we summarize our experimental results and discuss further research issues.

Automated Link Tracing for Classification of Malicious Websites in Malware Distribution Networks

  • Choi, Sang-Yong;Lim, Chang Gyoon;Kim, Yong-Min
    • Journal of Information Processing Systems
    • /
    • 제15권1호
    • /
    • pp.100-115
    • /
    • 2019
  • Malicious code distribution on the Internet is one of the most critical Internet-based threats and distribution technology has evolved to bypass detection systems. As a new defense against the detection bypass technology of malicious attackers, this study proposes the automated tracing of malicious websites in a malware distribution network (MDN). The proposed technology extracts automated links and classifies websites into malicious and normal websites based on link structure. Even if attackers use a new distribution technology, website classification is possible as long as the connections are established through automated links. The use of a real web-browser and proxy server enables an adequate response to attackers' perception of analysis environments and evasion technology and prevents analysis environments from being infected by malicious code. The validity and accuracy of the proposed method for classification are verified using 20,000 links, 10,000 each from normal and malicious websites.

인터넷쇼핑몰 사이트 환경과 재구매의도 간의 구조적 인과관계 (Structural Causal Relationship between Atmospherics of Web-sites and Repurchase Intention in Internet Shopping Malls)

  • 최철재
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.357-369
    • /
    • 2012
  • 본 연구는 인터넷쇼핑몰을 대상으로 그래픽, 컬러, 메뉴 및 링크 등 웹사이트의 디자인 환경이 소비자의 감정과 만족에 어떠한 영향을 미치고, 또한 감정과 만족 및 재구매의도 간의 관계를 확인하고 설명하였다. 본 연구의 설문은 인터넷쇼핑몰을 방문하여 검색하였거나 구매한 경험을 가진 소비자를 대상으로 표본을 수집하였으며, 수집된 자료는 AMOS 18.0 통계패키지를 이용하여 제기된 연구가설을 검증하였다. 분석결과, 웹사이트의 디자인 환경요인 중 메뉴와 링크는 소비자의 감정에 긍정적인 영향을 주었지만, 그래픽 및 컬러는 감정 및 만족에 어떠한 영향도 미치지 못하였다. 또한 감정은 만족과 재구매의도에 긍정적 영향을 미치었고, 만족 역시 재구매의도에 긍정적인 영향을 미치는 것으로 확인되었다.

웹 사이트 탐색 알고리즘 비교분석 (Comparision and Analysis of Algorithm for web Sites Researching)

  • 김덕수;권영직
    • 한국산업정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.91-98
    • /
    • 2003
  • 무선 PDA.휴대폰을 통해 웹을 탐색하려는 이용자들은 인터페이스 상의 문제 때문에 어려움을 겪는다. 단지 그래픽을 문자로 바꾸거나 기호체계를 재구성한다고 해서 해결될 문제가 아니다. 심층 연계 구조를 통과하는 데에는 많은 시간이 걸리기 때문이다. 이러한 문제들을 해결하기 위해서 본 논문에서는 실시간의 최단경로를 제공하기 위하여 무선 웹 탐색을 자동적으로 개선시키는 Minimal Path 알고리즘을 제안한다. 본 논문의 결과 Minimal Path 알고리즘은 웹 이용자들에 대해 지름길을 제공해 주며, 링크의 숫자가 가장 짧았음을 알 수 있었다.

  • PDF

국내 웹 디렉토리들의 커버리지 및 커버리지 중복성 분석 (Analyzing Coverage and Coverage Overlap of Korean Web Directories)

  • 배희진;이진숙;이준호;박소연
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.173-186
    • /
    • 2004
  • 본 연구에서는 국내 주요 웹 검색 포탈인 네이버, 야후 코리아, 엠파스가 제공하는 웹 디렉토리들의 커버리지 및 커버리지 중복성을 분석하였다. 이를 위하여 본 연구는 웹 디렉토리에 등록된 사이트들의 수집 방법을 개발하고, 대분류 매핑, 중복 분류 및 참조 링크 고려와 같은 커버리지 및 커버리지중복성 분석에 필요한 방법론을 제시하였다. 조사 결과, 참조 링크의 허용 여부가 웹 디렉토리의 커버리지에 매우 큰 영향을 미치며, 국내 웹 디렉토리들 사이의 커버리지 중복성이 매우 낮은 것으로 나타났다. 본 연구는 국내 웹 디렉토리들에 대한 이해를 넓히고, 웹 디렉토리들의 커버리지 및 커버리지중복성 분석에 필요한 방법론을 제시함으로써, 웹 디렉토리에 관한 연구에 기여할 것으로 기대된다.

법학도서관 웹사이트 내비게이션 비교.분석 (A Comparative Analysis of Navigation in Law Library Websites)

  • 김성희;이용미
    • 정보관리연구
    • /
    • 제38권3호
    • /
    • pp.59-80
    • /
    • 2007
  • 본 연구에서는 국내 11개 국외 5개의 법학도서관 웹사이트 내비게이션 시스템을 전역, 지역, 문맥, 지원 내비게이션으로 나누어 분석하였다. 그 결과 전역 내비게이션은 일관된 내비게이션을 제공해야 하며, 핵심지역과 기능에 바로 접근할 수 있어야 하는 것으로 나타났다. 지역 내비게이션의 Quick Link는 스크롤바의 이동이 가능하도록 제공할 필요가 있었다. 문맥 내비게이션의 메뉴의 수와 링크 유형은 가급적 적은 수를 제공해야 하는 것으로 나타났다. 마지막으로 지원 내비게이션의 사이트맵과 사이트색인은 웹사이트의 콘텐트의 양에 따라 알맞게 제공해야 하며, 누락된 링크가 없어야 하며 제공내용이 충실해야 하는 것으로 나타났다.