• 제목/요약/키워드: Web page

검색결과 675건 처리시간 0.026초

Framework for Efficient Web Page Prediction using Deep Learning

  • Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.165-172
    • /
    • 2020
  • 웹에서 접근하는 정보의 폭발적인 증가에 따라 사용자의 다음 웹 페이지 사용을 예측하는 문제의 중요성이 증가되었다. 사용자의 다음 웹 페이지 접근을 예측하는 방법 중 하나가 딥 러닝 기법이다. 웹 페이지 예측 절차는 데이터 전처리 과정을 통해 웹 로그 정보들을 분석하고 딥 러닝 기법을 이용하여 분석된 웹 로그 결과를 가지고 사용자가 접근할 다음 웹 페이지를 예측한다. 본 논문에서는 웹 페이지 예측을 위한 효율적인 웹 로그 전처리 작업과 분석을 위해 딥 러닝 기법을 사용하는 웹 페이지 예측 프레임워크를 제안한다. 대용량 웹 로그 정보의 전처리 작업 속도를 높이기 위하여 Hadoop 기반 맵/리듀스(MapReduce) 프로그래밍 모델을 사용한다. 또한 웹 로그 정보의 전처리 결과를 이용한 학습과 예측을 위한 딥 러닝 기반 웹 예측 시스템을 제안한다. 실험을 통해 논문에서 제안한 방법이 기존의 방법과 비교하여 성능 개선이 있다는 사실을 보였고 아울러 다음 페이지 예측의 정확성을 보였다.

효과적인 웹 문서 변경도 측정 방법 (An Effective Metric for Measuring the Degree of Web Page Changes)

  • 권신영;김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.437-447
    • /
    • 2007
  • 다양한 유사도 측정 방법들이 웹 문서의 변경도 측정에 사용되어 왔다. 본 논문은 여섯 가지 웹 문서 변경 종류에 근거하여 변경도 측정 방법의 효과성 평가 척도를 정의하고, 새로운 유사도 측정 방법을 제안한다. 실제 웹 문서들과 인위적 문서들을 사용하여, 기존의 다섯 가지 측정 방법들(바이트 비교, TF IDF 코사인 거리, 단어 거리, 편집 거리, 슁글링)과 제안된 측정 방법을 비교 평가한다. 실험 결과 분석을 통해 제안된 측정 방법이 웹 문서의 변경 측정에 효과적임을 보인다. 본 연구는 웹 문서의 변화 정보를 필요로 하는 웹 응용 분야에서 웹 문서 변경도 측정 방법의 적합한 선택을 위한 지침이 될 수 있다.

Web Page Evaluation based on Implicit User Reactions and Neural Networks

  • Lee, Dong-Hoon;Kim, Jae-Kwang;Lee, Jee-Hyong
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권2호
    • /
    • pp.181-186
    • /
    • 2012
  • This paper proposes a method for evaluating web pages by considering implicit user reaction on web pages. Usually users spend more time and make more reactions, such as clicking, dragging and scrolling, while reading interesting pages. Based on this observation, a web page evaluation method by observing implicit user reaction is proposed. The system is designed with Ajax for observing user reactions, and neural networks for learning correlation between user reactions and usefulness of pages. The amounts of each type of user reactions are inputted to neural networks. Also the numbers of characters and images of pages are used as inputs because the amount of users' behaviors has a tendency to increase as the length of pages increase. The experiment is conducted with 113 people and 74 pages. Each page is ranked by users with a questionnaire. The proposed method shows more close ranking results to the user ranks than Google. That is, our system evaluates web pages more closely to users' viewpoint than Google. Although our experiment is limited, our result shows powerful potential of new element for web page evaluation. Some approaches evaluate web pages with their contents and some evaluate web pages with structural attributes, particularly links, of pages. Web page evaluation is for users, so the best evaluation can be done by users themselves. So, user feedback is one of the most important factors for web page evaluation. This paper proposes a new method which reflects user feedbacks on web pages.

Layout Analysis for Calculation of Web Page Similarity as Image

  • Mitsuhashi, Noriaki;Yamaguchi, Toru;Takama, Yasufumi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.142-145
    • /
    • 2003
  • When we search information on the Web using search engines, they only analyze the text information collected from the source files of Web pages. However, there is a limit to analyze the layout of a Web page only from its source file, although Web page design is the most important factor for a user to estimate a page. In particular it often happens on the Web that the pages of similar design ofter similar information. We propose a method to analyze layout for comparing the design of pages by treating the displayed page as image.

  • PDF

사용자 웹 사이트 방문 시간을 고려한 연관 규칙 (Association Rule by Considering Users Web Site Visiting Time)

  • 강형창;김철수;이동철
    • 산업경영시스템학회지
    • /
    • 제29권2호
    • /
    • pp.104-109
    • /
    • 2006
  • We can offer suitable information to users analyzing the pattern of users. An association rule is one of data mining techniques which can discover the pattern. We use an association rule which considers the web page visiting time and we should the pattern analyse of users. The offered method puts the weights in Web page visiting time of the user and produces an association rule. Weight is web page visiting time unit divide to total of web page visiting time. We offer rather meaningful result the association rule by Apriori algorithm. This method that proposes in the paper offers rather meaningful result Apriori algorithm

Mining Parallel Text from the Web based on Sentence Alignment

  • Li, Bo;Liu, Juan;Zhu, Huili
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.285-292
    • /
    • 2007
  • The parallel corpus is an important resource in the research field of data-driven natural language processing, but there are only a few parallel corpora publicly available nowadays, mostly due to the high labor force needed to construct this kind of resource. A novel strategy is brought out to automatically fetch parallel text from the web in this paper, which may help to solve the problem of the lack of parallel corpora with high quality. The system we develop first downloads the web pages from certain hosts. Then candidate parallel page pairs are prepared from the page set based on the outer features of the web pages. The candidate page pairs are evaluated in the last step in which the sentences in the candidate web page pairs are extracted and aligned first, and then the similarity of the two web pages is evaluate based on the similarities of the aligned sentences. The experiments towards a multilingual web site show the satisfactory performance of the system.

  • PDF

PageRank 알고리즘을 이해하기 위한 언플러그드 활동 (An Unplugged Activity to Understand the PageRank Algorithm)

  • 박영기
    • 정보교육학회논문지
    • /
    • 제22권4호
    • /
    • pp.409-417
    • /
    • 2018
  • 현재 초등학생에게 인터넷을 가르칠 수 있는 여러 언플러그드 활동들이 개발되어 있다. 그러나 이 활동들은 인터넷의 작동 원리를 가르치는 것이 주목적이기 때문에, 초등학생들에게 웹(Web)의 개념을 알려주기에는 충분하지 않다. 웹은 인터넷처럼 제3차 산업혁명의 핵심 기술일 뿐만 아니라 학생들이 매일 접하는 기술이기 때문에 기본 상식으로 알아둘 필요가 있다. 본 논문에서는 초등학생에게 웹을 이해시키기 위해, PageRank 알고리즘의 원리를 이해하는 언플러그드 활동을 개발하였다. 개발된 언플러그드 활동은 실제 PageRank 알고리즘을 상당히 높은 정확도로 모사한다는 것을 실험적으로 나타내었다.

웹마이닝 시스템을 위한 페이지 로깅 시스템 (Page Logging System for Web Mining Systems)

  • 윤선희;오해석
    • 정보처리학회논문지C
    • /
    • 제8C권6호
    • /
    • pp.847-854
    • /
    • 2001
  • 웹은 그 양적인 면이나 복잡도에 있어 현재 놀라운 속도로 급성장학고 있다. 이와함께 웹사이트 설계나 웹서버나 설계와 같은 작업은 물론 단순희 웹사이트를 검색하는 작업에 있어서도 그 복잡도가 크게 증가했다. 이러한 설계 작업들에 있어서 중요한 입력 요소로는 웹사이트가 어떻게 사용되고 이TSms가에 대한 정확한 데이터가 필수적으로 요구된다. 본 연구에서는 웹 마이닝 시스템에서 요구되는 사용자의 웹페이지 이용정보 즉 사용자 세션(user sessions)을 효과적으로 획득할수 있는 페이지 로깅 시스템(Page Logging System:PLS)을 제안한다. 페이지 로깅 시스템은 사용자의 웹페이지 탐색 정보를 획득하는 페이지 로깅(page logger)와 획득한 데이처를 이용하여 사용자 세션 파일을 생성하는 로그 처리기(log processor)그리고웹 사이트의 HTML 페이지에 페이지 로거 애플릿을 삽입하는 코드로 구성된다. 제안한 PLS는 기존의 웹 마이닝 시스템에서 많은 시간과 비용을 수반했던 데이터 전처리 작업의 일부를 제거한다. 특히 사용자가 각 페이지를 탐색한 시간 (access length)을 직접 획득함으로서 트랜잭션 구분 단계를 단순화시킨다. 또한 PLS는 기존의 웹서버 로그로부터 사용자 세션을 획득함에 있어 가장 문제가 되었던 로컬 캐쉬(local cache)및 ISP가 제공하는 프록시 서버 사용으로 인하여 야기되는 문제등을 해결한다.

  • PDF

태그를 이용한 웹 페이지간의 유사도 측정 방법 (Measuring Web Page Similarity using Tags)

  • 강상욱;이기용;김현규;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.104-112
    • /
    • 2010
  • 소셜 북마킹(social bookmarking)은 현재 웹에서 가장 활발한 트렌드 중의 하나이다. 소셜 북마크 시스템을 통해 사용자들은 원하는 웹 페이지에 그의 주제 또는 내용을 나타내는 태그(tag)들을 부착할 수 있다. 지금까지의 연구들은 주로 이러한 정보를 웹 검색을 향상시키는 데 사용해왔다. 본 논문에서는 웹 페이지에 부착된 태그들을 사용하여 두 웹 페이지 간의 의미적 유사도를 측정하는 방법을 제안한다.웹 페이지는 다양한 종류의 멀티미디어 데이터로 구성되어 있기 때문에, 웹 페이지 내부에 포함된 데이터를 사용하여 웹 페이지 간의 유사도를 측정하는 것은 매우 어려운 일이다. 하지만 사용자들에 의해 웹 페이지에 부착된 태그들을 사용하면 웹 페이지 간의 유사도는 매우 효과적으로 측정될 수 있다. 본 논문에서는 WSET (Web Page Similarity Based on Entire Tags)라 하는, 태그에 기반하여 웹 페이지 간의 유사도를 측정하는 새로운 방법을 제안한다. 실험 결과는 제안하는 방법이 기존 방법에 비해 더 좋은 결과를 나타냄을 보였다.

음성인식을 위한 웹페이지 변환 웹서비스와 음성라이브러리 구현 (An Implementation of the Speech-Library and Conversion Web-Services of the Web-Page for Speech-Recognition)

  • 오지영;김윤중
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.478-482
    • /
    • 2006
  • 본 연구에서는 음성인식을 위한 웹페이지 변환 웹서비스와 음성을 녹음하고 전송하는 음성라이브러리를 구현하였다. 구현된 시스템은 웹서비스 소비자와 웹서비스 제공자들로 구성되어 있다. 웹서비스 소비자는 음성을 녹음하고 웹서비스를 호출하여 음성인식을 요청한 후 결과를 사용자에게 반환하는 기능을 한다. 웹서비스 소비자는 음성라이브러리(speech-Library)와 웹서비스와 통신하는 프록시라이브러리를 포함한다. 음성라이브러리는 사용자가 녹음한 음성에서 음성데이터만 추출하는 전처리 과정과 사용자의 음성과 매핑되는 링크를 검색하는 기능을 수행한다. 프록시라이브러리의 기능은 두개의 웹서비스를 호출하고 반환되는 결과 값을 수신 받는다. 웹서비스 제공자는 파싱 웹서비스와 음성인식 웹서비스로 구성되어있다. 파싱 웹서비스는 일반 웹페이지를 ActiveX 컨트롤을 삽입하여 음성인식이 가능한 웹페이지로 재구성한다. 음성인식 웹서비스는 기존의 연구에서 구현된 시스템을 사용하였다. 실험 결과, 일반 웹페이지를 재구성하고 링크 테이블을 생성한 것을 확인할 수 있었다. 또 한 사용자의 음성과 매핑되는 URL을 검색하는 것도 확인하였다. 또한 음성인식 웹서비스의 결과에 매핑되는 URL를 검색하여 사용자에게 웹페이지를 반환하는 것도 확인하였다.

  • PDF