• 제목/요약/키워드: 웹 마이닝 시스템

검색결과 144건 처리시간 0.024초

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

웹마이닝을 위한 퍼지 클러스터링 알고리즘 (Fuzzy Clustering Algorithm for Web-mining)

  • 임영희;송지영;박대희
    • 한국지능시스템학회논문지
    • /
    • 제12권3호
    • /
    • pp.219-227
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Fuzzy Concept ART는 무서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 퍼지이론에 기반하여 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

웹 미디어 데이터를 이용한 이슈 예측 시스템 설계 (Designing issue prediction system using web media data)

  • 윤현노;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.501-503
    • /
    • 2019
  • IT 기술의 발달에 따라 다양한 웹 미디어의 데이터가 기하급수적으로 증가하고 있으며 이는 비정형 형태의 빅 데이터로 활용도가 매우 높다. 그 중 인터넷 뉴스나 SNS 등은 시간의 흐름에 따라 다양한 이슈들이 서로 영향을 주며 발생, 결합, 분화, 소멸된다. 본 논문에서는 인터넷상에서 발생하는 비정형 데이터들을 수집하여 텍스트 마이닝을 통해 글의 주요이슈 키워드, 카테고리, 날짜 등을 추출한다. 추출한 데이터를 일정 기간별로 나누어 이슈 매핑을 통해 이슈간의 상관관계를 분석한다. 나아가 LSTM 또는 GRU를 이용한 딥러닝을 통해 앞으로의 이슈를 예측하는 시스템 설계를 제안한다.

데이터 마이닝 기법을 이용한 상품 추천 시스템 (Recommending System of Products based on Data mining Technique)

  • 정민아;박경우;조성의
    • 한국정보통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.608-613
    • /
    • 2006
  • 전자상거래의 활성화로 인하여 인터넷상에 많은 쇼핑몰이 존재한다. 상품 추천 시스템은 고객이 원하는 정보를 얻기 위해 소요되는 시간과 노력을 절약하기 위해 필요성이 강조되고 있다. 본 논문에서는 고객의 접근 로그 데이터를 분석하기 위해 데이터 마이닝 기법 중 분류 기법을 이용하였다. 접근 로그 데이터는 고객이 쇼핑몰에 접근하였거나 접근하여 상품을 구매한 내역 등에 관한 정보를 포함하고 있다. 제안한 시스템은 두 단계로 구성한다. 제 1 단계는 데이터 필터링 모듈과 고객이 접근한 웹 페이지들 사이의 관련성을 추출하는 모듈로 구성하고, 제 2단계는 개인화 모듈과 규칙 생성 모듈로 이루어져 있다. 결과적으로 제안한 시스템은 고객의 패턴을 파악하는데 있어서 고객에게 추천하는 웹페이지들을 등급화하여 제시함으로써 고객에게 상품 추천을 효율적으로 할 수 있다.

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

인공신경망 기반 웹서비스 분류체계 생성 프레임워크의 실증적 평가 (Facilitating Web Service Taxonomy Generation : An Artificial Neural Network based Framework, A Prototype Systems, and Evaluation)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.33-54
    • /
    • 2010
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소가 완성도 높게 조직화되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 분류체계를 효율적으로 제공할수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계를 제안하여 왔지만, 대부분의 분류체계는 활용하기에는 제대로 발달하지 못하였거나 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 프로토타입 시스템로 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

클라우드 시스템에서 소셜 시멘틱 웹 기반 협력 프레임 워크 (Collaboration Framework based on Social Semantic Web for Cloud Systems)

  • 마테오 로미오;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-74
    • /
    • 2012
  • 클라우드 서비스는 비즈니스 향상을 위해 사용되며, 특히, 고객 관리에서는 고객 서비스 향상을 위한 툴로서 소셜 네트워크를 사용한다. 그러나 대부분의 클라우드 시스템은 시멘틱 구조를 지원하지 않기 때문에 소셜 네트워크 사이트의 중요한 정보는 비즈니스 정책을 위해 처리 및 사용이 어렵다. 본 연구에서는 클라우드 시스템에서 소셜 시멘틱 웹에 기반을 둔 협력 프레임 워크를 제안한다. 제안한 프레임 워크는 클라우드 소비자와 서비스 제공자를 위한 효율적인 협력시스템을 제공하기 위해, 소셜 시멘틱 웹 지원을 위한 요소들로 구성된다. 지식획득모듈은 소셜 에이전트가 수집한 데이터로부터 규칙을 추출하며, 이 규칙들은 협력 및 경영정책에 사용된다. 본 논문은 제안한 시멘틱 모델에서 소셜 네트워크 사이트 데이터의 처리 및 효율적인 협력을 위한 클라우드 서비스 제공자의 가상 그룹핑을 위해 사용될 패턴 추출에 대한 구현 결과를 보여준다.

사용자 적응적 가이드 방식의 R&D 기획 시스템에 대하여 (On User Adaptive and Guiding R&D Planning System)

  • 정한민;김진형;정도헌;조민희;송사광;이승우;이상환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.411-413
    • /
    • 2012
  • R&D 기획은 연구 개발 전주기에 있어 수행, 평가에 앞서 필수적으로 선행되어야 하는 행위이다. 그렇지만, 아직까지 R&D 기획에서 무엇을 다루어야 하는지에 대한 원칙, 사례만 존재하고 이를 통합 시스템화하지 못하고 있어, 대부분의 연구자들은 논문, 특허, 웹을 포함한 다양한 자원들로부터 정보를 수집, 취합, 분석하는 데 많은 시간을 뺏기고 있는 형편이다. 이 문제를 해결하기 위해서 본 연구 이전에 시맨틱 기술과 텍스트 마이닝 기술을 이용하여 R&D 전략 수립을 지원하고자 InSciTe, InSciTe Advanced 등이 개발되었지만, R&D 기획이라는 궁극적 목적 내에서도 사용자마다 다양한 시나리오들을 분별하여 지원하기에는 어려움이 많았다. 이에 본 연구는 사용자 적응적 가이드 방식을 통합적으로 적용하여 실시간으로 변화하는 사용자 관심을 파악하고, 대표적 시나리오들에 맞추어 사용자가 목적을 효과적으로 달성할 수 있도록 지원하는 데 초점을 맞추고자 한다. 먼저 사용자 적응적 가이드 방식의 R&D 기획 시스템 구축을 위해 필요한 요구 사항들과 이들을 효과적으로 시스템에 반영하기 위한 온톨로지, 웹 서비스 중심의 설계 원칙들을 제시함으로써 R&D 기획뿐만 아니라 타 분야에서도 유연하게 적용할 수 있는 기반을 제공한다.

연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화 (Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권8호
    • /
    • pp.560-569
    • /
    • 2001
  • 지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

  • PDF

웹페이지 관심도 분석에 관한 연구 (A Study On Analysis of Interestingness for Web-pages)

  • 김창근;정연홍;김일
    • 한국정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.687-695
    • /
    • 2007
  • 최근 인터넷 쇼핑몰 등을 통한 전자상거래가 증가하면서 웹페이지를 탐색하는 방문자의 관심도를 분석하여 개인화 등에 활용되는 예가 증가하고 있다. 웹사이트 방문자의 관심도 분석 방법으로는 클릭스트림 기반의 분석 방법이 이용되고 있지만, 이러한 기법은 인터넷 쇼핑 몰과 같이 많은 양의 정보를 제공하는 웹페이지의 경우에는 방문자가 어떠한 정보에 관심이 많은지에 대한분석이 어렵다. 웹페이지와 같이 많은 양의 정보를 제공하는 경우에 제한된 크기의 모니터로는 한 화면에 모든 정보를 표현하기가 어렵다. 따라서 웹페이지를 표현하는 웹브라우저는 이러한 표현의 한계를 극복하기 위하여 페이지 스크롤 기능을 제공하고 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 웹브라우저 내에서 스크롤바 위치와 윈도우 커서의 움직임을 주기적으로 수집하여 사용자의 관심도를 분석하는 웹페이지 관심도 분석 시스템을 제안하고 분석 및 설계하였다.