• 제목/요약/키워드: 데이터웹

검색결과 3,387건 처리시간 0.031초

웹 기반 데이터베이스로부터의 유용한 데이터 추출 기법의 설계 및 응용 (Design and application of effective data extraction technique from Web databases)

  • 황두성
    • 한국산학기술학회논문지
    • /
    • 제6권4호
    • /
    • pp.309-314
    • /
    • 2005
  • 본 논문에서는 생명공학 정보를 포함하는 분산 웹 데이터베이스들로부터 관련성에 기반하여 목표 데이터를 추출하는 기법들을 분석한다. 더불어 이 분석을 기본으로 단백질 데이터의 지식 확장 방법의 설계 및 구현을 제안한다. 웹 데이터베이스를 위한 데이터 추출기는 수동 추출, 반자동 추출, 자동 추출 방법 등의 구현방법이 가능하다. 웹 데이터 추출기는 해당 웹 페이지에서 목표 데이터를 검색 및 추출하기 위하여 식별자를 이용하는 것이 일반적이다. 본 논문은 웹 데이터 추출 기법을 이용한 유기체 단백질 관련 데이터베이스 시스템의 설계와 구현을 기술한다.

  • PDF

다차원 FCM을 이용한 웹 로그 데이터의 유사 패턴 분석 (Similarity Pattern Analysis of Web Log Data using Multidimensional FCM)

  • 김미라;조동섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 마이닝(Data Mining)이란 저장된 많은 양의 자료로부터 통계적 수학적 분석방법을 이용하여 다양한 가치 있는 정보를 찾아내는 일련의 과정이다. 데이터 클러스터링은 이러한 데이터 마이닝을 위한 하나의 중요한 기법이다. 본 논문에서는 Fuzzy C-Means 알고리즘을 이용하여 웹 사용자들의 행위가 기록되어 있는 웹 로그 데이터를 데이터 클러스터링 하는 방법에 관하여 연구하고자 한다. Fuzzv C-Means 클러스터링 알고리즘은 각 데이터와 각 클러스터 중심과의 거리를 고려한 유사도 측정에 기초한 목적 함수의 최적화 방식을 사용한다. 웹 로그 데이터의 여러 필드 중에서 사용자 IP, 시간, 웹 페이지 필드를 WLDF(Web Log Data for FCM)으로 가공한 후, 다차원 Fuzzy C-Means 클러스터링을 한다. 그리고 이를 이용하여 샘플 데이터와 임의의 데이터간의 유사 패턴 분석을 하고자 한다.

  • PDF

러프 셋 이론을 이용한 시퀀스 데이터의 클러스터링 알고리즘 (A Clustering Algorithm for Sequence Data Using Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.113-119
    • /
    • 2008
  • 월드 와이드 웹에는 거대한 양의 하이퍼링크들과 웹 사용 정보들을 포함하고 있는 동적인 페이지들이 모여 있다. 이러한 구조화되어 있지 않은 웹 데이터들과 온라인 정보들의 폭발적인 증가로 인해 효율적인 웹 데이터 마이닝 툴이 필요로 하게 되었다. 최근에는 웹 사용자들의 특성을 자동적으로 발견하기 위한 Web usage mining 분야에서 많은 연구가 진행되고 있다. 본 연구에서는 웹 사용자들의 방문 기록, 단백질 시퀀스, 소매점 거래 데이터 등과 같은 시퀀스 데이터를 분석하는 방법에 대하여 연구한다. 러프 셋 이론을 이용하여 시퀀스 데이터들을 클러스터링 하는 방법을 제안하고, 간단한 예제를 통하여 제안하는 절차를 소개하고 splice 데이터셋과 합성 데이터셋을 통한 실험 결과를 제시한다.

  • PDF

이미지 검색시스템을 위한 메타데이터 구축에 관한 연구 (A Study on Metadata for an Image Retrieval System)

  • 남승희;문성빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.105-110
    • /
    • 2001
  • 웹 상에서의 이미지 정보검색은 주로 표준화되지 않은 이미지의 서지정보로부터의 검색이 이루어지고 있어 그 정확성과 효율성이 그리 높지 않은 실정이다. 따라서 이미지 검색을 위한 효과적인 메타데이터 표준의 선정은 일반인들이 신속하고 효과적으로 웹 상의 이미지를 검색할 수 있게 해주는 기초적인 단계일 것이다. 이 연구에서는 기존의 이미지 메타데이터에 대해 살펴보고 이를 토대로 하여 웹 상에서의 빠르고 효과적인 이미지 정보의 교환을 위한 핵심 메타데이터를 선정하고 XML DTD 및 스키마를 완성하였다. 그리고 선정된 메타데이터를 대상으로 이미지 검색이 이루어질 수 있도록 메타데이터 데이터베이스를 구축하고 이를 검색할 수 있는 웹기반 이미지 검색시스템을 설계하여 구현해보았다.

  • PDF

웹 로그 데이터의 OLAP 연산을 위한 희박성 분석 (Web Log Data Sparsity Analysis for OLAP)

  • 김지현;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.58-60
    • /
    • 2001
  • 하루에도 수십 수백 메가 바이트까지 증가하는 웹 로그 데이터를 이용하여 실시간에 다차원분석을 가능하게 하기 위해서는 OLAP의 적용이 필요하다. 하지만 OLAP을 적용하는데 있어서 빠른 응답시간을 얻기 위해 사전처리(Precomputation)를 수행 할 시 심각한 데이터의 희박성으로 인해 데이터 폭발 현상이 발생된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 OLAP적용 시 희박성을 일으키는 원인들을 밝히고, 2, 3 차원에서의 희박성 형태를 분석함으로써 웹 로그 데이터의 희박성 처리 방식 및 성능평가에 기반이 되게 한다.

  • PDF

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

시멘틱 웹 데이터를 위한 키워드 인덱싱 기법 (Indexing Scheme for keyword-based Query Processing on Semantic Web)

  • 신혜연;김연희;정균락;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.51-55
    • /
    • 2006
  • 시맨틱 웹은 현재 웹의 확장된 개념으로 사람뿐만 아니라 컴퓨터 스스로가 데이터를 이해하고 처리할 수 있도록 정보에 의미를 부여하는 것이다. 시맨틱 웹 데이터를 기술하는 RDF를 통해 메타데이터를 표현하고 의미론적 추론이 가능하게 되었다. 따라서 기존에 일반 사용자가 쉽게 사용할 수 있는 키워드 검색 방법을 시맨틱 웹 데이터인 RDF/RDF 스키마에 적용함으로써 차세대 웹으로 인식되고 있는 시맨틱 웹을 일반 사용자도 쉽게 활용할 수 있도록 한다. 본 논문에서는 RDF 문서의 효율적인 검색을 위해 RDF 인스턴스와 RDF 스키마 정보를 저장하고, 키워드, 속성, 클래스 타입의 복합 조건 검색을 만족시키는 키워드 인덱스와 스키마 테이블 구조를 제안한다. 본 논문에서 제안한 구조는 다양한 조건들을 만족하는 리소스 정보의 빠르고 정확한 검색이 가능하도록 한다.

  • PDF

웹 환경에서 온톨로지를 이용한 지역정보 융합 시스템 (A Local Information Integration System using Ontology on Web)

  • 최영수;정회윤;노성민;양형정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제45차 동계학술발표논문집 20권1호
    • /
    • pp.45-48
    • /
    • 2012
  • 방대한 웹 페이지의 홍수 속에서, 의미상 서로 연관되었지만 산재되어 있는 정보들을 사용자에게 효과적으로 제공하기란 그리 쉽지 않다. 웹 페이지에서 질적으로 향상된 정보를 얻기 위해서는, 이질적이지만 서로 연관된 의미를 갖는 데이터들을 하나로 융합하는 방법이 필요하다. 본 논문에서는 이질적인 형태로 이루어진 다수의 웹 페이지들을 XML 기반의 메타데이터(metadata)로 융합하여 사용자에게 제공하는 방법을 제시한다. 본 논문에서 제안한 시스템에서 메타데이터는 온톨로지와 OWL을 이용하여 융합된다. 또한 제시한 방법을 검증하기 위해 지역정보 중 부동산을 사례를 들어 시스템을 구현한다. 구현된 시스템은 각기 다른 데이터를 가지고 있는 다수의 웹 페이지를 하나의 웹 페이지로 통합하는 과정을 거쳐 XML 문서 형태로 사용자에게 제공한다.

  • PDF

웹기반 챗봇 미디어를 위한 빅데이터 처리와 UI 시각화 연구 (A Study on Big Data Processing and UI Visualization for Web-based Chatbot Media)

  • 고석주;이강빈;김경민;박준헌;정태현;박재화
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.613-615
    • /
    • 2020
  • 최근 확장된 인공지능 생태계를 바탕으로 전 분야에 챗봇 서비스(Chatbot Service)의 활용이 증가했다. 이에 따라 챗봇서비스의 활용 분야 및 전달수단도 메신저 앱을 넘어 온라인 웹, 모바일 어플리케이션 등 점차 다양화되는 추세이다. 디지털서비스의 혁신수단으로 인공지능 기반의 챗봇을 적극 도입 중이고 발전하는 챗봇 서비스에 발맞춰 챗봇이 제공하는 데이터도체계를 갖추고 있다. 이에 본 논문은 챗봇이 제공하는 데이터 중 웹을 기반으로 하는 데이터의 시각화 방안을 제시한다. 전국적으로 분포되어있는 방대한 양의 데이터를 처리하여 사용자에게 웹 미디어로 정보를 전달하기 위한 기술적 방법을 연구.개발하였다. 이는 웹을 기반으로 하는 챗봇뿐만 아니라 방대한 양의 정보를 처리해야하는 다양한 웹 미디어서비스에도 적용 가능하며 웹 미디어를더욱 보편화 할 수 있는 방법이다.

  • PDF

CERES: 백본망 로그 기반 대화형 웹 분석 시스템 (CERES: A Log-based, Interactive Web Analytics System for Backbone Networks)

  • 서일현;정연돈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.651-657
    • /
    • 2015
  • 웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.