• 제목/요약/키워드: 웹지식베이스

검색결과 118건 처리시간 0.03초

통계 및 데이터마이닝 기법을 이용한 웹 사이트 분석 (Analysis of E-biz Site Using Statistics and Data Mining Techniques)

  • 류창수;서용무
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.369-387
    • /
    • 2001
  • 인터넷 기술의 발달과 인터넷 비즈니스의 발전으로 인해 오늘날 사람들은 더욱 많은 시간을 인터넷 상에서 보내고 있다. 사용자가 기업의 웹 사이트를 방문한 기록은 웹 로그파일이라는 형태로 기업의 서버에 남게 되는데 이러한 로그 파일을 이용해 고객의 행동을 더욱 잘 이해하는 것이 매우 중요한 경쟁력의 요소로 자리 잡게 되었다. 이제까지는 웹 로그를 분석하기 위해 웹 로그 분석 도구를 이용해 왔는데, 경영 의사 결정에 도움이 되는 지식을 발견하기보다는 단순한 기술적인 통계량을 구하는데 그쳤다. 본 연구에서는 통계와 데이터마이닝 기법을 웹 데이터에 적용하여 경영 의사 결정에 도움이 되는 의미 있는 정보를 추출한다. 이를 위해 실제 인터넷 기업의 데이터를 기반으로 하여 대량 데이터를 데이터마이닝을 위해 전처리 하는 과정과 준비된 데이터를 분석하는 과정을 소개한다. 웹 사이트의 분석은 경영 지식을 찾아내기 위한 과정으로 개별 사이트가 처한 상황에 따라 분석과정이 상이해 질 수 있기 때문에 실제 기업의 데이터를 가지고 분석해 나가는 과정을 보이는 것은 의미 있는 연구라 생각된다.

  • PDF

시맨틱웹을 위한 효율적인 온톨로지 객체 모델 (Efficient Ontology Object Model for Semantic Web)

  • 윤보현;서창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.7-13
    • /
    • 2006
  • 시멘틱 웹의 대두로 인해 웹 상에서 데이터를 접근 할 수 있는 방법도 다양화 되었다. 이에 현재 진행되고 있는 웹 온톨로지 뿐만 아니라 기존에 구축된 지식베이스 시스템에 접근하여 데이터를 핸들링 할 수 있는 모델이 필요하다. 웹 온톨로지를 표현하기 위한 언어로 RDF(Resource Description Framework), DAML-OIL, OWL(Web Ontology Language)등이 사용되고 있다. 본 논문은 웹 온톨로지와 기존의 구축된 지식 베이스의 데이터를 접근, 표현 및 처리할 수 있는 온톨로지 객체 모델의 생성과 그 방법에 관한 것이다. 웹 온톨로지에 대한 접근 방법으로 각각의 언어에 맞는 파서(Parser)를 이용하여 메모리 상에 모델을 생성하여 접근하게 되어 있는 기존의 방법과는 다르게 본 논문에서는 웹 온톨로지를 표현하기 위한 모델을 계층별로 구별하여 프레임 기반의 상위 온톨로지(frame-based ontology layer), 다른 도메인에서도 사용이 가능한 공통된 어휘(vocabulary)를 표현한 핵심 온톨로지(generic ontology layer)와 각각의 온톨로지 언어에 의존적인 어휘를 표현한 기능 온톨로지(functional ontology layer)로 구성한다. 이는 표현의 중복을 없애고 재 사용성을 높이기 위한 모델을 제공함으로써, 외부 어플리케이션(온톨로지 추론, 온톨로지 병합, 온톨로지 저작 도구 등)에서의 온톨로지에 대한 쉬운 지식 표현과 접근 및 핸들링을 제공할 수 있다.

  • PDF

MRQUTER: MapReduce 프레임워크를 이용한 병렬 정성 시간 추론기 (MRQUTER : A Parallel Qualitative Temporal Reasoner Using MapReduce Framework)

  • 김종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권5호
    • /
    • pp.231-242
    • /
    • 2016
  • 빠른 웹 정보의 변화에 잘 대응하기 위해서는, 사실과 지식이 실제로 유효한 시간과 장소들도 함께 표현하고 그들 간의 관계도 추론할 수 있도록 웹 기술의 확장이 필요하다. 본 논문에서는 그동안 소규모 지식 베이스를 이용한 실험실 수준의 정성 시간 추론 연구들에서 벗어나, 웹 스케일의 대규모 지식 베이스를 추론할 수 있는 병렬 정성 시간 추론기인 MRQUTER의 설계와 구현을 소개한다. Hadoop 클러스터 시스템과 MapReduce 병렬 프로그래밍 프레임워크를 이용해 개발된 MRQUTER에서는 정성 시간 추론 과정을 인코딩 및 디코딩 작업, 역 관계 및 동일 관계 추론 작업, 이행 관계 추론 작업, 관계 정제 작업 등 몇 개의 MapReduce 작업으로 나누고, 맵 함수와 리듀스 함수로 구현되는 각각의 단위 추론 작업을 효율화하기 위한 최적화 기술들을 적용하였다. 대규모 벤치마킹 시간 지식 베이스를 이용한 실험을 통해, MRQUTER의 높은 추론 성능과 확장성을 확인하였다.

전자상거래 머천트 시스템에서의 원투원 마케팅을 위한 데이터마이닝 시스템의 설계 및 구현 (Design and Implementation of A Data Mining System for One-to-One Marketing in EC Merchant Systems)

  • 김종달;홍정희;김성민;남도원;이동하;김성훈;이전영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.117-119
    • /
    • 1999
  • 전자상거래에서 판매 실적을 높이기 위한 효과적인 방법의 하나는 사용자에 따라 개별화된 정보의 제공, 즉 원투원 마케팅의 개념을 도입하는 것이다. 이를 위해서는 사용자의 구매 성향이나 사용자의 특성에 대한 지식베이스가 있어야 한다. 이러한 지식베이스로 데이터마이닝 기법중의 하나인 연관규칙을 도입하였다. 본 논문에서는 연관규칙을 기본 연산으로 하는 데이터마이닝 시스템의 설계와 구현을 기술하였다. 사용자와 제품간의 연관규칙을 추출하여 동적으로 제공되는 웹 문서를 생성하는데 필요한 지식베이스를 구축하였다. 또한 구축된 데이터마이닝 시스템은 연관규칙 탐사 엔진과 개념 계층 관리기로 구성되어 있으며, 대용량의 데이터를 다루기 위해 기존의 방법과는 다른 파일을 기반으로 한 빈번항목집합 인덱싱 기법을 제시하였다.

  • PDF

RDF 문서의 저장소와 RDQL 질의 처리기의 설계 및 구현 (Design and Implementation of RDF Storage and RDQL Query Processor)

  • 정호영;김정민;정준원;김종남;임동혁;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.363-371
    • /
    • 2006
  • 컴퓨터의 발전에도 불구하고 수많은 전자 문서가 범람하는 현재와 같은 상황에서 원하는 정보를 얻기는 더욱 어려워지고 있다. 이와 같은 상황에서 데이타를 얼마나 빠르게 처리하는지 보다 얼마나 의미 있는 정보를 얻을 수 있는지가 중요한 문제가 되고 있다. 이에 웹 자원에 대해 지식기반의 메타 데이타를 기술하고 이를 이용한 지능적인 정보 처리를 목적으로 하는 것이 시멘틱 웹이다. 또한 시멘틱 웹이 발전함에 따라 웹 자원 못지 않게 지식자원에 대한 중요성도 커질 수밖에 없다. 본 논문에서는 웹 자원에 대해 지식구조를 기술하여 지능적인 정보 처리를 목적으로 하는 RDF에 대해 관계형 데이타베이스 모델을 설계하고 저장 시스템을 통해 의미 있는 질의를 처리할 수 있는 질의 처리기를 설계 및 구축하여 효율적인 메타 데이타의 저장, 관리 및 질의를 지원하고자 한다. 저장을 위한 모델은 관계형 모델을 사용함으로써 객체형 모델이나 메모리 모델을 사용하는 한계점을 극복할 수 있을 것이다.

빅데이터 활용을 위한 클라우드 기반의 링크드 데이터 인덱싱 시스템 (Linked Data Indexing System for Big Data Processing on the Cloud System)

  • 이민아;정진욱;김응희;김홍기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1596-1598
    • /
    • 2013
  • 2000년대 초반 등장한 시맨틱 웹 기술은 최근 재조명을 받고 있다. 이는 초기에 구축된 시맨틱 데이터와 최근에 구축하는 시맨틱 데이터의 양적 비교를 통해서도 알 수 있다. 그러나 기존의 시맨틱웹 기술은 대용량 데이터를 처리하는데 어려움이 많아, 이를 처리하기 위한 기술이 중요한 문제로 대두되고 있다. 본 논문에서는 앞에서 말한 바와 같이, 기존 RDF Repository의 대안으로, 다양한 데이터 베이스를 복합적으로 사용하였다. RDF 데이터를 효율적으로 처리하기 위해, NoSQL DB와 메모리 기반 관계형 DB를 활용하여 시스템을 구성하였다. 또한, 사용자가 이에 대한 별도의 지식 없이 기존의 SPARQL 질의를 그대로 사용하여, 원하는 결과를 얻을 수 있는 시스템을 제안한다.

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.

ASP System구축을 위한 액티브 서버 환경연구 (The Active Server Environment for ASP System develop)

  • 최정호;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.319-323
    • /
    • 2000
  • ASP는 HTML태그와 같이 사용되므로 HTML에 대해서 자세해 알고 있어야 이 부분을 공부하는 데 별 무리가 없을 것이다. 프로그래밍에 대해서 어느 정도 기초적인 지식이 있다고 가정하겠으며 파일 입/출력이나 데이터 베이스의 표준 언어인 SQL 정도는 어느 정도 지식이 필요하다. 또한 HTML 파일 작성에 필요한 자바 스크립트나 비주얼 베이직 스크립트는 물론이고 그 외 HTML 파일의 내용을 요구에 맞게 배치하게 위해 사용하는 CSS1의 기본적인 내용 정도는 알고 있어야 한다고 본다. 뿐만 아니라 CGI 프로그래밍과 웹 서버와 클라이언트의 상호 작용 관계, 그리고 웹 서버 관리하는 방법 등의 내용을 완벽하게 갖추고 있다고는 생각하지는 않는다. 하지만 앞으로 진행해 나가면서 직접 설명을 하지는 않겠지만 이와 같은 기술들이 모두 사용이 될 것이고, ASP는 다른 웹 애플리케이션 언어보다 쉽고, 웹에서의 많은 응용과, 무한한 가능성을 내포하고 있다는 것을 말하고 싶다. 그러므로 ASP에 접근하는 방법에 있어서 운영하는 방법을 연구하였다.

망각에 의한 기억 (Memorization by Oblivion)

  • 이중우;손세호;권순학
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.208-212
    • /
    • 2001
  • 본 논문은 무한 지식베이스에 가까운 웹으로부터 추출된 지식의 최적화 관리에 관한 것이다. 비록 웹 문서로부터 사실이나 규칙과 같은 유용한 지식을 추출했다 하더라도 일반화되지 않은 지식을 포함하고 있으므로 이를 적절하게 제거함으로서 지식베이스가 일반화된 지식만을 포함하도록 관리해야 할 필요가 있다 이를 위하여 본 논문에서는 인간의 망각에 기반한 기억방식을 응용한 망각에 의한 기억알고리즘을 제안한다. 본 논문에서는 기억을 관심도, 망각정도와 시간의 함수로 가정한다. 즉, 관심 있는 지식을 더 잘 기억하고, 잘 망각할수록 그리고 기억된 지 오래될 수륵 기억은 지수함수 적으로 감소한다. 여기서, 망각이란 이전의 기억정도, 기억능력 그리고 자극횟수의 함수로서, 이전에 기억된 정도가 크고, 기억능력이 크고, 자주 자극 받을수록 그 지식은 덜 망각하게 된다.

  • PDF

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;최선완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.471-473
    • /
    • 1999
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 실행해서 인터넷에 연결되어 있는 수많은 웹 서버들을 방문해서 웹 문서를 획득하고, 인덱싱 기법을 써서 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축한다. 정보 추출을 위해 웹 로봇을 운영할 때 웹 서버에 대한 사전 지식 없이 진행된다면 수많은 불필요한 요구가 전송돼서 인터넷 트래픽을 증가시키는 요인이 된다. 하지만 웹 서버가 사전에 자신이 공개할 문서에 대한 요약 정보를 웹 로봇에게 통보하고, 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 처리한다면 불필요한 인터넷 트래픽을 줄일 수 있을 뿐만 아니라 검색 엔진의 정보의 정확도를 높이고, 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동된 사항들을 종합 정리해서 등록된 각 웹 로봇에게 전송하는 문서 감시 통보 시스템과 통보된 요약 정보를 토대로 웹 서버로부터 해당 문서를 전송받아 필요한 인덱스 정보를 추출하는 효율적인 웹 로봇을 제안한다.

  • PDF