• 제목/요약/키워드: 데이타마이닝 시스템

검색결과 39건 처리시간 0.031초

e-Business에서의 BI지원 데이타마이닝 시스템 (A Data Mining System for Supporting of Business Intelligence in e-Business)

  • 이준욱;백옥현;류근호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권5호
    • /
    • pp.489-500
    • /
    • 2002
  • 비즈니스 인텔리젼스에 대한 관심이 증대되면서 핵심 기술로써 데이타마이닝의 적용이 증대되고 있다. e-Business에서의 비즈니스 인텔리젼스를 지원하기 위해 다양한 마이닝 연산을 통합적으로 제공하는 마이닝 시스템은 데이타베이스 시스템과 유연하게 통합될 수 있어야 하며, 또한 다양한 비즈니스 응용에서의 마케팅 프로세스를 쉽게 구현할 수 있는 인터페이스를 제공하여야 한다. 이 연구에서는 e-Business영역에서의 BI를 지원하기 위해 데이타마이닝 기법을 통합적으로 제공하는 시스템으로써 EC-DaMiner 시스템을 설계, 구현하였다. 데이타마이닝 시스템은 기존의 데이타베이스 시스템과의 표준적인 인터페이스를 통하여 연동될 수 있도록 하였다. 아울러 비즈니스 어플리케이션들은 마이닝 질의어인 MQL을 통하여 규칙을 탐사하고 탐사된 규칙을 기존의 마케팅 데이타베이스에 모델화하여 반영함으로써 마케팅 전략의 구현을 용이하게 하였다.

데이타 웨어하우스 환경에서의 설명기반 데이타 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1999년도 춘계공동학술대회: 지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이타들이 축적되고 있다. 이러한 데이타로부터 유용한 지식을 추출하기 위해 여러 가지 데이타 마이닝 기법들이 연구되어왔다. 특히 데이타 웨어하우스의 등장은 이러한 데이타 마이닝에 있어 필요한 데이타 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이타 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성이 없는(trivial, spurious and irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이타 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이타 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적은 이러한 데이타 마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이타 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이타 웨어하우스로부터 연관규칙을 검증하는 일련의 아키텍쳐(architecture)를 제시하고자 한다. 먼저 데이타 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이타 웨어하우스와 데이타 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이타 웨어하우스의 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현 방법으로 Relational predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사론 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이타 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 고메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이타 마이닝 접근을 제시하였다는데 있다.

  • PDF

다차원 데이터큐브를 이용한 멀티미디어 데이터 마이닝 연구 (A Study on the MultiMedia Data Mining using Multi-dimensional DataCube)

  • 김진옥;황대준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2001
  • 멀티미디어 데이터의 증가와 마이닝 기술의 발전으로 인해 멀티미디어 마이닝에 대한 관심이 증가하고 있다. 본 논문에서는 내용기반의 정보검색 기술과 다차원 다중 데이터큐브 구축기술을 통해 멀터미디어데이타의 마이닝을 구현하는 시스템에 대해 제안한다. 제안 시스템은 멀티미디어 데이터에 내용기반의 정보추출 시스템을 적용하여 성분백터를 추출하고 이를 메타데이타로 한 데이스베이스를 구축한다. 그리고 데이타베이스로부터 지식을 마이닝할 수 있도록 다차원 데이터큐브를 구축하여 빠른 데이터검색과 마이닝결과을 이용자에게 보여주는 모듈로 구성된다. 다차원 데이터큐브는 다중 어레이 구조로써 다차원 데이터를 저장하고, 저장된 여러 데이터 레벨 정보에서 가장 중요한 주제를 통합 생성하여 효율적으로 처리하므로 멀티미디어 데이터를 마이닝하는데 효과적인 방법이다. 또만 다차원데이타큐브를 다중으로 생성하는 방법은 데이터 마이닝 속도를 높이는데 효율적이다.

  • PDF

시간 데이타마이닝 프레임워크 (Temporal Data Mining Framework)

  • 이준욱;이용준;류근호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.365-380
    • /
    • 2002
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 "시간값을 가진 대용량 데이타로부터 이전에 잘 알려지지는 않았지만, 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술"로 정의된다. 시간 지식이란 주기적 패턴, 캘린더 패턴, 경향 등과 같이 시간 의미와 시간 관계를 가진 지식을 말한다. 실세계에서는 환자의 병력, 상품 구매 이력, 웹 로그 등과 같은 다양한 시간 데이타가 존재하며 이로부터 여러 형태의 유용한 시간 지식을 찾아낼 수 있다. 데이타마이닝에 대한 연구가 진행되면서 순차 패턴, 유사 시계열 탐사, 주기적 연관규칙 탐사 등과 같이 시간 지식을 탐사하고자 하는 시간 데이타마이닝에 대한 부분적인 연구가 수행되었다. 그러나 기존 연구는 단순히 데이타의 발생 순서 및 유사한 패턴을 찾아내는데 중점을 두고 있어 데이타가 포함하고 있는 시간 의미와 시간 관계를 탐사하는데 부족하며, 시간 지식의 전체적인 측면보다는 연관 규칙과 같은 일부분만을 다루고 있다는 문제점을 가지고 있다. 따라서 이 논문에서는 시간 데이타마이닝에 대한 체계적인 연구를 위하여 시간 데이타마이닝에 대한 기존 연구 내용과 해결해야 할 문제점을 분석하고 이를 바탕으로 전체적인 프레임워크를 제시하였다. 또한 그 구현 방안 및 적용평가를 수행하였다. 프레임워크에서는 시간 데이타마이닝 모델을 제안하고, 이를 바탕으로 시간 데이타마이닝 질의어와 시간 지식을 탐사할 수 있는 시간 데이타마이닝 시스템을 설계하였다.

gCRM과 공간데이타마이닝 (gCRM and Spatial Data Mining)

  • 황정래;이기준
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2002년도 춘계학술대회 논문집
    • /
    • pp.38-44
    • /
    • 2002
  • 고객관계관리(CRM)나 마케팅과 같은 경영방식에서도 대용량의 공간 데이터베이스를 사용하는 지리정보시스템(GIS)과 같은 응용분야를 접목하고 있다. gCRM은 지리정보시스템과 고객관계관리를 결합한 것으로, 이러한 실정을 단적으로 보여 주고 있는 경영방식이다. gCRM은 대용량의 데이터베이스로부터 관심 있는 분야를 찾아내고 분석하게 된다. 그러기 위해서는 데이터마이닝이라는 기술이 필요하다. 하지만, gCRM은 일반적인 데이터베이스뿐만 아니라 공간 데이터베이스 역시 많이 사용되어진다. 이러한 공간데이터베이스로부터 관심 있는 부분이나 관계 그리고 특성 등을 찾아내기 위해서는 공간데이타마이닝이 요구된다. 본 논문에서는 gCRM 솔루션들의 기능을 중심으로 다양한 공간데이타마이닝 기법과 어떠한 관계가 있는지를 살펴봄으로써 gCRM과 공간데이타마이닝이 접목할 수 있는 부분에 대하여 정리하였다.

  • PDF

공간 데이타 마이닝을 위한 개방형 객체 관리 시스템의 설계 및 구현 (Design and Implementation of an Open Object Management System for Spatial Data Mining)

  • 윤재관;오병우;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제1권1호
    • /
    • pp.5-18
    • /
    • 1999
  • 최근 들어 공간 데이타베이스 시스템에 저장되어 있는 공간 데이타로부터 새로운 지식을 자동으로 추출해야 할 필요성이 증가함에 따라 공간 데이타베이스 시스템에 명시적으로 저장되어 있지 않은 암시적인 지식이나 공간 데이타간의 연관 관계, 그리고 다른 새로운 지식을 추출해 내는 학문인 공간 데이타 마이닝에 대한 연구가 증가하고 있다. 이러한 유용한 지식을 공간 데이타로부터 추출하기 위해서는 공간 데이타를 효율적으로 저장하고, 빠른 인덱스와 검색 기능을 제공하고, 또한 분산환경을 지원할 수 있는 객체 관리 시스템이 필요하다. 본 논문에서는 공간 데이타 마이닝 시스템에서 사용되는 공간, 비공간, 지식 데이타를 효율적으로 관리할 수 있는 개방형 객체 관리 시스템을 설계 및 구현하였다. 개방형 객체 관리 시스템을 개발하기 위하여 본 논문에서는 현재 많은 분야에서 사용되고 있는 Open OODB에 공간 데이타 타입의 지원, 동적인 클래스의 생성 객체-지향 개념의 상속성 지원, 공간 인덱스의 지윈, 공간 연산 함수 제공 등의 기능을 추가하여 확장하였다. 또한, 본 논문에서는 다른 공간 데이타베이스 시스템이나 공간 데이타 마이닝 시스템과의 상호운영성을 증가시키기 위하여 데이타 모델링을 위해 ODMG 2.0, 데이타 모델링과 공간 데이타의 교환을 위해 SDTS(Spatial Data Transfer Standard), 그리고 클라이언트와 서버간의 효율적 연동을 위해 OpenGIS Simple Features Specification for CORBA를 수용하였다.

  • PDF

데이타마이닝 기법을 이용한 문서 자동 분류 모델 (An Automatic Text Classification Model using Association Rules)

  • 김영인;이진용;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

XMLA를 사용한 OLAP과 데이타 마이닝 분석이 가능한 리포팅 툴의 구현 (Implementation of Reporting Tool Supporting OLAP and Data Mining Analysis Using XMLA)

  • 최지웅;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.154-166
    • /
    • 2009
  • 기업 운영에서 발생하는 데이타의 수집과 통합에서부터 의사결정을 위한 정보의 분석 및 그 결과로의 접근을 제공하기 위한 BI 환경에서 최종 사용자들을 위한 프론트-엔드 툴로서는 데이터베이스 쿼리 및 리포팅 툴, OLAP 툴, 데이타 마이닝 툴이 대표적이다. 데이타베이스 쿼리 및 리포팅 툴은 SQL 쿼리 결과 셋을 반영하는 워드프로세서가 생성하는 문서 수준의 정교한 동적 문서의 생성과 웹 환경을 통한 문서 배포 능력이 장점이지만 데이타 소스가 RDBMS로 제한되어 있다. 반면, OLAP 툴과 데이타 마이닝 툴은 각기 고유한 방식으로 데이타를 분석할 수 있는 능력은 강력하지만 차트와 표 등의 제한적인 컴포넌트들만으로 분석 결과를 제공할 수 있다는 한계를 가지고 있다. 본 논문에서는 상호 보완적으로 사용될 수 있는 BI 환경을 위한 프론트-엔드 툴들을 통합하였다. 본 논문에서 제안하는 리포팅 툴은 RDBMS에서 데이타를 추출하기 위한 SQL 기반의 쿼리 편집기만을 내장한 기존의 리포팅 툴과 달리 OLAP과 데이타 마이닝을 위한 쿼리 편집기를 추가하여 OLAP과 데이타 마이닝 서버로부터도 데이터를 추출할 수 있다. 그리고 기존의 리포팅 툴은 동일한 문서를 다수의 사용자들이 조회하는 상황에서 반복된 문서 생성을 피하기 위하여 서버 측에서 문서를 생성하는 구조를 갖지만 이 시스템은 다수의 사용자들을 위한 문서배포 목적이 아닌 사용자들이 데이타 분석 목적으로 서로 다른 문서를 생성하는 상황에 적합하도록 서버 측에 비해 제한된 리소스 환경을 갖는 클라이언트 측에서 동작하는 리포트 뷰어에서 대량의 데이타를 포함하는 문서를 생성할 수 있는 구조와 처리방식을 갖고 있다. 또한 이 시스템에서 접근하는 세가지 종류의 데이타 소스에서 추출한 데이타들을 연계하여 하나의 문서에서 통합할 수 있도록 하는 자료구조를 갖추고 있다. 마지막으로 이 시스템은 특정 벤더의 OLAP과 데이타 마이닝 서버에 종속적으로 동작하지 않기 위하여 웹 서비스 기반의 XMLA를 이들 서버와의 통신 프로토콜로써 선택하였다.

웹 사용 데이타와 하이퍼링크 구조를 통합한 웹 네비게이션 마이닝 (Web Navigation Mining by Integrating Web Usage Data and Hyperlink Structures)

  • 구흠모;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.416-427
    • /
    • 2005
  • 웹 네비게이션 마이닝은 웹 접근 로그 데이타를 분석하여 웹을 항해하는 패턴을 발견하는 기법이다. 하지만 사용자들은 웹을 항해할 때 정상적인 계층적 경로를 따르지 않는 경우가 많기 때문에 웹 접근 로그 데이타에는 웹 항해 패턴 발견에 장애가 되는 잡음 정보가 많이 포함된다. 결과적으로 웹 접근 로그 데이타만을 이용한 기존의 웹 네비게이션 마이닝은 이런 잡음을 해결하기 위한 전처리 과정의 복잡성 등으로 인하여 웹 항해 패턴을 효율적으로 발견하는 데 좋은 성능을 보여주지 못했다. 이런 문제를 해결하기 위해 본 논문에서는 웹 접근 로그 데이타 외에 웹의 하이퍼링크 구조 정보를 함께 이용하여 웹 네비게이션 패턴을 효율적으로 발견하는 기법을 제시하였다. 웹 사이트의 계층적인 하이퍼링크 구조로부터 생성된 WebTree라 불리는 구조를 이용하여 웹 접근 로그 데이타에 포함된 비정상적인 경로에 대한 잡음을 효율적으로 제거하였다. 이 기법을 이용해 구현된 SPMiner(Sequence Pattern Miner) 시스템은 로그 데이타와 하이퍼링크 계층구조를 함께 이용함으로써 전처리의 오버헤드를 현저히 감소시켰고 결과적으로 효율적으로 네비게이션 패턴을 찾아주고 이를 추천에 이용할 수 있는 기반을 제시하였다.

웹 마이닝을 위한 입력 데이타의 전처리과정에서 사용자구분과 세션보정 (User Identification and Session completion in Input Data Preprocessing for Web Mining)

  • 최영환;이상용
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권9호
    • /
    • pp.843-849
    • /
    • 2003
  • 웹 이용 마이닝은 거대한 웹 로그들을 이용하여 웹 사용자의 이용 패턴을 분석하는 데이타 마이닝 기술이다. 이러한 웹 이용 마이닝 기술을 사용하기 위해서는 전처리 과정 중의 사용자와 세션을 정확하게 구분해야 하는데, 표준 웹 로그 형식의 로그 파일만으로는 완전히 구분할 수 없다. 사용자와 세션을 구분하기 위해서는 로컬캐시, 방화벽, ISP, 사용자 프라이버시, 쿠키 등과 같은 많은 문제들이 있지만, 이 문제를 해결하기 위한 명확한 방법은 아직 없다. 특히, 로컬캐시 문제는 웹 마이닝 시스템의 입력으로 사용되는 사용자 세션을 구분하는데 가장 어려운 문제이다 본 연구에서는 참조 로그와 에이전트 로그, 그리고 액세스 로그 둥의 서버측 클릭스트림 데이타만을 이용하여 로컬캐시 문제를 해결하고, 사용자 세션을 구분하고 세션을 보정하는 휴리스틱 방법을 제안한다.