• 제목/요약/키워드: 데이터통합기법

검색결과 712건 처리시간 0.029초

데이터 웨어하우스 환경에서의 설명기반 데이터 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 1999년도 춘계공동학술대회-지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이터들이 축적되고 있다. 이러한 데이터로부터 유용한 지식을 추출하기 위해 여러 가지 데이터 마이닝 기법들이 연구되어왔다. 특히 데이터 웨어하우스의 등장은 이러한 데이터 마이닝에 있어 필요한 데이터 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이터 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성 없는(trivial, spurious and irrelevant)내용만 무수히 쏟아낼 수 있다. 그러므로 데이터 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라도 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이터 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문에서는 데이터 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이터 웨어하우스로부터 연관규칙을 검증하는 일련의 아텍쳐(architecture)를 제시하고다 한다. 먼저 데이터 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이터 웨어하우스와 데이터 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이터 웨어하우스으 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기위한 지식표현 방법으로 Relational Predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사를 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이터 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 도메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이터 마이닝 접근을 제시하였다는데 있다.

  • PDF

내용 기반 이미지 검색을 위한 복합 질의문 계획 생성 기법 (Generating Combined Query Plan for Content-Based Image Retrieval)

  • 박미화;엄기현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권4호
    • /
    • pp.562-571
    • /
    • 2000
  • 이미지 데이터는 텍스트 데이터와는 달리 다양한 색상과 모양, 질감과 같은 비정형적인 특징을 가진다. 따라서 이미지 데이터베이스는 텍스트 기반의 전통 데이터베이스와는 다른 모델링 방법과 질의, 검색 방법을 사용한. 특히, 내용 기반 이미지 검색에서의 검색 속도와 정확도를 향상시키기 위해서는 새로운 복합 질의문 계획 생성 기법이 필요하다. 본 논문에서는 이를 위해 먼저, 단일 조건을 갖는 시각 질의에 대한 처리 기법들을 토대로 여러 조건을 갖는 복합 질의를 처리하기 위한 복합 질의문 계획 생성기법인 SSCC(Similarity Search for Conjunction Combination Query) 알고리즘을 제안한다. SSCC는 이미지 데이터베이스 검색 시스템에서 복합 질의를 처리하기 위한 질의 최적화 과정에서 질의 수행 시간과 투플 I/O를 최소화하는 질의문 계획을 생성하기 위해 사용된다. SSCC 알고리즘은 복합질의를 단일 질의들로 준해하고 퍼지 집합 이론을 도입하여 단일 질의의 결과들을 통합한다. 논문에서 연구된 내용 기반 복합 질의문 계획 생성 기법은 특정 이미지 영역에 국한되지 않으며 다양한 종류의 시각 질의를 수행하기 위한 효율적인 질의문 계획 생성 기법으로 사용될 수 있다.

  • PDF

마이크로어레이 데이터 공유 시스템 (Microarray Data Sharing System)

  • 윤지희;홍동완;이종근
    • 한국콘텐츠학회논문지
    • /
    • 제9권8호
    • /
    • pp.18-31
    • /
    • 2009
  • 최근, 마이크로어레이 실험 데이터의 품질과 재생산성에 대한 신뢰도가 증가하고 있어 마이크로어레이 데이터의 공유 및 활용에 대한 요구가 급속히 증가하고 있다. 그러나 공개되어 있는 국내, 외 마이크로어레이 데이터는 실험 방식, 플랫폼 등에 따라 서로 다른 데이터 항목과 포맷을 가지므로 데이터의 실제적 접근 및 활용이 어려운 상황이다. 본 논문에서는 실험 플랫폼, 데이터 포맷, 정규화 기법, 분석 방식 등이 서로 다른 기존의 마이크로어레이 데이터를 효율적으로 검색, 공유, 통합할 수 있는 마이크로어레이 데이터 공유 시스템을 제안한다. 제안된 시스템은 웹 서비스 기반 기술을 이용하여 분산된 마이크로어레이 데이터를 통합하며, 각 사이트의 사용자는 UDDI를 통하여 검색한 데이터를 표준 MGED 기반의 공통 데이터 구조로 자동 변환하여 다운 받을 수 있다. 정의된 공통 데이터 구조는 IDF,ADF,SDRF,EDF로 구성되어 다양한 구조의 마이크로어레이를 통합할 수 있는 템플릿 역할을 수행하며, MAGE-ML, MAGE-TAB, XML Schema 문서로 저장할 수 있다. 또한 제안된 시스템의 자동 데이터 제출기, 파일 관리자 등은 마이크로어레이 데이터 공유를 위한 다양한 부가 기능을 제공한다.

항공장착물의 전달정렬을 위한 통합항법장치 시간 지연 오차 분석 및 보상 기법 (Time Delay Error Analysis and Compensation Method of Integrated Navigation System for Aircraft Store)

  • 서병일
    • 한국항공우주학회지
    • /
    • 제46권7호
    • /
    • pp.592-601
    • /
    • 2018
  • 군용항공기에 장착되는 전자 장비 중 하나인 항공장착물 GPS/INS 통합항법장치는 투하전에는 항공기 날개에 가려 GPS 위성 신호의 직접적인 수신이 불가능하므로 항공기로부터 GPS 항법 데이터를 전달 받아 필터 통합에 이용하고, 투하 후에는 안테나를 통해 직접 수신한 GPS 정보를 이용하여 통합 항법을 수행한다. 이때, 무선을 이용하여 GPS 항법데이터를 전송할 경우 항공기의 별다른 개조 없이 구형 항공기에서도 운용이 가능하다. 그러나 항공기의 항법데이터가 무선을 통해 장착물의 통합항법필터에 전달되기까지 지연이 발생하게 되며, 이는 GPS 측정치와 INS 정보의 시각동기에 영향을 미쳐 통합항법 성능에 영향을 미치게 된다. 이에 본 논문에서는 무선을 통하여 GPS 데이터를 수신하는 항공장착물의 GPS/INS 통합항법시스템을 구현할 때 발생할 수 있는 생성 및 전송지연의 영향을 분석하고 이를 보상하는 알고리즘을 제안하였다.

다중소스 데이터 융합 기반의 가스 누출 예측을 위한 선형 보간 및 머신러닝 기법 (Linear interpolation and Machine Learning Methods for Gas Leakage Prediction Base on Multi-source Data Integration)

  • 홍고르출;조겨리;김미혜
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.33-41
    • /
    • 2022
  • 본 논문에서는 다중 요인을 고려한 천연 가스 누출 정도 예측을 위해 관련 요인을 포함하는 기상청 자료와 천연가스 누출 자료를 통합하고, 요인 분석을 기반으로 중요 특성을 선택하는 머신러닝 기법을 제안한다. 제안된 기법은 3단계 절차로 구성되어 있다. 먼저, 통합 데이터 셋에 대해 선형 보간법을 수행하여 결측 데이터를 보완하는 전처리를 수행한다. 머신러닝 모델 학습 최적화를 위해 OrdinalEncoder(OE) 기반 정규화와 함께 요인 분석을 사용하여 필수 특징을 선택하며, 데이터 셋은 k-평균 클러스터링으로 레이블을 지정한다. 최종적으로 K-최근접 이웃, DT(Decision Tree), RF(Random Forest), NB(Naive Bayes)의 네 가지 알고리즘을 사용하여 가스 누출 수준을 예측한다. 제안된 방법은 정확도, AUC, 평균 표준 오차(MSE)로 평가되었으며, 테스트 결과 OE-F 전처리를 수행한 경우 기존 기법에 비해 성공적으로 개선되었음을 보였다. 또한 OE-F 기반 KNN(OE-F-KNN)은 95.20%의 정확도, 96.13%의 AUC, 0.031의 MSE로 비교 알고리즘 중 최고 성능을 보였다.

통신망 대역폭 변화에 적응하는 MPEG 데이터의 QoS 필터링 기법과 스케일러블 전송 기법 (The QoS Filtering and Scalable Transmission Scheme of MPEG Data to Adapt Network Bandwidth Variation)

  • 유우종;김두현;유관종
    • 한국멀티미디어학회논문지
    • /
    • 제3권5호
    • /
    • pp.479-494
    • /
    • 2000
  • 이질적인 통신망 환경으로 연결된 인터넷을 통한 멀티미디어 서비스가 확산됨에 따라 이를 이용하는 사용자의 가입망과 단말기의 성능이 서로 다른 QoS를 갖을 수 있는데, 이와 같은 상이한 QoS 요구에 부응하는 데이터 발생률을 서버에서 실시간으로 통제할 수 있으면, 동적으로 변화하는 통신 대역폭 변화를 클라이언트에 적용할 수 있어 세션마다 서로 다른 스케일링으로 비디오 데이터를 실시간으로 서비스 할 수 있게 된다. 또한, 동일한 비디오 스트림을 QoS에 따라 적응할 수 있도록 다양한 대역폭에 따라 중복하여 보관함으로써 수반되는 저장매체의 낭비효과와 불필요한 데이터 전송의 오버 헤드를 제거할 수 있다. 이를 위해 본 논문에서는 부호화된 상태로 저장되어 있는 MPEG 비디오 데이터를 스케일러블 하게 분할하는 기법으로 프레임율 조정기법과 화질 조정기법 제안하고, 분할된 미디어를 통합하는 기법으로 병합기를 제안하며, 사용자 가입자 망의 특성에 따라 세션마다 서로 다른 전송량으로 송수신하는 방범을 지원하기 위해 서버 및 클라이언트에 존재하는 QoS 관련 모듈들을 제안한다. 그리고, 이 들 기법을 하나로 통합한 시스템 블록구조를 제안하며, 실험 결과에 대해서도 논한다. 본 논문에서 제안하는 기법을 이용하면 보다 효율적으로 통신망 자원을 활용할 수 있고, 사용자 컴퓨팅 환경에 적합한 멀티미디어 데이터를 실시간으로 재생할 수 있다.

  • PDF

번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법 (An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph)

  • 김은경;최동현;고은비;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

과실 생산량과 기상요소간의 연관분석 마이닝 (Association rule Mining between Climate factors and Fruits yields)

  • 우종선;;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.23-25
    • /
    • 2016
  • 이 논문에서는 기후조건과 농업 생산량을 포함하는 농업/기상 데이터에 데이터 마이닝의 연관규칙 기법을 적용하여 농업 생산의 기반이 되는 기후요인들과 생산량 간의 연관성을 분석하고자 한다. 기후 속성들의 값을 포함하고 있는 기상청 기후 데이터와 농업 생산량을 포함하는 통계청의 데이터를 통합 한 후 기후 속성들의 값을 이산화 하여 연관규칙 기법을 적용한다. 실험 결과 각 기후요소들과 생산량 간의 연관 규칙을 표현 할 수 있었다. 이를 통해 기후조건 변화에 따른 농업생산기반 취약성을 예방하는 지표를 마련하고 농업 생산성 향상에 기여 할 수 있을 것으로 기대한다.

  • PDF

인덱싱 에이전트를 이용한 멀티미디어 데이터 검색시스템 (A Multimedia Data Search System using Indexing Agent)

  • 고재운
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.487-490
    • /
    • 2010
  • 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 기존의 내용기반 비디오 검색 시스템들은 주석기반 검색 또는 특징기반 검색과 같은 단일 방식으로만 검색을 하므로 검색 효율이 낮을 뿐 아니라 완전한 자동 처리가 되지 않아 시스템 관리자나 주석자의 많은 노력을 요구한다. 본 논문에서는 주석기반 검색과 특징기반 검색을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화되고 통합된 비디오 의미기반 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 제안하는 특징기반 검색기법을 통해 가장 유사한 키 프레임을 검색한다. 따라서 의미기반 검색을 통해 비디오 데이터의 검색의 효율을 높일 수 있도록 시스템을 설계한다.

  • PDF

사운드와 이미지를 기반으로 한 성인 컨텐츠 필터링 기법 (Adult Contents Filtering Technique using Image and Sound)

  • 조정익;조진수;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.121-123
    • /
    • 2007
  • 현재까지 유해한 컨텐츠(Contents)를 차단하기 위한 활발한 연구가 있었으나, 사람의 사운드(sound)와 이미지(image)를 통합한 필터링(filtering) 기법에 대한 연구는 활발히 이루어지지 않은 측면이 있다. 본 논문은 이미지(image) 데이터 중 피부색 분포 비율과 사운드(sound) 데이터 중 주파수 분석을 통한 심층적인 기법을 활용하여 현재까지 진행되고 있는 이미지 필터링(image filtering)방법에 대한 수행 결과보다 획기적으로 개선된 성능을 보이고자 한다. 즉, 사운드와 이미지의 특징 정보를 이용한 성인 컨텐츠(Adult Contents)분류 기법을 활용하는 것으로 성인 컨텐츠(Adult Contents)에서 두드러지는 특징을 보이는 사운드 패턴을 분석하여 현재까지 한정된 자원인 이미지만을 활용한 기법보다는 현저한 향상된 수행능력을 예측해 볼 수 있다.

  • PDF