• 제목/요약/키워드: 데이터 추론기법

검색결과 288건 처리시간 0.039초

대용량 데이터를 위한 사례기반 추론기법의 실시간 처리속도 개선방안에 대한 연구: 심장병 예측을 중심으로 (A Case-Based Reasoning Method Improving Real-Time Computational Performances: Application to Diagnose for Heart Disease)

  • 박윤주
    • 경영정보학연구
    • /
    • 제16권1호
    • /
    • pp.37-50
    • /
    • 2014
  • 사례기반 추론기법(case-based reasoning)은 수많은 데이터 속에서 현재 문제와 유사한 과거데이터를 실시간으로 탐색하고 복원해내야 하기 때문에, 과거에 축적된 데이터의 양이 방대하거나 또는 데이터의 축적 속도가 빠를 경우 계산비용(computational cost)이 급격히 높아지는 확장성(scalability) 문제를 갖는다. 이러한 문제를 해결하기 위하여, 기존의 일부 연구들은 클러스터링(clustering) 기법을 적용하여, 전체 데이타를 사전에 몇 개의 그룹으로 분류한 후, 특정 클러스터 내에서만 과거 사례를 탐색하도록 하는 클러스터링과 사례기반 추론의 하이브리드 기법을 제안하였다. 그러나 이러한 기법은 클러스터 수를 얼마로 설정했는지에 따른 성능편차가 심하고, 또한 기본적인 사례기반 추론기법에 비해 일반적으로 낮은 예측성능을 도출하는 문제점이 있다. 본 연구는 이러한 기존의 클러스터-사례기반추론기법의 문제점을 실증적으로 분석하고, 이를 극복할 수 있는 새로운 하이브리드(hybrid) 사례기반 추론기법을 제안한다. 제안된 기법은 실제 심장병환자를 예측하는 문제에 적용하였으며, 그 결과 제안된 기법이 기존의 사례기반 추론기법에 비해 현격하게 낮은 계산비용을 사용하면서도, 유사한 수준의 예측성능을 도출할 수 있음을 확인하였다.

베이지안 통계 추론 (On the Bayesian Statistical Inference)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.263-266
    • /
    • 2007
  • 본 논문은 베이지안 통계 추론에 대하여 논의한다. 논문은 베이지안 추론, Markov Chain과 Monte Carlo 적분, MCMC(Markov Chain Monte Carlo) 기법, Metropolis-Hastings 알고리즘, Gibbs 샘플링, Maximum Likelihood Estimation, EM 알고리즘, 상실된 데이터 보완 기법, BMA(Bayesian Model Averaging) 순서로 논의를 진행한다. 이러한 통계적 기법들은 대용량의 데이터를 처리하는 생물학, 의학, 생명 공학, 과학과 공학, 그리고 일반 데이터 조사와 처리 등에 사용되고 있으며, 최적의 추론 결과를 이끌어 내는데 중요한 방법을 제공하고 있다. 그리고 마지막으로 PC(Principal Component) 분석 기법에 대하여 논의한다. PC 분석 기법도 데이터 분석과 연구에 많이 활용된다.

  • PDF

OWL-DL 기반의 대용량 ABox 추론 기법 (A Method for Supporting Description Logic SHIQ(D) Reasoning over Large ABox)

  • 서은석;최용준;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.352-356
    • /
    • 2006
  • 현존하는 추론 엔진들은 대부분 Tableaux 알고리즘 기반의 TBox의 최적화를 위한 연구를 진행하였다. 하지만 현실에서 대용량의 ABox를 추론하기 위한 유한한 시간 내에 결정 가능성을 보장하지 못한다. 따라서 실용성 있는 추론 엔진 효율을 위해서는 대용량 데이터를 가지는 ABox를 위한 최적화된 추론 기법이 필요하다. 본 논문에서는 OWL-DL 기반의 온톨로지(Ontology)를 데이터로그(Datalog)와 같은 규칙(Rule) 형태로 변형하여 관계형 데이터베이스와 같은 저장 시스템과 연동하기 위한 방법을 이용한다. 최종적으로 실세계의 환경에서의 데이터타입 속성(Datatype Property)이 포함된 SHIQ(D) 구성의 실용적인 추론 시스템을 수행하고자 한다. 따라서 OWL이 가지는 공리(Axiom)를 이용하여 데이터타입 속성이 포함된 규칙을 적용한 추론 방법에 대해서 제안하였다.

  • PDF

대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법 (RDFS Rule based Parallel Reasoning Scheme for Large-Scale Streaming Sensor Data)

  • 권순현;박영택
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.686-698
    • /
    • 2014
  • 최근 스마트폰의 폭발적인 보급, IoT와 클라우드 컴퓨팅 기술의 고도화, 그리고 IoT 디바이스의 보편화로 대용량 스트리밍 센싱데이터가 출현하였다. 또한 이를 기반으로 데이터의 공유와 매쉬업 통해 새로운 데이터의 가치를 창출하기 위한 요구사항의 증대로 대용량 스트리밍 센싱데이터 환경에서 시맨틱웹 기술과의 접목에 관한 연구가 활발히 진행되고 있다. 하지만 데이터의 대용량성 스트리밍성으로 인해 새로운 지식을 도출하기 위한 지식 추론분야에서 많은 이슈들에 직면하고 있다. 이러한 배경하에, 본 논문에서는 IoT 환경에서 발생하는 대용량 스트리밍 센싱데이터를 시맨틱웹 기술로 처리하여 서비스하기 위해 RDFS 규칙기반 병렬추론 기법을 제시한다. 제안된 기법에서는 기존의 규칙추론 알고리즘인 Rete 알고리즘을 하둡프레임워크 맵리듀스를 통해 병렬로 수행하고, 공용 스토리지로서 하둡 데이터베이스인 HBase를 사용하여 데이터를 공유한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센싱데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하고, 이를 입증한다.

빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법 (A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement)

  • 이건선;이건수;강병권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

추론통계를 사용한 문헌정보학 연구에서 데이터 수집과 분석에 관한 비평적 고찰 (A Critical Review of the Use of Inferential Statistics in Library and Information Science Research in Korea)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.217-242
    • /
    • 2006
  • 본 연구는 국내 문헌정보학분야의 대표적인 4개 학술지에 2001부터 2004까지 발표된 792편의 연구논문 중 추론통계를 사용한 86편의 연구논문에서 활용한 데이터 수집방법과 추론통계기법을 비평적으로 고찰하였다. 표집방법별로 그리고 신뢰도검사와 가설과 모형의 검정에 사용된 통계기법별로 대표 연구논문을 소개하고, 사용된 기법으로 데이터를 수집하고 분석하는 과정에서 보인 문제점들을 논의하였다. 분석된 연구에서 표집방법으로는 확률표집보다는 비확률표집이 주로 사용되었으며, 질문지를 이용하여 데이터를 수집한 연구의 평균응답률은 74.47%로 분석되었으나, 응답률이 낮을 경우 무응답으로 인한 표집과정의 오류를 밝히려는 노력은 부족한 것으로 파악되었다. 추론통계기법 중 특히 신뢰도검사, 교차분석, 다중회귀분석, 요인분석, 다차원척도를 사용하는데 문제가 있는 것으로 분석되었다.

NCPI-MDS;수정된 DTD 간소화 절차를 통한 새로운 Constraints-Preserving Inlining 기법 (NCPI-MDS;New Constraints-Preserving Inlining Method with Modified DTD Simplification)

  • 안성철;김영웅
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.87-90
    • /
    • 2005
  • XML(eXtensible Markup Language)은 웹 상의 데이터를 표현하고, 교환하기 위한 표준 언어로써 XML 로 표현된 문서를 관계형 데이터베이스 관리시스템(RDBMS)에 저장하고 관리하는 기법에 대한 연구[1][2][3]가 활발히 진행되어 왔다. 이러한 연구들은 DTD(Document Type Definition)를 입력 받아 해당 DTD 에서 관계형 스키마를 추론하는 기법을 사용한다. 하지만, 기존의 연구들은 DTD 간소화 절차를 적용하기 때문에 DTD 내에서 추론될 수 있는 의미적인 부분들이 스키마 생성 시에 보존이 되지 못한다. 또한, 기존의 연구들은 XML 데이터의 내용(content)와 구조(structure) 정보만을 저장하는데 초점이 맞춰져 있기 때문에, XML 문서 저장 시 데이터의 무결성을 보장하기 위해 저장프로시져나 트리거를 이용해야 하는 번거로움이 생긴다. 본 논문에서는 [3]의 연구에서 제시한 Inlining 기법을 기반으로 기존의 Inlining 기법의 문제점인 DTD 에서 추론할 수 있는 의미적인 부분의 손실을 관계형 스키마로 보존하는 방법과 효율적인 릴레이션 생성을 위해 개선된 Inlining 기법을 제시한다.

  • PDF

데이터추론 및 클라우드 호스팅 기법을 활용한 최적 에너지 관리시스템 구현 및 성능분석 (Implementation and Performance Analysis of An Optimal Energy Management System Using Data Inference and Cloud Hosting Scheme)

  • 김경신;강문식
    • 전자공학회논문지
    • /
    • 제53권10호
    • /
    • pp.51-57
    • /
    • 2016
  • 본 논문에서는 에너지관리의 효율성 향상을 위하여 데이터 추론기법과 클라우드 호스팅 기법을 활용한 최적의 에너지 관리시스템을 제안하였다. 에너지 절약 및 효율적인 관리 기법이 에너지 생산 및 공급을 줄이기 위해서 매우 유용하다는 점에 대한 관심이 부각되고 있다. 에너지 관리시스템은 컴퓨터를 사용하여 합리적인 에너지 이용과 함께 쾌적하고 기능적인 업무 환경을 효율적으로 유지 보전하기 위한 제어 관리시스템을 의미한다. 제안 시스템은 에너지관리를 위해 다양한 설비를 제어하고, 에너지 소비 환경의 변화로부터 추론을 위한 데이터를 획득하며, 에너지를 사용하는 환경의 변화에 최적으로 적응함으로써 효율적인 에너지 관리가 가능하도록 구현되었다. 구현된 시스템의 성능을 평가하기 위해서 대상 설비에 대한 추론엔진이 작동하는 서버에서 월간 전력사용량을 고려한 실험을 실시하였고, 그 결과 우수한 성능을 보임을 확인하였다.

유전자알고리즘을 이용한 유전자 조절네트워크 추론 (Gene Regulatory Network Inference using Genetic Algorithms)

  • 김태건;정성훈
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.237-240
    • /
    • 2007
  • 본 논문에서는 유전자 발현데이터로부터 유전자 조절네트워크를 추론하는 유전자 알고리즘을 제안한다. 근래에 유전자 알고리즘을 이용하여 유전자 조절네트워크를 추론하려는 시도가 있었으나 그리 성공적이지 못하였다. 우리는 본 논문에서 유전자 조절네트워크를 보다 효율적으로 추론할 수 있게 하기 위하여 새로운 유전자 인코딩 기법을 개발하여 적용하였다. 선형 유전자 조절네트워크로 모델링 된 인공 유전자 조절네트워크를 사용하여 실험한 결과 대부분의 경우에 있어서 주어진 인공 유전자 조절네트워크와 유사한 네트워크를 추론하였으며 완전히 동일한 유전자네트워크를 추론하기도 하였다. 향후 실제 유전자 발현 데이터를 이용하여 추론해 보는 것이 필요하다.

  • PDF

다중센서 데이터융합 기반 상황추론에서 시간경과를 고려한 클러스터링 기법 (A Novel Clustering Method with Time Interval for Context Inference based on the Multi-sensor Data Fusion)

  • 유창근;박찬봉
    • 한국전자통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.397-402
    • /
    • 2013
  • 다중센서를 이용한 상황인식에서 시간변화는 고려해야 하는 요소이다. 센서가 감지하여 보고한 정보를 바탕으로 상황추론에 도달하고자 하는 경우, 일정 시간 간격별로 묶어서 검토하는 것이 유용하다. 본 논문에서는 시간경과를 고려하는 클러스터링 기법을 이용한 다중센서 데이터융합을 제안한다. 각 센서별로 일정시간 간격동안 수집되어 보고된 센싱 정보를 묶어 1차 데이터융합을 실시하고 그 결과를 대상으로 다시 2차 데이터융합을 실시하였다. Dempster-Shafer이론을 이용하여 다중센서 데이터융합을 실시하고 그 결과를 분석하여 상황을 추론하는데 시간간격을 기준으로 세분화시켜 평가하고 이것을 다시 융합함으로써 향상된 상황 정보를 추론할 수 있다.