• 제목/요약/키워드: 데이터 추론기법

Search Result 288, Processing Time 0.03 seconds

A Case-Based Reasoning Method Improving Real-Time Computational Performances: Application to Diagnose for Heart Disease (대용량 데이터를 위한 사례기반 추론기법의 실시간 처리속도 개선방안에 대한 연구: 심장병 예측을 중심으로)

  • Park, Yoon-Joo
    • Information Systems Review
    • /
    • v.16 no.1
    • /
    • pp.37-50
    • /
    • 2014
  • Conventional case-based reasoning (CBR) does not perform efficiently for high volume dataset because of case-retrieval time. In order to overcome this problem, some previous researches suggest clustering a case-base into several small groups, and retrieve neighbors within a corresponding group to a target case. However, this approach generally produces less accurate predictive performances than the conventional CBR. This paper suggests a new hybrid case-based reasoning method which dynamically composing a searching pool for each target case. This method is applied to diagnose for the heart disease dataset. The results show that the suggested hybrid method produces statistically the same level of predictive performances with using significantly less computational cost than the CBR method and also outperforms the basic clustering-CBR (C-CBR) method.

On the Bayesian Statistical Inference (베이지안 통계 추론)

  • Lee, Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.263-266
    • /
    • 2007
  • This paper discusses the Bayesian statistical inference. This paper discusses the Bayesian inference, MCMC (Markov Chain Monte Carlo) integration, MCMC method, Metropolis-Hastings algorithm, Gibbs sampling, Maximum likelihood estimation, Expectation Maximization algorithm, missing data processing, and BMA (Bayesian Model Averaging). The Bayesian statistical inference is used to process a large amount of data in the areas of biology, medicine, bioengineering, science and engineering, and general data analysis and processing, and provides the important method to draw the optimal inference result. Lastly, this paper discusses the method of principal component analysis. The PCA method is also used for data analysis and inference.

  • PDF

A Method for Supporting Description Logic SHIQ(D) Reasoning over Large ABox (OWL-DL 기반의 대용량 ABox 추론 기법)

  • Seo, Eun-Seok;Choi, Yong-Joon;Park, Young-Tack
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.352-356
    • /
    • 2006
  • 현존하는 추론 엔진들은 대부분 Tableaux 알고리즘 기반의 TBox의 최적화를 위한 연구를 진행하였다. 하지만 현실에서 대용량의 ABox를 추론하기 위한 유한한 시간 내에 결정 가능성을 보장하지 못한다. 따라서 실용성 있는 추론 엔진 효율을 위해서는 대용량 데이터를 가지는 ABox를 위한 최적화된 추론 기법이 필요하다. 본 논문에서는 OWL-DL 기반의 온톨로지(Ontology)를 데이터로그(Datalog)와 같은 규칙(Rule) 형태로 변형하여 관계형 데이터베이스와 같은 저장 시스템과 연동하기 위한 방법을 이용한다. 최종적으로 실세계의 환경에서의 데이터타입 속성(Datatype Property)이 포함된 SHIQ(D) 구성의 실용적인 추론 시스템을 수행하고자 한다. 따라서 OWL이 가지는 공리(Axiom)를 이용하여 데이터타입 속성이 포함된 규칙을 적용한 추론 방법에 대해서 제안하였다.

  • PDF

RDFS Rule based Parallel Reasoning Scheme for Large-Scale Streaming Sensor Data (대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법)

  • Kwon, SoonHyun;Park, Youngtack
    • Journal of KIISE
    • /
    • v.41 no.9
    • /
    • pp.686-698
    • /
    • 2014
  • Recently, large-scale streaming sensor data have emerged due to explosive supply of smart phones, diffusion of IoT and Cloud computing technology, and generalization of IoT devices. Also, researches on combination of semantic web technology are being actively pushed forward by increasing of requirements for creating new value of data through data sharing and mash-up in large-scale environments. However, we are faced with big issues due to large-scale and streaming data in the inference field for creating a new knowledge. For this reason, we propose the RDFS rule based parallel reasoning scheme to service by processing large-scale streaming sensor data with the semantic web technology. In the proposed scheme, we run in parallel each job of Rete network algorithm, the existing rule inference algorithm and sharing data using the HBase, a hadoop database, as a public storage. To achieve this, we implement our system and evaluate performance through the AWS data of the weather center as large-scale streaming sensor data.

A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement (빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법)

  • Lee, Keonsun;Lee, Keonsoo;Kang, Byeong-G
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

A Critical Review of the Use of Inferential Statistics in Library and Information Science Research in Korea (추론통계를 사용한 문헌정보학 연구에서 데이터 수집과 분석에 관한 비평적 고찰)

  • Ro Jung-Soon
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.40 no.2
    • /
    • pp.217-242
    • /
    • 2006
  • This Study reviewed 86 research articles using inferential statistics published in 2001-2004 in 4 korean core journals in the field of library and information science. Sampling methods, response rates and nonresponse bias, reliability test, and inferential statistic techniques used in the articles were critically reviewed and analyzed. Nonprobability sampling was mostly used. Average response rate was 74.47%. Parametric statistics were mostly used. Some misunderstandings in using each inferential statistics, especially Reliability Test, Multiple Regression, Factor Analysis, MDS, etc. were reported in this study.

NCPI-MDS;New Constraints-Preserving Inlining Method with Modified DTD Simplification (NCPI-MDS;수정된 DTD 간소화 절차를 통한 새로운 Constraints-Preserving Inlining 기법)

  • Ahn, Sung-Chul;Kim, Young-Ung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.87-90
    • /
    • 2005
  • XML(eXtensible Markup Language)은 웹 상의 데이터를 표현하고, 교환하기 위한 표준 언어로써 XML 로 표현된 문서를 관계형 데이터베이스 관리시스템(RDBMS)에 저장하고 관리하는 기법에 대한 연구[1][2][3]가 활발히 진행되어 왔다. 이러한 연구들은 DTD(Document Type Definition)를 입력 받아 해당 DTD 에서 관계형 스키마를 추론하는 기법을 사용한다. 하지만, 기존의 연구들은 DTD 간소화 절차를 적용하기 때문에 DTD 내에서 추론될 수 있는 의미적인 부분들이 스키마 생성 시에 보존이 되지 못한다. 또한, 기존의 연구들은 XML 데이터의 내용(content)와 구조(structure) 정보만을 저장하는데 초점이 맞춰져 있기 때문에, XML 문서 저장 시 데이터의 무결성을 보장하기 위해 저장프로시져나 트리거를 이용해야 하는 번거로움이 생긴다. 본 논문에서는 [3]의 연구에서 제시한 Inlining 기법을 기반으로 기존의 Inlining 기법의 문제점인 DTD 에서 추론할 수 있는 의미적인 부분의 손실을 관계형 스키마로 보존하는 방법과 효율적인 릴레이션 생성을 위해 개선된 Inlining 기법을 제시한다.

  • PDF

Implementation and Performance Analysis of An Optimal Energy Management System Using Data Inference and Cloud Hosting Scheme (데이터추론 및 클라우드 호스팅 기법을 활용한 최적 에너지 관리시스템 구현 및 성능분석)

  • Kim, Kyung-Shin;Kang, Moon-Sik
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.53 no.10
    • /
    • pp.51-57
    • /
    • 2016
  • In this paper, we propose an optimal energy management system using the data inference scheme and the cloud hosting technique in order to improve the efficiency of the energy management. We have been interested in the issue that the energy-saving and efficient management techniques are very useful for reducing the production and supply of energy. The energy management system refers to the control and management system in order to enable the efficient use of energy and also to maintain a comfortable and functional working environment effectively with the help of a computer. The proposed system controls a variety of equipment for energy management, and also gets the data for the inference from the changes in energy consumption environment, which is implemented to enable efficient energy management by adapting and controlling the changes optimally in the working environment. In order to evaluate the performance of the implemented system, some experiments have been performed under consideration of the monthly electric power consumption on the server that the inference engine is operating for the target facilities. Finally, the results show that the proposed system has a good performance.

Gene Regulatory Network Inference using Genetic Algorithms (유전자알고리즘을 이용한 유전자 조절네트워크 추론)

  • Kim, Tae-Geon;Jeong, Seong-Hun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.237-240
    • /
    • 2007
  • 본 논문에서는 유전자 발현데이터로부터 유전자 조절네트워크를 추론하는 유전자 알고리즘을 제안한다. 근래에 유전자 알고리즘을 이용하여 유전자 조절네트워크를 추론하려는 시도가 있었으나 그리 성공적이지 못하였다. 우리는 본 논문에서 유전자 조절네트워크를 보다 효율적으로 추론할 수 있게 하기 위하여 새로운 유전자 인코딩 기법을 개발하여 적용하였다. 선형 유전자 조절네트워크로 모델링 된 인공 유전자 조절네트워크를 사용하여 실험한 결과 대부분의 경우에 있어서 주어진 인공 유전자 조절네트워크와 유사한 네트워크를 추론하였으며 완전히 동일한 유전자네트워크를 추론하기도 하였다. 향후 실제 유전자 발현 데이터를 이용하여 추론해 보는 것이 필요하다.

  • PDF

A Novel Clustering Method with Time Interval for Context Inference based on the Multi-sensor Data Fusion (다중센서 데이터융합 기반 상황추론에서 시간경과를 고려한 클러스터링 기법)

  • Ryu, Chang-Keun;Park, Chan-Bong
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.8 no.3
    • /
    • pp.397-402
    • /
    • 2013
  • Time variation is the essential component of the context awareness. It is a beneficial way not only including time lapse but also clustering time interval for the context inference using the information from sensor mote. In this study, we proposed a novel way of clustering based multi-sensor data fusion for the context inference. In the time interval, we fused the sensed signal of each time slot, and fused again with the results of th first fusion. We could reach the enhanced context inference with assessing the segmented signal according to the time interval at the Dempster-Shafer evidence theory based multi-sensor data fusion.