• Title/Summary/Keyword: 데이타 분류

Search Result 305, Processing Time 0.022 seconds

Hypernetwork Classifiers for Microarray-Based miRNA Module Analysis (마이크로어레이 기반 miRNA 모듈 분석을 위한 하이퍼망 분류 기법)

  • Kim, Sun;Kim, Soo-Jin;Zhang, Byoung-Tak
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.6
    • /
    • pp.347-356
    • /
    • 2008
  • High-throughput microarray is one of the most popular tools in molecular biology, and various computational methods have been developed for the microarray data analysis. While the computational methods easily extract significant features, it suffers from inferring modules of multiple co-regulated genes. Hypernetworhs are motivated by biological networks, which handle all elements based on their combinatorial processes. Hence, the hypernetworks can naturally analyze the biological effects of gene combinations. In this paper, we introduce a hypernetwork classifier for microRNA (miRNA) profile analysis based on microarray data. The hypernetwork classifier uses miRNA pairs as elements, and an evolutionary learning is performed to model the microarray profiles. miTNA modules are easily extracted from the hypernetworks, and users can directly evaluate if the miRNA modules are significant. For experimental results, the hypernetwork classifier showed 91.46% accuracy for miRNA expression profiles on multiple human canters, which outperformed other machine learning methods. The hypernetwork-based analysis showed that our approach could find biologically significant miRNA modules.

Object-Oriented Modeling of Metadata for Content-based Retrieval on News On Demand (News On Demand의 내용기반 검색을 위한 메타데이타의 객체지향 모델링)

  • 김용걸;이훈순;진성일;최동훈
    • Proceedings of the Korea Database Society Conference
    • /
    • 1997.10a
    • /
    • pp.463-471
    • /
    • 1997
  • 비디오 데이타는 다양하고 방대한 양의 의미를 포함하고 있어 효율적인 내용기반 검색을 지원하기 위해서는 비디오 데이타를 기술하는 구조적이고 체계화된 형태의 메타데이타가 요구된다. 이러한 메타데이타는 검색 시 색인과 같은 역할을 수행하게 되므로 내용 기반검색의 가장 기본적이고 필수적인 데이타이다. 본 논문에서는 뉴스 응용 분야(News On Demand:NOD)를 적용한 비디오 데이터베이스 시스템의 효율적인 내용 기반 검색을 위한 메타데이타를 분류하고, Rambaugh의 OMT기법을 이용하여 메타데이타를 모델링한 후 질의 유형에 따라 모델의 접근 경로를 검사하여 모델을 검증하였다.

  • PDF

Ensemble learning of Regional Experts (지역 전문가의 앙상블 학습)

  • Lee, Byung-Woo;Yang, Ji-Hoon;Kim, Seon-Ho
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.2
    • /
    • pp.135-139
    • /
    • 2009
  • We present a new ensemble learning method that employs the set of region experts, each of which learns to handle a subset of the training data. We split the training data and generate experts for different regions in the feature space. When classifying a data, we apply a weighted voting among the experts that include the data in their region. We used ten datasets to compare the performance of our new ensemble method with that of single classifiers as well as other ensemble methods such as Bagging and Adaboost. We used SMO, Naive Bayes and C4.5 as base learning algorithms. As a result, we found that the performance of our method is comparable to that of Adaboost and Bagging when the base learner is C4.5. In the remaining cases, our method outperformed the benchmark methods.

Rule Discovery for Cancer Classification using Genetic Programming based on Arithmetic Operators (산술 연산자 기반 유전자 프로그래밍을 이용한 암 분류 규칙 발견)

  • 홍진혁;조성배
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.8
    • /
    • pp.999-1009
    • /
    • 2004
  • As a new approach to the diagnosis of cancers, bioinformatics attracts great interest these days. Machine teaming techniques have produced valuable results, but the field of medicine requires not only highly accurate classifiers but also the effective analysis and interpretation of them. Since gene expression data in bioinformatics consist of tens of thousands of features, it is nearly impossible to represent their relations directly. In this paper, we propose a method composed of a feature selection method and genetic programming. Rank-based feature selection is adopted to select useful features and genetic programming based arithmetic operators is used to generate classification rules with features selected. Experimental results on Lymphoma cancer dataset, in which the proposed method obtained 96.6% test accuracy as well as useful classification rules, have shown the validity of the proposed method.

Ensemble Classifier with Negatively Correlated Features for Cancer Classification (암 분류를 위한 음의 상관관계 특징을 이용한 앙상블 분류기)

  • 원홍희;조성배
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.12
    • /
    • pp.1124-1134
    • /
    • 2003
  • The development of microarray technology has supplied a large volume of data to many fields. In particular, it has been applied to prediction and diagnosis of cancer, so that it expectedly helps us to exactly predict and diagnose cancer. It is essential to efficiently analyze DNA microarray data because the amount of DNA microarray data is usually very large. Since accurate classification of cancer is very important issue for treatment of cancer, it is desirable to make a decision by combining the results of various expert classifiers rather than by depending on the result of only one classifier. Generally combining classifiers gives high performance and high confidence. In spite of many advantages of ensemble classifiers, ensemble with mutually error-correlated classifiers has a limit in the performance. In this paper, we propose the ensemble of neural network classifiers learned from negatively correlated features using three benchmark datasets to precisely classify cancer, and systematically evaluate the performances of the proposed method. Experimental results show that the ensemble classifier with negatively correlated features produces the best recognition rate on the three benchmark datasets.

UniWeb-A UniSQL/X Database Gateway for Web (UniWeb-웹을 위한 UniSQL/X 데이타베이스 통로)

  • 김평철
    • The Journal of Information Technology and Database
    • /
    • v.3 no.1
    • /
    • pp.65-84
    • /
    • 1996
  • 대규모 멀티미디어 데이타베이스 서비스 시스템은 웹(Web)의 대규모 멀티미디어 정보 서비스의 우수성과 데이타베이스 시스템의 방대한 데이타베이스 관리 가능을 상호 보완적으로 통합함으로써 구현할 수 있다. 데이타베이스 통로(gateway)는 이러한 통합의 핵심적인 소프트웨어라 할 수 있다. 데이타베이스 통로의 필요성이 인식된 후로 현재 많은 상용 및 연구용 제품이 개발되어 왔다. 데이타베이스 통로의 구조는 데이타베이스 접속을 웹에 어떻게 연동시키는가에 따라 다양하게 나누어지고 구조에 따라 성능도 달라지게 된다. 본 논문에서는 여러가지 데이타베이스 통로의 구조에 대하여 분류체계를 제안하고, 현재 충남대학교에서 개발하고 있는 UniWeb의 설계 및 구현을 기술한다. UniWeb은 웹을 위한 UniSQL/X 데이타베이스 통로로서 DBMS의 최적화 가능을 최대한 활용할 수 있는 구조를 가지고 있으며, 웹 응용 개발을 위한 환경을 지원하고 있다.

  • PDF

Improving SVM Classification by Constructing Ensemble (앙상블 구성을 이용한 SVM 분류성능의 향상)

  • 제홍모;방승양
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.3_4
    • /
    • pp.251-258
    • /
    • 2003
  • A support vector machine (SVM) is supposed to provide a good generalization performance, but the actual performance of a actually implemented SVM is often far from the theoretically expected level. This is largely because the implementation is based on an approximated algorithm, due to the high complexity of time and space. To improve this limitation, we propose ensemble of SVMs by using Bagging (bootstrap aggregating) and Boosting. By a Bagging stage each individual SVM is trained independently using randomly chosen training samples via a bootstrap technique. By a Boosting stage an individual SVM is trained by choosing training samples according to their probability distribution. The probability distribution is updated by the error of independent classifiers, and the process is iterated. After the training stage, they are aggregated to make a collective decision in several ways, such ai majority voting, the LSE(least squares estimation) -based weighting, and double layer hierarchical combining. The simulation results for IRIS data classification, the hand-written digit recognition and Face detection show that the proposed SVM ensembles greatly outperforms a single SVM in terms of classification accuracy.

The storage structure and retrieval mechanism for korean speech database (한국어 음성 데이타베이스의 저장 구조와 검색 기법)

  • Song, Gun-Seop;Park, Yeong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.321-330
    • /
    • 1991
  • 기존의 데이타베이스에 음성 데이타를 저장하여 음성 데이타 베이스를 구축하고자 할 경우, 음성 데이타의 특성이 가변장(variable length)이며, 튜플(음소 단위)의 길이가 매우 긴 패턴 데이타이므로 기존의 데이타베이스 시스템에서는 지원할 수 없다. 또, 현재의 음성 인식 시스템에서는 패턴 데이타를 순차적인 검색 방법으로 검색하고 있어 빠른 검색 방법이 요구된다. 본 논문에서는 음성 데이타를 음소 단위로 인식하기 위해 음소 패턴 데이타를 저장하고, 유사한 특성을 갖는 부류와 음소 길이에 의한 분류를 혼합한 방법을 이용하여 빠른 시간에 검색을 할 수 있게 하기 위한 저장 구조와 검색 알고리즘을 제시한다.

  • PDF

Design of Content-based Image Retrival System using Multilevel Metadata (다계층 메타데이타 기반 이미지 내용검색 시스템 설계)

  • 신용수;홍성용;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.142-144
    • /
    • 2002
  • 대부분의 내용기반 이미지 검색 시스템은 이미지의 특징 벡터인 색상, 모양, 그리고 질감에 의해서 유사한 이미지를 검색하는 기법을 제공하고 있다. 최근 이러한 내용기반 이미지 검색 기술은 의료 영상 이미지와 같은 다양한 분야에 적용되고 있으며, 이에 따라서 의료 이미지를 분석하여 저장, 검색하기 위한 데이터베이스 시스템이 증가하고 있다. 그러나, 대량의 이미지로부터 원하는 이미지를 검색하기 위해서는 이미지의 메타데이타를 효율적으로 표현해야 하며, 의미성과 이미지의 특징 데이터를 통합적으로 저장 관리 할 수 있는 이미지 데이터베이스를 설계하고 구축해야만 한다. 본 논문에서는 기존의 내용기반 이미지 검색 기법을 살펴보고. 이미지를 내용기반으로 분류하고 저장할 수 있는 데이터베이스 시스템을 설계하여 효율적인 의미기반 검색을 지원말 수 있는 모델을 제시한다. 다계층 메타데이타 레이어 구조로 이미지에 대한 개념 지식 모델을 표현하고, 이미지내의 객체를 메타데이타로 표현하여 분류할 수 있는 모델을 제안한다. 또한, 이미지 내용검색을 지원하기 위한 시스템 구조를 설계하고, 메타데이타가 저장되기 위한 관계형 모델을 스타 스키마의 형태로 제시한다. 제안된 방법은 의미적인 이미지 내용 검색 방법의 지원에 활용될 수 있다.

  • PDF

Improving Correctness in the Satellite Remote Sensing Data Analysis -Laying Stress on the Application of Bayesian MLC in the Classification Stage- (인공위성 원격탐사 데이타의 분석 정확도 향상에 관한 연구 -분류과정에서의 Bayesian MIC 적용을 중심으로-)

  • 안철호;김용일
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.9 no.2
    • /
    • pp.81-91
    • /
    • 1991
  • This thesis aims to improve the analysis accuracy of remotely sensed digital imagery, and the improvement is achieved by considering the weight factors(a priori probabilities) of Bayesian MLC in the classification stage. To be concrete, Bayesian decision theory is studied from remote sensing field of view, and the equations in the n-dimensional form are derived from normal probability density functions. The amount of the misclassified pixels is extracted from probability function data using the thres-holding, and this is a basis of evaluating the classification accuracy. The results indicate that 5.21% of accuracy improvement was carried out. The data used in this study is LANDSAT TM(1985.10.21 ; 116-34), and the study area is within the administrative boundary of Seoul.

  • PDF