• 제목/요약/키워드: multivariate data analysis

검색결과 1,402건 처리시간 0.026초

The Exploratory Analysis for Spam Mail Data Using Correspondence Analysis

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권4호
    • /
    • pp.735-744
    • /
    • 2005
  • The number of electronic mail(E-mail) has been increased dramatically as a result of expanding internet and information technology. Although there are many conveniences of E-mail in the bright side, some serious problems occur because of E-mail in its dark side. One of the problems is spam-mail which is unsolicited mail and also called bulk mail. This paper presents a set of patterns of spam-mail occurrences within a week using the correspondence analysis. The correspondence analysis is an exploratory multivariate technique that converts data into a particular type of graphical display in which the rows and columns are depicted as points. One of the meaningful patterns is a great increment of adult and phishing related spam-mails at weekends so any spam-mail filters should be designed to cope with this pattern.

  • PDF

군집분석을 이용한 다목적 조사의 층화에 관한 연구 (A Study on the Use of Cluster Analysis for Multivariate and Multipurpose Stratification)

  • 박진우;윤석훈;김진흠;정형철
    • 응용통계연구
    • /
    • 제20권2호
    • /
    • pp.387-394
    • /
    • 2007
  • 본 연구는 여러 가지의 양적변수들을 조사하는 다목적, 다변량조사 표본설계에서 층화 문제를 다룬다. 다변량 층화변수를 사용하는 층화 방법으로 일변량 층화변수가 있을 때 사용하는 누적도수제곱근법을 독립적으로 여러 층화변수에 적용하는 방법, 군집분석을 이용하는 방법, 인자분석과 군집분석을 함께 이용하는 방법 등 세 가지 방법을 제시한다. 한편, 2001년 농업총조사 자료에 나타난 동 읍 면의 농기계별 보유대수 정보를 층화변수로 활용하여 세 가지 층화 방안의 효율을 실증적으로 비교하게 되는데 그 결과 인자분석과 군집분석을 함께 고려한 층화방법이 비교적 효율적인 것으로 나타났다.

케모메트릭 방법과 결합된 레이저 유도 플라즈마 분광법을 적용한 유류 지문의 법의학적 분류 연구 (Forensic Classification of Latent Fingerprints Applying Laser-induced Plasma Spectroscopy Combined with Chemometric Methods)

  • 양준호;여재익
    • 한국광학회지
    • /
    • 제31권3호
    • /
    • pp.125-133
    • /
    • 2020
  • 본 논문에서는 다변량 분석법과 결합된 레이저 유도 플라즈마 분광법을 사용하여 겹친 유류 지문을 분리하는 혁신적인 방법을 연구하였다. LIPS는 겹친 유류 지문의 화학 성분에 대한 데이터뿐 아니라 실시간 분석 및 고속 스캐닝이 가능한 분광법이다. 레이저 유도 플라즈마 분광법을 통해 도출된 스펙트럼은 적절한 다변량 분석이 적용되어 법의학적 분류와 겹친 유류 지문의 재구성에 유용한 화학적 성분을 제공한다. 본 연구에서는 LIPS 스펙트럼에서 4가지의 유류 지문을 분류하기 위하여, 주성분 분석 방식과 부분 최소 제곱 회귀 분석을 사용하였다. 제안된 방법은 SIMCA 및 PLS-DA와 같은 구별 방식을 사용하여 4개의 유류 지문의 분류를 성공적으로 입증하였다. 본 연구의 결과는 대략 85% 이상의 정확도를 가졌으며, external validation 실험에서도 분류의 가능함을 보였다. 최종적으로, 125 ㎛의 공간 간격으로 레이저 스캐닝 분석을 통한 겹친 유류 지문의 2차원 형태의 분리가 가능함을 입증하였다.

다변량 통계 분석을 이용한 결측 데이터의 예측과 센서이상 확인 (Missing Value Estimation and Sensor Fault Identification using Multivariate Statistical Analysis)

  • 이창규;이인범
    • Korean Chemical Engineering Research
    • /
    • 제45권1호
    • /
    • pp.87-92
    • /
    • 2007
  • 최근 공정의 이상을 감지하고 진단하기 위한 공정 모니터링 시스템의 개발이 공정 시스템 분야에서 많은 주목을 받고 있다. 공정으로부터 얻어지는 데이터는 공정의 특성에 대한 유용한 정보를 제공하고 이는 공정의 모델링과 모니터링 그리고 제어에 사용된다. 현대의 화학 및 환경 공정은 고차원적인 특성과 변수간의 강한 상관관계와 동특성 그리고 비선형적 특성을 가지고 있어 모델 기반 접근을 통해 공정을 분석하는 것을 쉽지 않다. 이러한 모델 기반 접근의 한계를 극복하기 위해 많은 시스템 엔지니어와 연구자들이 주성분 분석법(principal component analysis, PCA) 또는 부분 최소 자승법(partial least squares, PLS)과 같은 다변량 분석을 접목한 통계 기반 접근법에 초점을 맞추고 있다. 또한 동특성, 비선형성 등과 같은 특성을 가진 공정에 적용하기 위해 많은 다변량 분석법들이 보완되었다. 여기에서는 동적 주성분 분석법(dynamic PCA)과 케노니컬 변수 분석법(canonical variate analysis)을 이용한 결측 데이터의 예측법과 공정 변수의 복원을 통한 센서 오작동의 판별법에 대해 언급해 보고자 한다.

의사결정나무를 이용한 다변량 공정관리 절차 (Multivariate process control procedure using a decision tree learning technique)

  • 정광영;이재헌
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권3호
    • /
    • pp.639-652
    • /
    • 2015
  • 현대의 제조공정은 컴퓨터의 발전과 통신 및 네트워크의 발달로 컴퓨터통합제조가 가능해졌다. 이로 인해 고품질 제품의 고속 생산공정이 확대되고, 공정에서 실시간으로 전송되는 다양한 품질변수들의 데이터 축적 또한 가능하게 되었다. 이를 관리하기 위해서는 다변량 통계적 공정관리 절차가 필요하다. 전통적으로 사용하는 다변량 관리도는 이상상태 발생시 이상신호를 주지만, 이상원인이 어떠한 변수에 어떠한 영향을 주는지에 대한 정보를 제공하지 않는다는 단점이 있다. 이를 보완하기 위해 데이터마이닝과 기계학습 기법을 이용할 수 있다. 이 논문에서는 의사결정나무 학습 기법을 이용한 다변량 공정관리 절차를 소개하고, 이변량인 경우 모의실험을 통하여 그 효율을 살펴보았다. 모의실험 결과를 살펴볼 때, 상관계수에 따라 이상상태 탐지 능력은 비슷한 것으로 나타났고, 이상상태에 대한 분류 정확도는 상관계수와 이상원인의 형태에 따라 차이가 있지만 기존의 다변량 관리도에서는 제공하지 않는 이상원인의 정보를 제공하는 장점이 있음을 알 수 있다.

Applications of NMR spectroscopy based metabolomics: a review

  • Yoon, Dahye;Lee, Minji;Kim, Siwon;Kim, Suhkmann
    • 한국자기공명학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Metabolomics is the study which detects the changes of metabolites level. Metabolomics is a terminal view of the biological system. The end products of the metabolism, metabolites, reflect the responses to external environment. Therefore metabolomics gives the additional information about understanding the metabolic pathways. These metabolites can be used as biomarkers that indicate the disease or external stresses such as exposure to toxicant. Many kinds of biological samples are used in metabolomics, for example, cell, tissue, and bio fluids. NMR spectroscopy is one of the tools of metabolomics. NMR data are analyzed by multivariate statistical analysis and target profiling technique. Recently, NMR-based metabolomics is a growing field in various studies such as disease diagnosis, forensic science, and toxicity assessment.

A Robust Principal Component Neural Network

  • Changha Hwang;Park, Hyejung;A, Eunyoung-N
    • Communications for Statistical Applications and Methods
    • /
    • 제8권3호
    • /
    • pp.625-632
    • /
    • 2001
  • Principal component analysis(PCA) is a multivariate technique falling under the general title of factor analysis. The purpose of PCA is to Identify the dependence structure behind a multivariate stochastic observation In order to obtain a compact description of it. In engineering field PCA is utilized mainly (or data compression and restoration. In this paper we propose a new robust Hebbian algorithm for robust PCA. This algorithm is based on a hyperbolic tangent function due to Hampel ef al.(1989) which is known to be robust in Statistics. We do two experiments to investigate the performance of the new robust Hebbian learning algorithm for robust PCA.

  • PDF

Multiple Options for Appropriation Mechanisms in a Business Environment and Implications for Policy

  • Park, Kyoo-Ho
    • STI Policy Review
    • /
    • 제3권2호
    • /
    • pp.47-65
    • /
    • 2012
  • Appropriation is essential for innovators to succeed. Traditionally, among various appropriation mechanisms, patents and secrecy have received attention, and the differential role of patents has been highlighted according to different industries or sectors. These discussions give a rough idea, however, and do not yield concrete directives for strategies in the context of innovation management. This paper describes an analysis of the effect of a firm's position within the value chain and the objectives of innovative activities with appropriation mechanisms. Multivariate analysis of diverse appropriation mechanisms using Korean innovation survey data revealed a specific combination of mechanisms and significant determinants in the context of objectives of innovative activities.

CORRELATION ANALYSIS METHOD OF SENSOR DATA FOR PREDICTING THE FOREST FIRE

  • Shon Ho Sun;Chi Jeong Hee;Kim Eun Hee;Ryu Keun Ho;Jung Doo Yeong;kim Kyung Ok
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.186-188
    • /
    • 2005
  • Because forest fire changes the direction according to the environmental elements, it is difficult to predict the direction of it. Currently, though some researchers have been studied to which predict the forest fire occurrence and the direction of it, using the remote detection technique, it is not enough and efficient. And recently because of the development of the sensor technique, a lot of In-Situ sensors are being developed. These kinds of In-Situ sensor data are used to collect the environmental elements such as temperature, humidity, and the velocity of the wind. Accordingly we need the prediction technique about the environmental elements analysis and the direction of the forest fire, using the In-Situ sensor data. In this paper, as a technique for predicting the direction of the forest fire, we propose the correlation analysis technique about In-Situ sensor data such as temperature, humidity, the velocity of the wind. The proposed technique is based on the clustering method and clusters the In-Situ sensor data. And then it analyzes the correlation of the multivariate correlations among clusters. These kinds of prediction information not only helps to predict the direction of the forest fire, but also finds the solution after predicting the environmental elements of the forest fire. Accordingly, this technique is expected to reduce the damage by the forest fire which occurs frequently these days.

  • PDF

다차원척도법과 거리분석을 활용한 그룹화된 비유사성에 대한 비모수적 접근법 (Non-parametric approach for the grouped dissimilarities using the multidimensional scaling and analysis of distance)

  • 남승찬;최용석
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.567-578
    • /
    • 2017
  • 일반적으로 그룹화된 다변량자료는 다변량 분산분석(multivariate analysis of variance; MANOVA)을 사용하여 그룹 간 차이를 검정할 수 있다. 그러나 만약 다변량 분산분석의 기본적인 가정이 위배되면 이 방법은 적절하지 못하다. 이 경우 다양한 거리로부터 그룹화된 비유사성을 계산한 후 다차원척도법(multidimensional scaling; MDS), 거리분석(analysis of distance; AOD) 그리고 비모수적 기법인 순열검정(permutation test)을 적용하여 문제를 해결할 수 있다. 다차원척도법은 비유사성으로부터 개체들의 좌표를 계산해주며 거리분석은 이 좌표를 활용하여 그룹구조를 파악하는데 유용하다. 특히 비유사성의 측도로 유클리드 거리를 사용하면 거리분석은 다변량 분산분석과 수리적으로 매우 밀접한 연관관계를 맺는다. 따라서 본 연구에서는 그룹화된 비유사성에 다차원척도법과 거리분석을 적용하여 그룹 내와 그룹 간의 구조를 파악하고 순열검정을 위한 새로운 검정통계량을 제안하려 한다. 덧붙여 유클리드 거리를 활용한 비유사성을 통해 거리분석과 다변량 분산분석과의 수리적 연관성을 고찰하고자 한다.