• 제목/요약/키워드: Outliers

검색결과 669건 처리시간 0.025초

반응표면 데이터마이닝 기법을 이용한 원전 종사자의 강건 직무 스트레스 관리 방법에 관한 연구 (A Study on the Methods for the Robust Job Stress Management for Nuclear Power Plant Workers using Response Surface Data Mining)

  • 이용희;장통일;이용희
    • 한국안전학회지
    • /
    • 제28권1호
    • /
    • pp.158-163
    • /
    • 2013
  • While job stress evaluations are reported in the recent surveys upon the nuclear power plants(NPPs), any significant advance in the types of questionnaires is not currently found. There are limitations to their usefulness as analytic tools for the management of safety resources in NPPs. Data mining(DM) has emerged as one of the key features for data computing and analysis to conduct a survey analysis. There are still limitations to its capability such as dimensionality associated with many survey questions and quality of information. Even though some survey methods may have significant advantages, often these methods do not provide enough evidence of causal relationships and the statistical inferences among a large number of input factors and responses. In order to address these limitations on the data computing and analysis capabilities, we propose an advanced procedure of survey analysis incorporating the DM method into a statistical analysis. The DM method can reduce dimensionality of risk factors, but DM method may not discuss the robustness of solutions, either by considering data preprocesses for outliers and missing values, or by considering uncontrollable noise factors. We propose three steps to address these limitations. The first step shows data mining with response surface method(RSM), to deal with specific situations by creating a new method called response surface data mining(RSDM). The second step follows the RSDM with detailed statistical relationships between the risk factors and the response of interest, and shows the demonstration the proposed RSDM can effectively find significant physical, psycho-social, and environmental risk factors by reducing the dimensionality with the process providing detailed statistical inferences. The final step suggest a robust stress management system which effectively manage job stress of the workers in NPPs as a part of a safety resource management using the surrogate variable concept.

잡음 민감성이 개선된 퍼지 주성분 분석 (An Improved Robust Fuzzy Principal Component Analysis)

  • 허경용;우영운;김성훈
    • 한국정보통신학회논문지
    • /
    • 제14권5호
    • /
    • pp.1093-1102
    • /
    • 2010
  • 주성분 분석(PCA)은 데이터의 차원을 줄이면서 최대의 데이터 변이를 보존하는 기법으로 차원 축소나 피처 추출을 위해 널리 사용되고 있다. 하지만 PCA는 잡음에 민감한 단점이 있으며, 이러한 잡음 민감성을 해결하기 위해 여러 가지 PCA 변형이 제안되었다. 그 중 robust fuzzy PCA(RF-PCA)는 퍼지 소속도를 사용하여 잡음의 영향을 효과적으로 줄일 수 있음이 입증되었다. 하지만 RF-PCA 역시 몇 가지 문제점이 있고, 수렴성이 그 중 하나이다. RF-PCA는 소속도와 주성분을 갱신할 때 서로 다른 목적 함수를 사용하므로 수렴 속도가 느리고 구해지는 해가 국부 최적 해임을 보장하지 않는다. 이 논문에서는 RF-PCA의 문제점을 해결하기 위해 하나의 목적 함수를 이용해 소속도와 주성분을 갱신할 수 있는 방법을 제안한다. 제안한 방법, RF-PCA2는 반복 최적화를 이용함으로써 국부 최적해에 수렴함을 보장하며, RF-PCA에 비해 빠른 수렴 속도를 가지고, 잡음 민감성이 줄어든다. 이러한 사실들은 실험 결과를 통해 확인할 수 있다.

한국 연안 평균 해수면 자료의 공간 상관관계 분석 (Spatial Correlation Analysis of the Mean Sea Level Data Sets in the Coastal Seas, Korea)

  • 조홍연;정신택;이욱재
    • 한국해안·해양공학회논문집
    • /
    • 제32권1호
    • /
    • pp.85-93
    • /
    • 2020
  • 우리나라 모든 조위관측소의 평균 해수면 자료의 기본 정보를 검토하고, 지점간의 상관관계 분석을 수행하였다. 광역적인 기후변화 영향으로 예상되는 평균 해수면 변화는 모든 지점 사이에서 지점간 거리와 무관하게 0.75 이상의 높은 상관을 보이는 것으로 파악되었다. 어떤 특정 지점간의 자료에 대해서는 음의 상관관계 및 0.25 이하의 낮은 상관관계를 보이는 것으로 파악되었으나, 이는 자료의 개수 및 이상자료의 영향으로 판단된다. 그러나 이러한 상관관계는 선형 증가 및 선형 관계를 가정하고 있기 때문에 이 가정에서 벗어나는 변동 추세를 가진 자료의 경우 추정결과가 왜곡될 수 있다. 모든 조위관측소 MSL 자료의 변동 양상 및 추세를 분석한 결과, 상당한 자료에서 선형 가정이 한계가 있는 것으로 파악되었다.

AUTOMATIC PRECISION CORRECTION OF SATELLITE IMAGES

  • Im, Yong-Jo;Kim, Tae-Jung
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2002년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.40-44
    • /
    • 2002
  • Precision correction is the process of geometrically aligning images to a reference coordinate system using GCPs(Ground Control Points). Many applications of remote sensing data, such as change detection, mapping and environmental monitoring, rely on the accuracy of precision correction. However it is a very time consuming and laborious process. It requires GCP collection, the identification of image points and their corresponding reference coordinates. At typical satellite ground stations, GCP collection requires most of man-powers in processing satellite images. A method of automatic registration of satellite images is demanding. In this paper, we propose a new algorithm for automatic precision correction by GCP chips and RANSAC(Random Sample Consensus). The algorithm is divided into two major steps. The first one is the automated generation of ground control points. An automated stereo matching based on normalized cross correlation will be used. We have improved the accuracy of stereo matching by determining the size and shape of match windows according to incidence angle and scene orientation from ancillary data. The second one is the robust estimation of mapping function from control points. We used the RANSAC algorithm for this step and effectively removed the outliers of matching results. We carried out experiments with SPOT images over three test sites which were taken at different time and look-angle with each other. Left image was used to select UP chipsets and right image to match against GCP chipsets and perform automatic registration. In result, we could show that our approach of automated matching and robust estimation worked well for automated registration.

  • PDF

한국형 X11ARIMA 프로시져에 관한 연구 (X11ARIMA Procedure)

  • 박유성;최현희
    • 응용통계연구
    • /
    • 제11권2호
    • /
    • pp.335-350
    • /
    • 1998
  • X11ARIMA는 1965년 미국 센서스국에서 개발된 X11분석 방법에 기초한 시계열 분석방법으로 Dagum(1975)에 의해 개발되었다. 이 기법은 Dagum(1988)에 의하여 북미지역의 174개의 경제지수를 바탕으로 일부 기본모형이 수정·보완되어 오늘날에 이르고 있다. 최근에는 회귀 모형과 ARIMA모형을 동시에 고려하여 특이치와 추세 변환효과(outlier arid Trend-change effects), 계절변동(seasonal effect), 그리고 달력효과(calendal effect) 등을 추정한 William 등(1995)과 Chen과 Findley(1995)의 X12ARIMA분석 방법이 소개되었다. 그러나 위의 모든 기법들은 주로 북미지역의 경제지수를 기초로 하고 있다. 본 논문에서는 우리나라의 산업중분류에서 산출되는 102개(생산(27), 출하(27), 재고(27), 가동률(21))의 지수에 대한 우리나라의 표준 ARIMA모형을 제시하고, 우리나라에 적합한 이동평균항수를 제공하고자 한다. 그리고 우리나라의 설, 추석 등의 명절효과를 태양력으로 전환함과 동시에, 최근에 논의되고 있는 X12ARIMA에서 사용되는 회귀모형과 ARIMA모형을 동시에 고려하는 명절효과를 도출하고자 한다.

  • PDF

공간 격자데이터 분석에 대한 우위성 비교 연구 - 이상치가 존재하는 경우 - (A Comparative Study on Spatial Lattice Data Analysis - A Case Where Outlier Exists -)

  • 김수정;최승배;강창완;조장식
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.193-204
    • /
    • 2010
  • 최근들어 공간적으로 분석을 필요로 하는 여러 분야에서의 연구자들은 공간통계학에 많은 관심을 가지게 되었다. 그리고 통계학 분야 역시 공간상에서 얻어진 데이터에 공간자기상관이 존재할 경우 공간적으로 분석해야 한다는 주장과 함께 많은 연구가 진행되고 있다. 공간통계학에서 다루고 있는 데이터 중에서 '공간 격자데이터 분석'은 (1) 공간이웃의 정의, (2) 공간이웃 가중치의 정의, (3) 공간모형의 적용 등의 단계를 거쳐서 행해진다. 본 연구에서는 이상치가 존재하는 공간 격자데이터를 분석할 경우 절사평균제곱오차를 이용하여 분석함으로써 예측적인 측면에서 공간통계학적 방법이 일반통계학적 방법보다 더 우수함을 보인다. 본 연구에 대한 내용의 타당성을 보이기 위해서 시뮬레이션을 통하여 공간통계학적인 방법과 일반통계학적인 방법을 비교하였다. 그리고 부산진구의 실제 범죄데이터를 이용한 적용사례를 통하여 절사평균제곱오차를 사용한 공간통계학적 방법의 유용성을 알아보았다.

최근접 질의를 위한 고차원 인덱싱 방법

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.632-642
    • /
    • 2001
  • 최근접 질의(nearest neighbor query)는 멀티미디어 데이타베이스에서 주어진 질의 객체와 가장 유사한 객체를 찾기 위한 매우 중요한 연산으로 사용된다. 대부분의 최근접 질의 처리 기법들은 객체의 효과 적인 인덱싱을 위하여 다차원 인덱스(multidimensional index)를 사용한다. 그러나 N차원 사각형 혹은 원을 사용하여 객체 클러스터의 캡슐 표현하는 기존의 다차원 인덱스들은 타원 수가 높아짐에 따라 검색 성능이 크게 떨어진다. 본 논문에서는 이러한 단순한 캡슐 표현 방식이 최근접 질의 처리의 성능을 저하시키는 주요 원인임을 지적하고, (1) 클러스터에 적합한 새로운 축 시스템(axis system)의 채택, (2) 원과 사각형의 조합 에 의한 다양한 캡슐 형태의 표현. (3) 아웃 라이어(outlier)의 별도 관리 등의 해결 방안을 제안한다. 또한, 이러한 개념들을 채택하는 인덱싱 구조를 제시하고. 이를 이용하는 최근접 질의 처리 방안을 제안한다. 끝으 로, 다양한 실험에 의한 성능 평가를 통하여 제안된 기법의 우수성을 검증한다.

  • PDF

Enhancement of UAV-based Spatial Positioning Using the Triangular Center Method with Multiple GPS

  • Joo, Yongjin;Ahn, Yushin
    • 한국측량학회지
    • /
    • 제37권5호
    • /
    • pp.379-388
    • /
    • 2019
  • Recently, a technique for acquiring spatial information data using UAV (Unmanned Aerial Vehicle) has been greatly developed. It is a very crucial issue of the GIS (Geographic Information System) mapping system that passes way point in the unmanned airframe and finally measures the accurate image and stable localization to the desired destination. Though positioning using DGPS (Differential Global Navigation System) or RTK-GPS (Real Time Kinematic-GPS) guarantee highly accurate, they are more expensive than the construction of a single positioning system using a single GPS. In the case of a low-priced single GPS system, the stability of the positioning data deteriorates. Therefore, it is necessary to supplement the uncertainty of the absolute position data of the UAV and to improve the accuracy of the current position data economically in the operating state of the UAV. The aim of this study was to present an algorithm enhancing the stability of position data in a single GPS mode of UAV with multiple GPS. First, the arrangement of multiple GPS receivers through the center of gravity of the UAV were examined. Next, MD (Mahalanobis Distance) is applied to detect instantaneous errors of GPS data in advance and eliminate outliers to increase the accuracy of previously collected multiple GPS data. Processing procedure for multiple GPS reception data by applying the center of the triangular method were presented to improve the position accuracy. Second, UAV navigation systems integrated multiple GPS through configuration of the UAV specifications were implemented. Using the unmanned airframe equipped with multiple GPS receivers, GPS data is measured with the TCM (Triangular Center Method). In addition, UAV equipped with multiple GPS were operated in study area and locational accuracy of multiple GPS of UAV with VRS (Virtual Reference Station) GNSS surveying were compared. The result showed that the error factors are compensated, and the error range are reduced, resulting in the reliability of the corrected value. In conclusion, the result in this paper is expected to realize high-precision position estimation at low cost in UAV using multiple low-cost GPS receivers.

The f0 distribution of Korean speakers in a spontaneous speech corpus

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.31-37
    • /
    • 2021
  • The fundamental frequency, or f0, is an important acoustic measure in the prosody of human speech. The current study examined the f0 distribution of a corpus of spontaneous speech in order to provide normative data for Korean speakers. The corpus consists of 40 speakers talking freely about their daily activities and their personal views. Praat scripts were created to collect f0 values, and a majority of obvious errors were corrected manually by watching and listening to the f0 contour on a narrow-band spectrogram. Statistical analyses of the f0 distribution were conducted using R. The results showed that the f0 values of all the Korean speakers were right-skewed, with a pointy distribution. The speakers produced spontaneous speech within a frequency range of 274 Hz (from 65 Hz to 339 Hz), excluding statistical outliers. The mode of the total f0 data was 102 Hz. The female f0 range, with a bimodal distribution, appeared wider than that of the male group. Regression analyses based on age and f0 values yielded negligible R-squared values. As the mode of an individual speaker could be predicted from the median, either the median or mode could serve as a good reference for the individual f0 range. Finally, an analysis of the continuous f0 points of intonational phrases revealed that the initial and final segments of the phrases yielded several f0 measurement errors. From these results, we conclude that an examination of a spontaneous speech corpus can provide linguists with useful measures to generalize acoustic properties of f0 variability in a language by an individual or groups. Further studies would be desirable of the use of statistical measures to secure reliable f0 values of individual speakers.

고차원 자료의 비지도 부분공간 이상치 탐지기법에 대한 요약 연구 (A survey on unsupervised subspace outlier detection methods for high dimensional data)

  • 안재형;권성훈
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.507-521
    • /
    • 2021
  • 고차원 자료에서 이상치를 탐지하기 위해서는 변수를 선별해야 할 필요성이 있다. 이상치 탐지에 적합한 정보가 종종 일부 변수에만 포함되어 있기 때문이다. 많은 수의 부적합한 변수가 자료에 포함될 경우 모든 관측치의 거리가 비슷해지는 집중효과가 발생하고 이로 인해 모든 관측치의 이상정도가 비슷해지는 문제가 발생하게 된다. 부분공간 이상치 탐지기법은 전체 변수 중 이상치 탐지에 적합한 변수들의 집합을 선별하여 관측치의 이상정도를 측정함으로써 이러한 문제를 극복한다. 본 논문은 대표적인 부분공간 이상치 탐지기법을 부분공간 선정 방식에 따라 세가지 유형으로 분류하고 각 유형에 속한 방법론을 부분공간 선정 기준과 이상 정도 측정 방식에 따라 요약한다. 더하여, 부분공간 이상치 탐지기법들을 적용할 수 있는 컴퓨팅 프로그램을 소개하고 집중효과에 대한 간단한 가상 실험과 자료 분석 결과를 제시한다.