• Title/Summary/Keyword: Box-Plot

Search Result 102, Processing Time 0.025 seconds

Study on analysis of initial Data on 6 Sigma application in real fields (6 Sigma 현장적용 적용 시 초기 데이터 분석에 대한 고찰)

  • Lee, Sang-Bok;Choe, Eun-Hyang
    • Proceedings of the Korean Society for Quality Management Conference
    • /
    • 2009.10a
    • /
    • pp.33-39
    • /
    • 2009
  • 본 연구에서는 현장에서 6 시그마를 활용 시 통계분석의 기초가 되는 초기 데이터 분석에 대한 고찰이다. 통계의 가장 기본이 되는 데이터가 잘못되었으면 나머지 모두 문제가 된다. 이에 데이터 초기에 발생할 수 있는 여러 오류의 가능성을 살펴보고 각각에 대해 해결책을 제시하였다. 여기서 활용하는 방법들은 계측기 선정, Gage R&R, Histogram, Box-plot, PDF, Box-Cox 변화 등이다.

  • PDF

Graphical Methods for Evaluating the Effect of Outliers in Univariate and Bivariate Data (일변량 및 이변량 자료에 대하여 특이값의 영향을 평가하기 위한 그래픽 방법)

  • Jang, Dae-Heung
    • Proceedings of the Korean Society for Quality Management Conference
    • /
    • 2006.11a
    • /
    • pp.221-226
    • /
    • 2006
  • We usually use two techniques(influence function and local influence) for detecting outliers. But, we cannot use these difficult techniques in elementary industrial statistics course for college students. We can use some simple graphical methods(box plot, dandelion seed plot, influence graph and cumulative deletion plot) for univariate and bivariate outlier detection and outlier effect in elementary industrial statistics course for college students.

  • PDF

RegARIMA 모형을 이용한 음력 명절효과의 검정에 관한 연구

  • Mun, Gwon-Sun
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2005.05a
    • /
    • pp.73-77
    • /
    • 2005
  • 본 논문은 시계열에 내재된 설${\cdot}$추석 등 음력 명절효과의 존재를 검정하기 위해 RegARIMA 모형의 잔차에 대한 t-검정 통계량을 제시하였으며 Box-plot에 의한 그래프적 진단을 시도하였다. 제시된 t-검정 결과를 X-12-ARIMA의 AICC-사전검정 및 RegARIMA 모형에 의해 추정된 명절효과 회귀계수의 t-값과 비교하였다. 사용된 명절효과 변수는 Bell과 Hillmer(1983)의 명절효과 변수이다.

  • PDF

Big Data Smoothing and Outlier Removal for Patent Big Data Analysis

  • Choi, JunHyeog;Jun, Sunghae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.21 no.8
    • /
    • pp.77-84
    • /
    • 2016
  • In general statistical analysis, we need to make a normal assumption. If this assumption is not satisfied, we cannot expect a good result of statistical data analysis. Most of statistical methods processing the outlier and noise also need to the assumption. But the assumption is not satisfied in big data because of its large volume and heterogeneity. So we propose a methodology based on box-plot and data smoothing for controling outlier and noise in big data analysis. The proposed methodology is not dependent upon the normal assumption. In addition, we select patent documents as target domain of big data because patent big data analysis is a important issue in management of technology. We analyze patent documents using big data learning methods for technology analysis. The collected patent data from patent databases on the world are preprocessed and analyzed by text mining and statistics. But the most researches about patent big data analysis did not consider the outlier and noise problem. This problem decreases the accuracy of prediction and increases the variance of parameter estimation. In this paper, we check the existence of the outlier and noise in patent big data. To know whether the outlier is or not in the patent big data, we use box-plot and smoothing visualization. We use the patent documents related to three dimensional printing technology to illustrate how the proposed methodology can be used for finding the existence of noise in the searched patent big data.

Box-Cox Power Transformation Using R

  • Baek, Hoh Yoo
    • Journal of Integrative Natural Science
    • /
    • v.13 no.2
    • /
    • pp.76-82
    • /
    • 2020
  • If normality of an observed data is not a viable assumption, we can carry out normal-theory analyses by suitable transforming data. Power transformation by Box and Cox, one of the transformation methods, is derived the power which maximized the likelihood function. But it doesn't induces the closed form in mathematical analysis. In this paper, we compose some R the syntax of which is easier than other statistical packages for deriving the power with using numerical methods. Also, by using R, we show the transformed data approximately distributed the normal through Q-Q plot in univariate and bivariate cases with some examples. Finally, we present the value of a goodness-of-fit statistic(AD) and its p-value for normal distribution. In the similar procedure, this method can be extended to more than bivariate case.

Effect of Vibration during Distribution Process on Compression Strength of Corrugated Fiberboard Boxes for Agricultural Products Packaging (농산물 포장용 골판지상자의 수송 중 진동에 의한 압축강도 변화)

  • Shin, Joon Sub;Kim, Jongkyoung
    • KOREAN JOURNAL OF PACKAGING SCIENCE & TECHNOLOGY
    • /
    • v.27 no.2
    • /
    • pp.91-100
    • /
    • 2021
  • Agricultural corrugated fiberboard packaging boxes frequently experience damage due to loading and unloading, vibration during transport, and shock by dynamic distribution condition change. This study was carried out to estimate effect of vibration during distribution process on compression strength of corrugated fiberboard boxes for agricultural products. In order to identify the degradation caused by vibration, after box packaging the agricultural products(tangerine or cucumber), the natural frequencies of the packaging boxes were measured by varying the relative humidity(50, 70 and 90%) at 25℃ temperature. Various types of corrugated fiberboard boxes were packed with tangerines and cucumbers, and the PSD plot vibration tests were conducted by utilizing the actual vibration recording results of the Gyeongbu Expressway section between Seoul and Gimcheon. As a result of the experiment, the decrease in compression strength of the box was relatively low in DW-AB, and the decrease in compression strength of the SW-A 0201(RSC) type box was the highest at 20.49%. In particular, both SW-A and DW-AB showed low compression strength degradation rates for open folder type boxes. The moisture content varies depending on the type of the box or agricultural products, and the enclosed 0201(RSC) type box was generally higher than the open folder or bliss type box, which is believed to be the reason for the decrease in compression strength of RSC type box due to humidity. By the agricultural product, the percentage of decrease in compression strength of box packed with cucumbers was especially high.

A Comparative Study on Methods for Outlier Test of Rainfall in Korea (국내 강우의 이상치검정 방법의 비교 연구)

  • Lee, Jung Sik;Shin, Chang Dong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.359-359
    • /
    • 2018
  • 이상치는 표본자료에서 크게 어긋나 다른 자료들로부터 떨어져 표시되는 자료로써, 실제로 발생할 확률이 매우 낮은 자료로 정의되고 있다. 설계홍수량을 산정하기 위하여 적용하고 있는 극치계열의 연최대치 강우자료에는 기계오작동 및 엔지니어의 표독오류가 발생하고 있으며, 기후변화에 따른 거대태풍 및 국지적인 집중호우 발생 등으로 인한 극치값 등에서 이상치가 관측되고 있다. 통상 이상치들은 통계분석시 자료 본연의 특성을 왜곡시켜 편향된 결과를 산정할 수 있으므로 빈도해석시 이상치해석 절차를 수행하여 자료의 적정성을 확인하여야 한다. 현재 실무에서는 설계홍수량 산정요령과 하천설계기준 해설 등에서 관련 내용을 기술하고 있지만, 국내 강우자료의 기록연수의 부족으로 인하여 빈도해석시 이상치 해석이 미수행되고 있어 이상치에 따른 자료편의가 발생하면 결과물인 확률강우량이 왜곡되게 산정될 수 있다. 따라서, 본 연구에서는 국내 주요 도시의 강우자료를 이용하여 이상치검정을 수행하였다. 대상지점으로는 서울, 부산, 대전, 대구, 인천, 광주, 울산 등의 비교적 긴 관측년수를 보유하고 있는 광역시를 선정하였으며, 지속기간은 10분, 1~24시간의 25개 강우자료를 적용하였다. 이상치검정 방법으로는 타 방법에 비하여 이상치 검정력이 뛰어난 것으로 알려진 2가지 방법을 채택하였으며, 표본자료의 평균과 표준편차로 표준화된 z값을 이용하여 상 하 한계선를 초과하는 값을 확인하는 z-Score 방법중 향상된 중위수 절대편차(MAD)에 의한 수정 z-Score 방법(Hoaglin, 1993)과 Box-Plot 방법(Tukey, 1969)을 적용하였다. Box-Plot 방법(Tukey, 1969)은 전체 자료를 25%씩 사분위로 구분하는 방법으로 정렬된 자료계열을 중앙값, 박스, 수염(whiskers), 이상치로 구분한다. 정렬된 25~75% 값들을 박스로 포함하여 외곽의 수염값들을 이상치로 분류하며, 특히 사분위수의 도식화로 데이터의 분포를 파악하기 좋으며, 이상치들의 위치와 자료의 비대칭 여부를 쉽게 파악할 수 있다. 본 연구의 수행으로 수정 z-Score 방법의 경우에는 서울과 대구지점에는 이상치가 없으며, 부산지점에는 13개, 대전지점 7개, 인천지점 5개, 광주지점 32개, 울산지점 26개가 나타났다. Box-Plot 방법으로는 서울지점 35개, 부산지점 39개, 대전지점 32개, 대구지점 38개, 인천지점 51개, 광주지점 61개, 울산지점 65개의 이상치가 분석되었다. 연구를 수행한 결과, 수정 z-Score 방법에 비하여 Box-Plot 방법에 의한 이상치가 더 많이 발생하였으며, 각각의 방법으로 지속기간 및 연도별 이상치 발생자료를 확인하였다. 방법별 이상치 발생현황 등을 분석하여 지점별 발생횟수를 분석하였으며, 추후 지점 및 자료의 보완이 수행되면 활용성을 증대시킬 수 있을 것으로 판단된다.

  • PDF

Dynamic Graphics Using Line Mosaic Plot (선 모자이크 도표를 이용한 동적 그래픽스)

  • Cha, Woon-Ock;Lee, Kyung-Mi;Choi, Byong-Su
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.2
    • /
    • pp.153-164
    • /
    • 2010
  • This study is about the dynamic graphics which can be used for the exploration of the characteristics of data comprising discrete and continuous variables. Simultaneously using line mosaic plot for the relation of discrete variables and box plot together with scatter plot for the relation of continuous variables, we have applied dynamic methods among these plots to demonstrate that the structure and characteristics of the multivariate data could be easily analyzed.

A study on estimating background concentration of groundwater for water quality assessment in non-water supply district (상수도 미보급 지역의 지하수 수질상태 평가를 위한 배경농도 산정방법에 관한 연구)

  • Yea, Young-Do;Seo, Yong-Gyo;Kim, Rak-Hyeon;Cho, Dong-Jun;Kim, Kwang-Shik;Cho, Wook-Sang
    • Journal of Korean Society of Water and Wastewater
    • /
    • v.28 no.3
    • /
    • pp.345-358
    • /
    • 2014
  • For introducing the groundwater quality assessment using background concentration of groundwater, several methods had been studied to estimate the background concentration of groundwater and to suggest the background concentration of study area. Some methods such as Box whisker plot, Percentile and Cumulative probability distribution had been adopted to estimate background concentration, and it was evaluated that the Cumulative probability distribution method presents more reasonable background concentration because it can consider the data distribution. So we estimated the background concentration of study area using cumulative probability distribution method. We suggested the background concentration for each hydrogeology respectively in case hydrogeological water quality similarity is very low.