• 제목/요약/키워드: interval-valued data

검색결과 13건 처리시간 0.02초

Local linear regression analysis for interval-valued data

  • Jang, Jungteak;Kang, Kee-Hoon
    • Communications for Statistical Applications and Methods
    • /
    • 제27권3호
    • /
    • pp.365-376
    • /
    • 2020
  • Interval-valued data, a type of symbolic data, is given as an interval in which the observation object is not a single value. It can also occur frequently in the process of aggregating large databases into a form that is easy to manage. Various regression methods for interval-valued data have been proposed relatively recently. In this paper, we introduce a nonparametric regression model using the kernel function and a nonlinear regression model for the interval-valued data. We also propose applying the local linear regression model, one of the nonparametric methods, to the interval-valued data. Simulations based on several distributions of the center point and the range are conducted using each of the methods presented in this paper. Various conditions confirm that the performance of the proposed local linear estimator is better than the others.

퍼지객체지향자료모형에서 구간값 퍼지집합을 이용한 속성값 계산 (Calculating Attribute Values using Interval-valued Fuzzy Sets in Fuzzy Object-oriented Data Models)

  • 조상엽;이종찬
    • 인터넷정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.45-51
    • /
    • 2003
  • 일반적으로 퍼지객체지향자료모형에서 속성값은 퍼지집합을 표현한다. 만일 퍼지객체지향자료모형에서 속성값을 구간값 퍼지집합으로 표현할 수 있다면, 퍼지객체지향자료모형에서 사용하는 속성값을 더 유연하게 표현하는 것이 가능하다. 퍼지객체지향자료모형의 상속구조에 나타나는 프레임내에 있는 속성값을 구하기 위해 구간값 퍼지집합을 사용하는 우선순위 논리곱연산을 이용하여 계산한다. 이 방법은 속성값의 소속정도가 기존의 퍼지집합이 아닌 구간값 퍼지집합으로 표현하는 지식정보처리분야에서 사용할 수 있다.

  • PDF

구간형 자료의 주성분 분석에 관한 연구 (On principal component analysis for interval-valued data)

  • 최수진;강기훈
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.61-74
    • /
    • 2020
  • 심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

구간 자료의 확률적 순서 검정 (Testing for stochastic order in interval-valued data)

  • 최혜정;임요한;곽민정;박성오
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.879-887
    • /
    • 2019
  • 본 연구에서는 이표본 구간 자료의 확률적 순서 검정 절차를 제안한다. 제안하는 검정 통계량은 U-통계량에 해당하며 본 연구에서는 이에 대한 점근적 분포를 귀무 가설 하에서 유도하였다. 실제 자료와 모의 실험을 통해 새로 제안한 방법의 성능을 단측 이변량 Kolmogorov-Smirnov 검정법과 비교한다.

Forecasting Symbolic Candle Chart-Valued Time Series

  • Park, Heewon;Sakaori, Fumitake
    • Communications for Statistical Applications and Methods
    • /
    • 제21권6호
    • /
    • pp.471-486
    • /
    • 2014
  • This study introduces a new type of symbolic data, a candle chart-valued time series. We aggregate four stock indices (i.e., open, close, highest and lowest) as a one data point to summarize a huge amount of data. In other words, we consider a candle chart, which is constructed by open, close, highest and lowest stock indices, as a type of symbolic data for a long period. The proposed candle chart-valued time series effectively summarize and visualize a huge data set of stock indices to easily understand a change in stock indices. We also propose novel approaches for the candle chart-valued time series modeling based on a combination of two midpoints and two half ranges between the highest and the lowest indices, and between the open and the close indices. Furthermore, we propose three types of sum of square for estimation of the candle chart valued-time series model. The proposed methods take into account of information from not only ordinary data, but also from interval of object, and thus can effectively perform for time series modeling (e.g., forecasting future stock index). To evaluate the proposed methods, we describe real data analysis consisting of the stock market indices of five major Asian countries'. We can see thorough the results that the proposed approaches outperform for forecasting future stock indices compared with classical data analysis.

증분 의사결정 트리 구축을 위한 연속형 속성의 다구간 이산화 (Multi-Interval Discretization of Continuous-Valued Attributes for Constructing Incremental Decision Tree)

  • 백준걸;김창욱;김성식
    • 대한산업공학회지
    • /
    • 제27권4호
    • /
    • pp.394-405
    • /
    • 2001
  • Since most real-world application data involve continuous-valued attributes, properly addressing the discretization process for constructing a decision tree is an important problem. A continuous-valued attribute is typically discretized during decision tree generation by partitioning its range into two intervals recursively. In this paper, by removing the restriction to the binary discretization, we present a hybrid multi-interval discretization algorithm for discretizing the range of continuous-valued attribute into multiple intervals. On the basis of experiment using semiconductor etching machine, it has been verified that our discretization algorithm constructs a more efficient incremental decision tree compared to previously proposed discretization algorithms.

  • PDF

Symbolic Cluster Analysis for Distribution Valued Dissimilarity

  • Matsui, Yusuke;Minami, Hiroyuki;Misuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제21권3호
    • /
    • pp.225-234
    • /
    • 2014
  • We propose a novel hierarchical clustering for distribution valued dissimilarities. Analysis of large and complex data has attracted significant interest. Symbolic Data Analysis (SDA) was proposed by Diday in 1980's, which provides a new framework for statistical analysis. In SDA, we analyze an object with internal variation, including an interval, a histogram and a distribution, called a symbolic object. In the study, we focus on a cluster analysis for distribution valued dissimilarities, one of the symbolic objects. A hierarchical clustering has two steps in general: find out step and update step. In the find out step, we find the nearest pair of clusters. We extend it for distribution valued dissimilarities, introducing a measure on their order relations. In the update step, dissimilarities between clusters are redefined by mixture of distributions with a mixing ratio. We show an actual example of the proposed method and a simulation study.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of Continuous-Valued Attributes considering Data Distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.391-396
    • /
    • 2003
  • 본 논문에서는 특정 매개변수(parameter)의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(continuous) 속성 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화 하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

구간데이터분석을 위한 형식개념분석기반의 분류 (A FCA-based Classification Approach for Analysis of Interval Data)

  • 황석형;김응희
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.19-30
    • /
    • 2012
  • 다양한 정보기기와 소셜네트워크시스템, 그리고, 클라우드컴퓨팅환경 등과 같은 인터넷기반의 인프라를 토대로 분산화되고 공유가능한 데이터가 폭발적으로 증가하고 있다. 최근에는 데이터에 내재되어 있는 유용한 정보와 지식을 추출하고 분석 및 분류하기 위한 데이터분석 및 마이닝기법으로서, 이진데이터 또는 다치데이터에 관한 형식개념분석기법에 관한 연구가 활발하게 진행되어 다양한 분야에서 성공적으로 활용되고 있다. 그러나, 각 속성들이 구간값을 갖는 형태로 이루어진 구간데이터의 분석에 대한 형식개념분석에 관한 연구는 많이 수행되지 못하였다. 본 논문에서는, 구간데이터를 분석하기 위하여 형식개념분석기법을 기반으로 하는 새로운 분류기법을 제안한다. 또한, 구간데이터의 이진화, 개념추출 및 개념계층구조 구축 등, 본 논문에서 제안한 새로운 분류기법을 지원하기 위한 도구(iFCA)의 구축에 관하여 소개하고, 마지막으로, 몇가지 실세계의 데이터를 대상으로 한 실험결과를 토대로, 본 논문에서 제안하는 분류기법의 유용성에 대해서 설명한다.

분류학습을 위한 연속 애트리뷰트의 이산화 방법에 관한 연구 (Discretization of Continuous-Valued Attributes for Classification Learning)

  • 이창환
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1541-1549
    • /
    • 1997
  • 대부분의 기계학습 방법들은 이산형의 데이타를 학습에 사용되는 데이타의 형식으로 요구하고 있다. 따라서 연속형 데이타의 경우는 기계학습 방법들을 적용하기 전에 그 데이타를 이산형으로 바꾸어 주는 과정이 필요하다. 이러한 이산화 과정은 그 중요성에 비하여 상대적으로 관련 연구가 미비한 수준이다. 따라서 이 논문은 정보이론을 사용하여 연속형 자료를 이산형의 형태로 변환시키는 새로운 방법을 제안하였다. 각 애트리뷰트의 값들이 목적 애트리뷰트에 제공하는 정보의 량을 엔트로피 함수의 일종인 Hellinger 변량을 이용하여 계산하였으며, 각 애트리뷰트마다 제공하는 정보의 손실을 최소화할 수 있는 이산화 경계선을 계산하였다. 본 논문이 제안한 방법의 성능을 ID3 와 신경망 알고리즘을 사용하여 기존의 이산화 방법들과 비교하였으며 거의 대부분 우수한 정확성을 보였다.

  • PDF