• 제목/요약/키워드: 범주형 자료

검색결과 222건 처리시간 0.029초

조건부 확률에 기반한 범주형 자료의 거리 측정 (A distance metric of nominal attribute based on conditional probability)

  • 이재호;우종하;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

K-모드 알고리즘과 ROCK 알고리즘의 비교 및 개선방안

  • 김보화;김규성
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2001년도 추계학술발표회 논문집
    • /
    • pp.163-167
    • /
    • 2001
  • 데이터 마이닝에서 분석의 대상으로 하는 대용량 자료에는 연속형 자료와 범주형 자료가 모두 포함된다. 전통적인 군집분석은 연속형 자료를 대상으로 하는 방법들이다. 본 연구에서는 범주형 자료를 대상으로 하는 군집분석방법인 K-모드 알고리즘과 락(ROCK) 알고리즘을 비교${\cdot}$분석하였다. 그리고 두 알고리즘이 갖는 방법론적인 단점을 보안하여 군집의 효과를 높일 수 있는 개선 방안을 제안하였다.

  • PDF

반복조사를 통한 범주형 자료의 오분류 탐색

  • 고봉성
    • Communications for Statistical Applications and Methods
    • /
    • 제4권1호
    • /
    • pp.75-90
    • /
    • 1997
  • 본 연구는 범주형자료의 오분류에 관한 연구로, 2$\times$2분할표의 자료에 오분류가 있다고 생각되는 조사와 반복조사를 통해 정확하게 분류한 새로운 범주형자료를 시간이라는 새변수의 결합을 통해 오분류 여부를 탐색하는 방법에 대한 연구이다.

  • PDF

인터넷상에서의 범주형 자료분석 시스템 개발 (Categorical Date Analysis System in the internet)

  • 홍종선;김동욱;오민권
    • 응용통계연구
    • /
    • 제12권1호
    • /
    • pp.83-95
    • /
    • 1999
  • 본 논문의 목적은 인터넷에서 범주형 자료분석에 대한 전문적인 지식이 없는 일반 분석자들에게 보다 쉽고, 간편하게 다룰 수 있는 범주형 자료 분석 시스템을 제공하는것이다. 이 분석 시스템은 크게 세 가지 측면으로 설계하여 구현하였다. 첫째, 범주형 자료에 대한 탐색적 자료분석을 위하여 세 가지 종류의 히스토그램을 제공한다. 둘째, 범주형 변수들간에 존재하는 연관성을 측정하기 위한 여러 연관성 측도들을 제공한다. 특히, 현재 많이 사용되는 통계 패키지들에서 제공하지 못하는 모자익 그림과 연관 그림을 동적 그래픽스로 구현하여 연관성을 측정하거나 모형을 설정하는데 유용한 정보를 얻을 수 있도록 하였다. 셋째, 대수선형모형에 대한 분석을 통해 사용자가 가장 잘 적합된 대수선형모형을 선택할 수 있게 하였다.

  • PDF

혼합모드 잠재범주모형을 통한 텍스트 자료의 분석 (Latent class model for mixed variables with applications to text data)

  • 신현수;서병태
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.837-849
    • /
    • 2019
  • 일종의 혼합다항분포 모형이라고 볼 수 있는 잠재범주모형은 범주형 자료에서 직접 관측되지 않은 중요한 정보를 얻어낼 수 있는 유용한 도구이다. 하지만 자료에 범주형 변수 뿐 아니라 연속형 변수 혹은 빈도형 변수가 함께 포함되어 있을 경우 이 모형을 직접적으로 사용할 수 없다. 본 논문에서는 특히 범주형 변수와 빈도형 변수가 함께 포함되어 있는 경우에 잠재범주모형인 혼합모드 잠재범주모형을 사용하여 텍스트 후기와 범주형 응답문항이 모두 포함된 의약품 사용 후기자료를 분석하였다. 이 분석을 통해 범주형 응답만을 사용한 보통의 잠재범주 모형에 비해 텍스트 자료를 함께 사용한 혼합모드 잠재범주모형을 사용했을때 잠재범주에 대한 보다 자세한 정보를 얻을 수 있는 것을 확인하였다.

다차원 범주형 자료에 대한 링차트 (Ring Chart for Categorical Data)

  • 오민권;홍종선;이종철
    • 응용통계연구
    • /
    • 제12권1호
    • /
    • pp.225-239
    • /
    • 1999
  • 범주형 자료에 대하여 탐색적 자료분석을 할 수 있는 기존의 여러 그림들을 변수의 수가 많아지면 시각적인 식별이 어렵다는 단점이 있다. 본 논문에서는 삼차원이상의 다차원 범주형 자료를 이차원 평면성에 표현할 수 있는 링차트(ring chart)를 제안한다. 각 칸의 확률값을 표현하는 링차트는 범주형 자료의 구조 전체를 시각적으로 파악할 수 있으며, 관측값을 표준화한 링차트는 변수들간의 연관성 여부를 시각적으로 판단하는데 유용한 정보를 제공한다. 삼차원이상의 자료에서는 이중 링차트(조건부 링차트)를 개발하여 일차 및 이차교호작용 검정까지도 가능하다. 또한, 관측값과 잔차를 동시에 표현한 잔차 링차트는 설정된 모형의 적합성 여부를 시각적으로 평가할 수 있는 장점이 있다.

  • PDF

범주형 재무자료에 대한 신용평가모형 검증 비교 (Validation Comparison of Credit Rating Models for Categorized Financial Data)

  • 홍종선;이창혁;김지훈
    • Communications for Statistical Applications and Methods
    • /
    • 제15권4호
    • /
    • pp.615-631
    • /
    • 2008
  • 재무자료에 대한 신용평가모형은 각각의 재무변수를 평활한 예측부도율로 변환하여 사용한다. 본 연구에서는 연속형 재무자료를 변환하여 설정된 신용평가모형의 문제점을 살펴보고, 연속형 재무변수를 다양한 형태로 범주화한 신용평가모형들을 제안한다. 범주형 재무자료를 사용해서 개발한 여러 종류의 신용평가모형들의 성과를 다양한 적합성 검증 방법으로 비교하고, 범주형 재무자료를 이용한 신용평가모형의 유용성을 토론한다.

현장 조사 자료의 공간 보간을 위한 다변량 크리깅을 이용한 범주형 자료의 통합 (Integration of Categorical Data using Multivariate Kriging for Spatial Interpolation of Ground Survey Data)

  • 박노욱
    • Spatial Information Research
    • /
    • 제19권4호
    • /
    • pp.81-89
    • /
    • 2011
  • 이 논문에서는 공간적으로 소수의 지점에서 획득된 현장 조사 자료의 공간 보간 과정에 범주형 자료를 결합하는 다변량 크리깅 기법을 제안하고자 한다. 범주형 자료를 결합하는 과정에서 기존 범주형 자료의 속성별로 대푯값을 할당하는 단일 지역 평균 기반의 단순 크리깅 방식 대신에, 영역-점 변환 크리깅을 이용하여 원하는 해상도로 상세화시킨 추정값을 가변적 지역 평균으로 이용하였다. 지화학 원소 구리의 공간 보간에 지질도를 이용하는 사례연구를 통해 제안 기법을 예시하였다. 교차 검증 결과, 제안 기법이 단변량 정규 크리깅과 기존 단일 지역 평균 기반의 단순 크리깅 기법에 비해 각각 15%와 25%의 예측 능력의 향상을 나타내었다. 따라서 범주형 자료를 부가 자료로 이용하는 공간 보간에 이 논문에서 제안한 기법이 효율적으로 적용될 수 있을 것으로 기대된다.

베이지안 네트워크를 이용한 다차원 범주형 분석 (Multi-dimension Categorical Data with Bayesian Network)

  • 김용철
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.169-174
    • /
    • 2018
  • 일반적으로 자료의 효과 연속형인 경우 분산분석과 이산형인 경우 분할표 카이제곱 검정을 통계적 분석방법으로 사용한다. 다차원의 자료에서는 계층적 구조의 분석이 요구되어지며 자료간의 인과관계를 나타내기 위해 통계적 선형모형을 채택하여 분석한다. 선형모형의 구조에서는 자료의 정규성이 요구되어지며 일부 자료에서는 비 선형모형을 채택할 수도 있다. 특히, 설문조사 자료 구조는 문항의 특성상 이산형 자료의 형태가 많아 모형의 조건에 만족하지 않는 경우가 종종 발생한다. 자료구조의 차원이 높아질수록 인과관계, 교호작용, 연관성분석 등에 다차원 범주형 자료 분석 방법을 사용한다. 본 논문에서는 확률분포의 계산을 이용한 베이지안 네트워크 모형이 범주형 자료 분석에서 분석절차를 줄이고 교호작용 및 인과관계를 분석할 수 있다는 것을 제시하였다.

PLS 방법에 의한 "큰" 2원 교차표의 시각화 (Visualizing Large Two-way Crosstabs by PLS Method)

  • 이용구;최연임
    • Communications for Statistical Applications and Methods
    • /
    • 제16권3호
    • /
    • pp.421-428
    • /
    • 2009
  • 범주형 자료의 시각화에서 범주가 많지 않은 경우에는 기존의 Hayashi의 수량화 제3방법을 이용하여 두변수의 범주들 사이의 연관성에 대한 시각화를 구할 수 있다. 그러나, Hayashi방법은 큰 빈도의 범주들보다 작은 빈도의 범주들을 두드러지게 수량화하므로 결과가 불안정하다는 문제점이 있다 (허명회와 이용구, 2006). 이 연구의 목적은 범주수가 "큰" 두 범주형 변수 R과 C에 대하여 각 변수 벌주들 사이의 연관성을 살펴보기 위한 시각화 방법을 제안하는 데 있다. 이를 위하여 우리는 2개 변수군 수치형 자료를 시각화하는 방법으로 제안된 허명회 등 (2007)의 PLS 시각화 방법을 범주형 자료에 적용하고자 한다. 즉, 범주형 변수 R과 C의 범주들 각각을 0/1로 더미 코드화하여 각각 R개와 C개의 범주군으로 변환한 다음 허명회 등 (2007)에서 제시한 PLS 시각화 방법을 적용하고자 한다. 이러한 방법은 Hayashi 수량화 방법의 문제점을 해결할 수 있을 뿐만 아니라 행변수와 열변수 각각이 여러 개의 범주형 변수들의 집합인 변수군의 경우에도 확대 적용 가능하다. 순치 예로서 German Credit 자료에서 10개 금융관련 변수의 34개 범주를 R로 간주하고 10개 사회인구적 변수의 46개 범주를 C로 간주하여 새 방법론을 적용해 보인다.