• 제목/요약/키워드: 오분류

검색결과 798건 처리시간 0.026초

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

반복조사를 통한 범주형 자료의 오분류 탐색

  • 고봉성
    • Communications for Statistical Applications and Methods
    • /
    • 제4권1호
    • /
    • pp.75-90
    • /
    • 1997
  • 본 연구는 범주형자료의 오분류에 관한 연구로, 2$\times$2분할표의 자료에 오분류가 있다고 생각되는 조사와 반복조사를 통해 정확하게 분류한 새로운 범주형자료를 시간이라는 새변수의 결합을 통해 오분류 여부를 탐색하는 방법에 대한 연구이다.

  • PDF

공간분포지표를 이용한 위성영상 분류오차의 공간적 분포 평가 (Estimating the Spatial Distribution of Satellite Image Classification Error Using Index of Spatial Distribution)

  • 이병길;김용일;어양담
    • 한국측량학회지
    • /
    • 제17권2호
    • /
    • pp.129-136
    • /
    • 1999
  • 영상분류 결과는 지형적 영향, 영상의 상태 등에 따라 전체 영상에 대하여 균일하지 않을 수 있다. 본 연구에서는 분류 결과의 불균일성과 위성영상 분류 오차의 공간적 분포를 평가하기 위해 ISDd (Index of Spatial Distribution by distance) 와 ISDs (ISD by scatteredness)의 개념을 제안하였다. ISDd는 지표화된 오분류 화소간의 거리이고, ISDs는 오분류 화소의 산포도에 관한 통계적 지표이다. 실제 위성영상에 대한 실험을 통하여 ISDd와 ISDs를 계산 및 평가하였으며, 실제 국지적 오분류 영역을 추출하여 오분류의 원인을 고찰하였다. 본 연구 결과, ISDd와 ISDs를 동시에 사용하여 오분류 화소의 국지적 밀집 여부와 밀집 정도의 평가가 가능하였으며, 그 결과를 토대로 영상의 일부분에 대한 분류결과의 채택/기각을 결정할 수 있었다. 따라서, 전체 분류정확도 외에 공간분포지표를 사용함으로써 사용자는 오분류 화소의 공간적 분포 상태를 파악할 수 있으며, 분류 결과의 적합성 및 신뢰성 판단을 위한 추가적인 기준을 가질 수 있다.

  • PDF

온라인 오피니언 문서 분류를 위한 한국어 형용사 의미 극성 사전 (Lexicon of Semantic-Polarity of Korean Adjectives for the Classification of On-line Opinion Documents)

  • 안애림;심승혜;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.166-171
    • /
    • 2010
  • 본 논문은 한국어 온라인 리뷰 문서의 오피니언 분류(Opinion Classification)에 있어 그 핵심 키워드가 형용사 (Adjective) 범주라는 점을 고려하여, 한국어 형용사를 <문맥에 의존하지 않는 절대 극성>과, <문맥에 의존하여 극성이 바뀌는 상대극성>으로 대분류한 뒤 그 각각의 의미 극성을 하위 분류하는 작업을 수행하였다. 기존의 연구에서 특징적인 오피니언 어휘 수십개에 의존하여 자동 분류를 시도하고자 하였던 문제점을 극복하기 위해서는 한국어 형용사 전체 범주에 대한 체계적인 극성 분류가 이루어져야 할 필요가 있으며, 여기서 특히 상세히 주목받지 못했던 상대 극성 어휘에 대한 본격적인 의미 분류가 요구된다. 본 연구에서 제시하는 형용사의 극성 분류는 기존의 이론 언어학적 형용사 의미 분류와 달리 온라인 오피니언 문서에서 도메인에 따라 나타나는 특징적 의미 유형을 결정하고, 이를 기준으로 온라인 오피니언 문서의 극성 판별에 효과적으로 적용할 수 있는 사전을 구축하였다는 점에서 의의를 가진다.

  • PDF

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2001년도 추계학술발표회 논문집
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

IDS의 False Alarm 발생율 감소를 위한 데이터 마이닝 기반의 분류모델 (Data Mining based Classification Model for False Alarm rate reducing of IDS)

  • 전원용;신문선;김은희;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.247-249
    • /
    • 2004
  • IDS에서 발생되는 경보의 수는 최근 인터넷 애플리케이션의 발달로 인하여 급격히 증가하고 있으며. 그로 인해 오 경보의 수도 함께 증가하고 있다. 발생된 경보들은 침입탐지 시스템의 성능저하와 alert flooding 의 원인이 된다. 따라서 이 논문에서는 다량의 경보 중에서 오 경보(False Alarm)의 발생을 감소시킬 수 있는 오 경보 분류 모델을 제안한다. 제안된 오 경보 분류 모델은 데이터 마이닝 기법들 중에서 분류 기법을 기반으로 구현되었다. 실험 을 통해서 IDS에서 발생하는 경보 중에서 정상데이터이나 공격으로 잘못 판단하여 발생하는 False Positive의 발생율이 현저히 감소됨을 확인할 수 있었다. 제안된 오 경보 분류 모델은 경보메시지 축약의 효과가 있으며 침입탐지 시스템의 탐지율을 높이는데 활용될 수 있다.

  • PDF

학교 기록물 분류의 문제점과 개선방안 학교 기록관리기준표 분석을 중심으로 (Causes and Countermeasures of School Records Misclassifications : Focusing on the 'General Disposition Authority for School Records')

  • 우지원;설문원
    • 기록학연구
    • /
    • 제58호
    • /
    • pp.299-332
    • /
    • 2018
  • 이 연구는 학교 기록물 분류의 현황을 분석하여 오분류 실태와 그 원인을 밝히고, 이를 토대로 기록관리기준표의 개선방안을 도출하기 위한 것이다. 이를 위해 우선 표본으로 설정된 초, 중, 고 4개 학교가 1년 동안 생산 접수한 기록물을 전수 분석하여 오분류로 의심되는 사례들을 파악하였다. 오분류의 원인 분석과 대안 제시를 위해 행정실장 2명, 공 사립 주무관 2명, 기록연구사 7명 등 총 11명의 자문단을 구성하여 2차에 걸친 집단 면담을 실시하였다. 학교 기록관리기준표에 제시된 공통업무를 중심으로 오분류가 빈번히 이루어지는 33개의 단위과제를 선별하였고, 이들 단위 과제를 중심으로 오분류의 원인을 분석하였다. 오분류의 핵심 원인을 2가지로 유형화하였으며 이러한 원인별로 해설 보강과 복잡한 업무에 대한 업무흐름도 추가라는 기록관리기준표 개선방안을 제시하였다.

커널 판별분석의 오분류확률에 대한 붓스트랩 조정

  • 백장선
    • Communications for Statistical Applications and Methods
    • /
    • 제2권2호
    • /
    • pp.249-265
    • /
    • 1995
  • 본 논문에서는 확률분포가 알려져 있지 않은 두 모집단 중 어느 하나로 새로운 관측치를 분류할 때 오분류확률이 분석자에 의해 사전에 정해진 수준에 부합할 수 있도록 커널 판별함수의 임계치를 결정하였다. 정해진 오분류확률을 만족시키기 위한 판별함수의 임계치는 붓스트랩(bootstrap)기법을 판별 함수에 적용시켜 계산된다. 본 논문에서 제시도된 방법은 모집단에 대한 모수적 가정이 없으므로 어느 분포에도 적용가능하며, 모집단이 정규분포, 대수정규분포, 이산형과 연속형 변수가 혼합된 분포의 경우 모의실험을 통하여 그 성능에 대한 검증을 하였다.

  • PDF

Word2vec을 이용한 오피니언 마이닝 성과분석 연구 (Performance Analysis of Opinion Mining using Word2vec)

  • 어균선;이건창
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.7-8
    • /
    • 2018
  • 본 연구에서는 Word2vec을 머신러닝 분류기를 이용해 효율적인 오피니언 마이닝 방법을 제안한다. 본 연구의 목적을 위해 BOW(Bag-of-Words) 방법과 Word2vec방법을 이용해 속성 셋을 구성했다. 구성된 속성 셋은 Decision tree, Logistic regression, Support vector machine, Random forest를 이용해 오피니언 마이닝을 수행했다. 연구 결과, Word2vec 방법과 RF분류기가 가장 높은 정확도를 나타냈다. 그리고 Word2vec 방법이 BOW방법 보다 각 분류기에서 높은 성능을 나타냈다.

  • PDF

불균형 자료의 분류분석을 위한 가중 L1-norm SVM (Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.9-21
    • /
    • 2015
  • SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다.