• 제목/요약/키워드: 카이제곱 통계량

검색결과 75건 처리시간 0.024초

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

단순 베이즈 분류에서의 범주형 변수의 선택 (Categorical Variable Selection in Naïve Bayes Classification)

  • 김민선;최호식;박창이
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.407-415
    • /
    • 2015
  • 단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.

문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템 (A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity)

  • 황재원;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권6호
    • /
    • pp.491-497
    • /
    • 2009
  • 본 논문은 한국어 문서감정 분류에서 각 문장의 감정 정도의 차이를 고려하여 자질의 가중치를 계산하는 방법을 제안한다. 감정자질은 어휘 자원으로서 감정을 가지는 단어들의 집합이며, 학습데이터를 이용하여 이 감정자질의 카이제곱 통계량 값(${\chi}^2$ statistic)을 얻을 수 있다. 이렇게 얻어진 카이제곱 통계량 값으로 문서에서 출현한 각 문장의 감정강도를 수치화 할 수 있다. 각 문장의 감정강도는 문서에서 가장 강한 감정을 가진 문장에 근한 비율로 계산되며, 이 값을 TF-IDF 가중치 기법에 적용하여 최종적인 자질의 가중치를 결정하게 된다. 그리고 일반적으로 문서 분류에서 뛰어난 성능을 보여주는 지지벡터기계(Support Vector Machine)를 사용하여 기계학습을 수행한 후 성능을 평가한다. 성능평가에서 제안된 기법은 문장감정의 강도를 고려하지 않은 내용어(Content Word) 기반의 자질을 사용한 경우보다 약 2.0%의 성능향상을 얻었다.

종속관측중단이 관측중단된 자료의 적합도 검정에 미치는 영향

  • 김주한;김정란
    • Communications for Statistical Applications and Methods
    • /
    • 제2권2호
    • /
    • pp.33-42
    • /
    • 1995
  • 종속 관측중단(dependent censoring)이 카이제곱 형태의 적합도 검정에 어떻게 영향을 미치고 종속도와 관측중단된 정도에 따라 검정의 오류와 검정력이 변화하는 형태를 시뮬레이션을 통해 경험적으로 알아보았다. Sakar(1987)가 제안한 이변량 지수분포로부터 종속 관측중단된 자료를 만들어 Kim(1993)이 제안한 방법과 Akritas(1988)가 제안한 적합도의 검정방법을 적용하였다. 전체적으로 Kim(1993)의 검정법이 더 효과적이었으며 관측 중단된 정도가 클 때는 중속도에 따라 검정의 오류와 검정력이 무척 크게 변하였다.

  • PDF

다중 점진적 중도절단에서 지수분포의 적합도 검정 (Goodness of Fit Tests for the Exponential Distribution based on Multiply Progressive Censored Data)

  • 윤혜정;이경준
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2813-2827
    • /
    • 2018
  • 최근에 중도절단 방법 중 점진적 중도절단과 관련한 연구가 활발히 이루어지고 있다. 하지만 점진적 중도절단 상황에서 관측되는 시점의 자료들 사이에는 관측원의 실수 혹은 관측 기계의 오류로 인하여 또 다른 중도절단이 발생할 수 있다. 따라서 이러한 기계적 오류 등을 고려하기 위하여 다중 점진적 중도절단이 새롭게 제안되었다. 따라서 본 논문에서는 다중 점진적 중도절단 상황에서 지수분포의 최대우도추정량을 계산하고 다중 점진적 중도절단 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 제안하였다. 몬테카를로 모의실험을 통하여 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 비교하고 더 우수한 적합도 검정 통계량을 확인하고, 실제 사례 자료를 활용하여 적합도 검정을 실시하였다. 그 결과 와이블분포와 카이제곱 분포의 경우 로렌츠 곡선을 이용한 방법이 더 우수한 결과가 나타났고, 로그 정규분포의 경우 순서통계량을 이용한 방법이 더 우수한 결과가 나타났다.

스팸 대응 시스템에서 특징 추출 방법 비교에 관한 연구 (Comparison of Feature Selection Methods in Anti-Spam Systems)

  • 김종완;김희재;강신재;황운호
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.352-355
    • /
    • 2006
  • 본 논문에서는 스팸 대응 시스템의 특징 추출 방법들을 비교한다. 실험 결과는 퍼지추론 방법이 정보획득량, 카이제곱 통계량, 상호정보 방법에 비하여 정확률과 재현율의 결합 척도인 F-척도면에서 월등한 성능을 보여주지는 않는다. 하지만 제안된 퍼지추론 방법은 사용된 특징들의 수에 비례하여 성능이 증가하므로 좋은 특징 추출 방법으로 간주된다. 따라서 본 연구는 무수한 스팸 메일로 고통 받는 전자우편 사용자들을 위한 스팸 메일 필터링 시스템 개발에 도움을 줄 수 있다.

  • PDF

언어의 공기관계 분석을 위한 임의화검증의 응용 (Applying Randomization Tests to Collocation Analyses in Large Corpora)

  • 양경숙;김희영
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.583-595
    • /
    • 2005
  • 언어의 공기관계를 파악하는 데는 여러 가지 연관성 통계량들이 이용된다. 그러나 일부 통계량을 제외한 나머지 통계량들은 분포가 알려져 있지 않아 정작 통계량 값을 구하고도 명확한 설명을 하지 못하는 경우가 있다. 따라서 언어의 공기관계 분석을 위해서 정규근사나 t통계량을 이용하여 가설검증을 하는 경우가 많다. 그러나 공기관계에 있는 어휘빈도가 전체 빈도에서 차지하는 백분율이 매우 작기 때문에 정규근사에는 무리가 있어 보인다. 따라서 본 논문은 여러 논문에서 자주 언급되는 연관성 통계량의 특성을 임의화검증(randomization test)을 통해 고찰함으로써 계량언어학의 연어분석에서 데이터의 특성을 고려하여 보다 정확하게 언어의 공기관계를 이해할 수 있도록 도모하고자한다.

패널 마코프 체인의 전이확률에 대한 동질성 검정 (Test of homogeneity for transition probabilities in panel Markov chains)

  • 이성덕;조나래
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.147-157
    • /
    • 2017
  • 패널 마코프 체인의 구조를 소개하고 우도함수를 도출하여 전이확률을 추정하였다. 패널 마코프 체인의 전이확률의 동질성 검정통계량으로 LR 통계량을 제안하고 그 극한분포를 제시하였다. 동질성 검정통계량의 극한분포를 패널의 수를 달리하여 모의실험하였으며 패널의 수가 50개 이상인 경우 동질성 검정통계량의 분포가 카이제곱분포를 따르는 것을 확인하였다. 정상적인 경우 검정통계량이 우수한 검정력을 가지는 것을 보였고, 확률보행과정과 같이 비정상적인 경우 검정통계량이 전이확률의 비동질성을 잘 반영하는 것을 확인하였다.

잠재의미색인(LSI) 기법을 이용한 kNN 분류기의 자질 선정에 관한 연구 (Evaluation of the Feature Selection function of Latent Semantic Indexing(LSI) Using a kNN Classifier)

  • 박부영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.163-166
    • /
    • 2004
  • 텍스트 범주화에 관한 선행연구에서 자주 사용되면서 좋은 성능을 보인 자질 선정 기법은 문헌빈도와 카이제곱 통계량 등이다. 그러나 이들은 단어 자체가 갖고 있는 모호성은 제거하지 못한다는 단점이 있다. 본 연구에서는 kNN 분류기를 이용한 범주화 실험에서 단어간의 상호 관련성이 자동적으로 유도됨으로써 단어 자체 보다는 단어의 개념을 분석하는 잠재의미색인 기법을 자질 선정 방법으로 제안한다.

  • PDF

일정관리 영역에서 신경망을 이용한 사용자 의도파악 (Identifying users' intentions using neural networks in a schedule management domain)

  • 이현정;서정연
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.87-90
    • /
    • 2006
  • 목적 지향 대화에서, 사용자의 의도는 화행(speech acts)과 개념열(concept sequences)로 나타낼 수 있다. 화행은 대화의 영역과는 상관없이 표현되는 정보이고, 개념열은 영역과 깊은 관련을 지닌 정보이다. 대화시스템에서 화행과 개념열로 구성되는 사용자의 의도를 정확히 파악하는 것은 시스템이 사용자의 발화에 정확히 응대하는 데에 매우 중요하다. 본 논문에서는 일정관리 영역에서의 대화를 대상으로 화행과 개념열을 분류하고 신경망을 사용하여 이들을 분석한다. 화행과 개념열로 구성되는 의도 분석에 사용하는 자질은 크게 문맥 자질과 문장 자질로 분류되며, 문장자질은 카이제곱 통계량을 사용하여 사용자의 의도 분석에 효과적인 자질만을 선택하여 사용하고 문맥자질로는 이전 발화에 대한 정보를 활용한다. 신경망을 사용하여 사용자 의도 분석을 수행한 결과 성능이 우수함을 알 수 있었다.

  • PDF