• 제목/요약/키워드: 카이제곱

검색결과 426건 처리시간 0.031초

Anchor Text의 단어 정보를 이용한 자동 문서 범주화 (Automatic Text Categorization Using Term Information of Anchor Text)

  • 허희근;한기덕;정성원;임성신;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.665-668
    • /
    • 2004
  • 최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

  • PDF

트위터 자료의 시간별 분석과 감성 자질을 이용한 핵심 사건 추출 (Extracting Core Event Feature Based on Timeline Analysis and Sentiment Feature in Twitter Corpus)

  • 김희환;촐몽 바야르;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.395-398
    • /
    • 2011
  • 트위터 사용자들은 어떠한 이슈에 대해 트위터를 통해 빠르고 간결하게 다른 사람들과의 지속적인 커뮤니케이션을 원하고, 이러한 특징은 이슈 별 사건에 따라 트윗 개수에 영향을 미치게 된다. 만약 어느 하나의 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그때의 트윗 개수는 폭발적으로 증가하게 된다. 본 논문에서는 이러한 특징을 이용하여 트위터 자료를 시간별로 분석하여 사건을 인식하고, 감성 자질과 카이제곱 값을 이용해 해당 날짜에 대한 핵심 사건을 추출한다.

음운 변동 실현 오류의 예측 인자 분석 (Analysis of Predictors of Phonological Variation Realization)

  • 안성민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.498-500
    • /
    • 2021
  • 본 연구에서는 음운 변동에서 나타나는 오류가 어떤 변수에 영향을 받는지 확인하여 음운 변동 연구 및 교육의 기초 자료를 제공하고자 하는 데에 목적이다. 이를 위해 유음화 발음 데이터를 이용하여 성별, 유음화의 방향, 품사, 단어의 빈도, 단어의 음절수와 유음화의 발음 적격 유무를 변수로 설정하였다. 유음화 적격률에 영향을 줄 수 있는 독립변수를 찾기 위해 카이제곱 검정과 다중공선성의 팽창계수를 먼저 확인하였다. 이후 다중 로지스틱 회귀분석과 오즈비를 통해 유의한 예측인자를 검토하였다. 그 결과 5개의 독립 변수 중 성별과 유음화의 방향, 품사가 결과를 오류에 영향을 주는 주요한 인자가 되는 것을 확인할 수 있었다.

  • PDF

A Comparative Study of Logical and Intuitive Thinking in Mathematical Concepts with Reference to Secondary Talented Students

  • Pak, Hong-Kyung;Kim, Tae-Wan
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1101-1110
    • /
    • 2008
  • The present paper investigates about the formation of the logical thinking and the intuitive thinking in mathematical concepts with reference to secondary talented students (students aged 16$\sim$17 years). As a main result, we conclude that their preference between the logical and the intuitive thinking does not related to the distinction of the school level and sex, while their consistence between them relates.

  • PDF

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

고등학생의 학업성취도, 학년, 성별, 학교 소재지에 따른 수학에 대한 정의적 태도에 영향 미치는 학교와 사회 환경적 측면의 요인 탐색 (Exploring factors in terms of school and social environment that affect high school student's affective attitude on mathematics according to the student's academic level, grade, gender, and school location)

  • 정혜윤
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제62권1호
    • /
    • pp.151-173
    • /
    • 2023
  • 본 연구에서는 고등학생의 수학에 대한 정의적 태도에 영향 미치는 요인을 학교 수학 수업, 학교 수학 평가, 수학 교과서, 수학 사교육, 진학과 진로, 사회 분위기의 측면에서 다각도로 살펴보았다. 학년과 전공, 학업성취도, 성별, 학교 소재지에 따른 고등학생 1,029명을 대상으로 설문조사를 수행하였으며, 그 결과에 대해 SPSS ver 29.0을 이용한 기술통계량, t 검정과 ANOVA, 카이제곱 검정을 실시하였다. 분석 결과, 첫째, 학생 전체적으로 진학과 진로 및 학교 수학 수업이 수학에 대한 정의적 태도에 영향을 미치는 것으로 나타났다. 둘째, 학생의 학업성취도와 성별에 따라 정의적 태도에 영향 미치는 요인에 통계적으로 유의미한 차이가 나타났다. 셋째, 학생 변수에 따라 수학에 대한 정의적 태도에 영향 미치는 각 요인의 세부항목에 대한 학생 반응에 차이가 있었다. 본 연구는 고등학생의 수학에 대한 정의적 태도 개선을 위해 수학 수업 방식의 다양화, 수학 교과서 개선, 수학 사교육에의 올바른 참여, 진학과 진로에서 수학의 활용성 및 사회에서 수학의 중요성에 대한 학생의 인식 개선, 부모의 정서적 지지가 필요함을 제안한다.

랜섬웨어 탐지를 위한 동적 분석 자료에서의 변수 선택 및 분류에 관한 연구 (A study on variable selection and classification in dynamic analysis data for ransomware detection)

  • 이승환;황진수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.497-505
    • /
    • 2018
  • 최근 랜섬웨어는 일반 PC 사용자에 비해 상대적으로 수준 높은 보안 체계를 갖추고 있는 기업과 정부 기관에 침입하여 상당한 피해를 입히는 등 기존 보안 체계의 허점을 찾아 진화하는 모습을 보이고 있다. 이처럼 계속해서 변화하는 랜섬웨어를 탐지하기 위해 랜섬웨어의 특징을 파악하는 정적 분석과 동적 분석과 관련된 연구가 활발히 이루어지고 있다. 본 연구에서는 582개의 랜섬웨어 샘플과 942개의 정상 샘플 프로그램을 쿠쿠 샌드박스 가상환경 내에서 실행시킨 뒤, PC에서 이루어지는 30,967가지의 행동 여부를 기록한 동적 분석 자료를 활용하여 랜섬웨어 분류에 유의한 변수를 탐색하기 위한 여러 변수 선택 방법의 적용과 랜섬웨어 분류를 위한 기계학습 모형들을 구축하고자 하였다. 변수 선택법으로 LASSO와 이항변수 만으로 이루어진 고차원 자료라는 특성을 활용하기 위한 카이제곱검정을 이용한 변수 선택, 선행 연구에서 이용된 방법인 상호정보를 이용한 변수 선택법을 적용하였으며 기계 학습 모형으로는 능형 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, XGBoost가 활용되었다. 연구 결과, 정상 프로그램과 구별되는 랜섬웨어 프로그램만의 특징적인 행동을 확인할 수 있었으며 여러 변수 선택법과 기계학습 분류 모형들의 조합 중, 주어진 자료에서 카이제곱검정을 이용한 변수 선택법과 랜덤 포레스트 모형의 조합이 가장 높은 탐지율과 정분류율을 보이는 것을 확인하였다.

특성화고 학생의 수학교과에 대한 태도 조사 (Mathematics education attitude of the students in the specialized high school)

  • 김민석;오광식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1173-1181
    • /
    • 2012
  • 특성화고등학교와 일반계고등학교 학생들의 수학교과에 대한 태도를 비교 검토하고, 수학교과의 기초학습능력에 영향을 주는 요인을 파악하여, 특성화고에서 수학교과를 가르치는 교사들에게 효율적으로 수학교과를 교수 학습하는 방안을 마련하는 기초자료를 제공하고자 한다. 고등학생 654명을 대상으로 설문조사를 실시하여 통계분석하였다. 설문지에 대한 타당성과 신뢰성을 검토하고, 그 자료에 대하여 카이제곱검정과 감마값을 통하여 학교급 및 학년과 내 외적 요인들의 관련성을 분석한다. 또한 수학교과 기초학습능력이 학교급과 학년사이에 차이가 있는지 일반화선형모형을 적합해 본다. 그리고 기초학습능력에 영향을 주는 내 외적 요인을 회귀분석의 단계적 변수선택방법을 이용하여 찾아본다.

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

GIS를 이용한 재두루미의 한강 하구 서식지 이용에 대한 공간 분석 (Spatial Analysis of White-naped Crane(Grus vipio) Habitats in the Han-River Estuary with GIS application)

  • 김성옥;이상돈
    • 한국습지학회지
    • /
    • 제10권2호
    • /
    • pp.173-178
    • /
    • 2008
  • 지리정보시스템(GIS)을 이용하여 멸종위기종 재두루미의 월동서식지인 한강하구역의 서식지 이용을 분석하였다. 한강하구역의 재두루미 서식지 이용경향을 검정하기위해 인공위성 추적(satellite tracking method)으로 구한 재두루미의 위치포인트(n=228)를 중심으로 반경 100 m, 200 m, 500 m 및 1 km의 버퍼를 설정하고 대분류 토지피복도의 7개의 서식지 항목에 대하여 분석을 실시하였다. 서식지이용에 대한 분석을 위해 카이제곱 검정을 실시한 결과 500 m버퍼까지는 서식지의 선택적 이용은 나타나지 않았으나 반경 1 km버퍼의 경우 서식지의 선택성이 나타났다.

  • PDF