• 제목/요약/키워드: 백 오브 워즈

검색결과 3건 처리시간 0.015초

기계 학습을 이용한 악성 댓글 판별 시스템 (Discrimination System for Abusive Comments using Machine Learning)

  • 신효정;최소운;이경호;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.178-180
    • /
    • 2015
  • 본 논문에서는 기계 학습(Machine Learning)을 이용하여 댓글의 악성 여부를 분류하는 시스템에 대해 설명한다. 댓글은 문장의 길이가 짧고 맞춤법이 잘 되어있지 않는 특성을 가지고 있다. 따라서 댓글 분석을 위해 형태소 분석 결과와 문자단위 Bi-gram, Tri-gram을 자질로 이용한다. 전처리 된 댓글에서 각 자질 추출 방법에 따라 자질을 추출한다. 추출된 자질을 이용하여 기계학습 알고리즘의 모델을 학습하고 댓글의 악성 여부 분류에 활용한다. 본 논문에서는 댓글의 악성 여부 판별을 위한 자질 추출방법을 제안하고 실험을 통해 이에 대한 효용성을 검증하였다.

  • PDF

비디오 감시 응용을 위한 텍스쳐와 컬러 정보를 이용한 고속 물체 인식 (Fast Object Classification Using Texture and Color Information for Video Surveillance Applications)

  • 이슬람 모하마드 카이룰;자한 파라;민재홍;백중환
    • 한국항행학회논문지
    • /
    • 제15권1호
    • /
    • pp.140-146
    • /
    • 2011
  • 본 논문에서는 텍스쳐와 컬러 정보를 기반으로 비디오 감시를 위한 빠른 물체 분류 방법을 제안한다. 영상들로부터 SURF와 색 히스토그램의 국부적 패치들을 추출하여 그들의 장점을 이용한다. SURF는 명암 내용 정보를 제공하고 색 정보는 패치에 대한 특이성을 증강시킨다. SURF의 빠른 계산뿐만 아니라 객체의 색 정보를 활용한다. 국부적 특징을 이용하여 관심 영역 혹은 영상의 전역적 서술자를 생성하기 위해 Bag of Word 모델을 이용하고, 전역적 서술자를 분류하기 위해 Na$\ddot{i}$ve Bayes 모델을 이용한다. 또한 본 논문에서는 판별적인 기술자인 SIFT도 성능 분석한다. 네 종류의 객체에 대한 실험결과 95.75%의 인식률을 보였다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.