• Title/Summary/Keyword: Support Vector Machine Model

검색결과 698건 처리시간 0.026초

낚시성 인터넷 신문기사 검출을 위한 특징 추출 (Feature Extraction to Detect Hoax Articles)

  • 허성완;손경아
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1210-1215
    • /
    • 2016
  • 스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.

가상 놀이 공간 인터페이스를 위한 HMM 기반 상반신 제스처 인식 (HMM-based Upper-body Gesture Recognition for Virtual Playing Ground Interface)

  • 박재완;오치민;이칠우
    • 한국콘텐츠학회논문지
    • /
    • 제10권8호
    • /
    • pp.11-17
    • /
    • 2010
  • 본 논문은 HMM기반의 상반신 제스처 인식에 대하여 연구하였다. 공간상의 제스처를 인식하기 위해서는 일단 제스처를 구성하고 있는 포즈에 대한 구분이 우선되어야 한다. 인터페이스에 사용되는 포즈를 구분하기 위해서 정면과 옆면에 설치한 적외선 카메라 두 대를 실험에 사용하였다. 그리고 각각의 적외선 카메라에서 하나의 포즈에 대한 정면 포즈와 옆면 포즈로 나눠서 획득한다. 획득한 적외선 포즈 영상은 SVM의 비선형 RBF 커널 함수를 이용하여 구분하였다. RBF 커널을 사용하면 비선형적 분류 포즈들간의 오분류 현상을 구분할 수 있다. 이렇게 구분된 포즈들의 연속은 HMM의 상태천이행렬을 이용하여 제스처로 인식된다. 인식된 제스처는 OS Value에 매핑하여 기존의 Application에 적용할 수 있다.

이중계층구조 파티클 샘플링을 사용한 다중객체 검출 및 추적 (Multi-Object Detection and Tracking Using Dual-Layer Particle Sampling)

  • 정경원;김나현;이승원;백준기
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.139-147
    • /
    • 2014
  • 본 논문에서는 다중객체 검출과 동시에 추적을 수행하는 이중계층구조의 파티클 샘플링을 제안한다. 제안된 방법은 다중 객체 검출을 위한 상위 계층 파티클 샘플링과 검출된 객체의 추적을 위한 하위 계층 파티클 샘플링으로 구성된다. 상위 계층에서는 빠른 객체 검출을 위해 슬라이딩 윈도우 대신 움직임 추정 기반의 부모 파티클 (parent particles; PP) 윈도우를 사용하여, 이동 객체 주위로 리샘플링된 파티클을 통해 객체를 검출한다. 하위 계층에서는 상위 계층에서 검출한 객체의 객체영역에 자식 파티클 (child particles; CP)을 생성하여 해당 객체를 추적한다. 실험결과를 통해 비디오 시스템에서 기존 객체 검출 방법보다 빠른 검출이 가능하고, 다중 객체를 효과적으로 추적할 수 있음을 확인하였다.

가상 환경에서의 해마 모델에 대한 대화식 형상 분석☆ (Interactive Shape Analysis of the Hippocampus in a Virtual Environment)

  • 김정식;최수미
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.165-181
    • /
    • 2009
  • 본 논문은 해마의 형상 분석을 위한 효과적인 모델 표현 방법과 분석 과정에서의 실제감을 향상시키는 스테레오-햅틱 장치 기반의 대화형 가상 환경을 제공한다. 매개변수형 표면 모델과 골격 표현은 해마의 형상을 효과적으로 표현하고 이러한 정보를 옥트리 자료 구조에 저장하여 대화형의 형상 분석 작업을 가능하게 한다. 그리고 골격 기반 정규화 방법은 다양한 모달리티를 갖는 의료 영상으로부터 생성된 3차원 해마 모델들의 위치와 방위를 정확하게 맞추어주는 기능을 수행한다. 또한 본 논문에서는 정상인 해마 형상 집단과 간질 환자 해마 형상 집단의 정확한 분류 작업을 수행하기 위하여 SVM 알고리즘 기반의 분류기 모델을 구축하였다. 실험 결과를 통하여 본 논문에서 제안한 표현 구조는 다양한 단계의 형상 표현을 제공하며 SVM 기반 분류기는 두 집단간 형상 차이를 분석하기 위한 효과적이었음을 확인하였다. 또한 스테레오 디스플레이 장치와 햅틱 장치를 결합한 가상환경은 사용자에게 향상된 공간 인지와 조작력을 제공하기 때문에 의료 분야에서의 해마 모델과 같은 다양한 해부학적 구조에 대한 분석 작업에 효과적으로 활용될 수 있다.

  • PDF

데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기 (Multiple SVM Classifier for Pattern Classification in Data Mining)

  • 김만선;이상용
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.289-293
    • /
    • 2005
  • 패턴 분류는 실세계의 객체를 표현한 다양한 형태의 패턴 정보를 추출하여, 이것이 어떤 부류(클래스)인가를 결정하는 것이다. 패턴 분류 기술은 데이터 마이닝, 산업 자동화나 업무자동화를 위한 컴퓨터 응용 소프트웨어 기술로서 현재 다양한 분야에서 활용되고 있다. 패턴 분류 기술의 최대 목표는 분류 성능 향상이며 이것을 위해 지난 40년간 많은 연구자들이 다양한 접근 방법들을 시도해 왔다. 주로 이용되는 단일 분류 방법들로는 패턴들의 확률적 추론에 기반한 베이즈 분류기, 결정 트리, 거리함수를 이용하는 방법, 신경망, 군집화 등이 있으나 대용량 다차원 데이터를 분석하기에는 효율적이지 못하다. 따라서 상호 보완적인 여러 분류기들을 사용해 결합을 통하여 성능 향상에 도움을 주고 있는 다중 분류기 시스템에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 다중 SVM(Support Vector Machine) 분류기에 관한 기존 연구의 문제점을 지적하고 새로운 모델을 제안한다. SVM을 다중 클래스 분류기로 확장하기 위해 일대다 정책을 기반으로 하여 각각의 SVM 출력값을 비선형 패턴을 갖는 신호로 간주하고 이를 신경망에 학습하여 최종 분류 성능 결과를 결합하는 모델인 BORSE(Bootstrap Resampling SVM by Ensemble)를 제안한다.

Feature Selection Using Submodular Approach for Financial Big Data

  • Attigeri, Girija;Manohara Pai, M.M.;Pai, Radhika M.
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1306-1325
    • /
    • 2019
  • As the world is moving towards digitization, data is generated from various sources at a faster rate. It is getting humungous and is termed as big data. The financial sector is one domain which needs to leverage the big data being generated to identify financial risks, fraudulent activities, and so on. The design of predictive models for such financial big data is imperative for maintaining the health of the country's economics. Financial data has many features such as transaction history, repayment data, purchase data, investment data, and so on. The main problem in predictive algorithm is finding the right subset of representative features from which the predictive model can be constructed for a particular task. This paper proposes a correlation-based method using submodular optimization for selecting the optimum number of features and thereby, reducing the dimensions of the data for faster and better prediction. The important proposition is that the optimal feature subset should contain features having high correlation with the class label, but should not correlate with each other in the subset. Experiments are conducted to understand the effect of the various subsets on different classification algorithms for loan data. The IBM Bluemix BigData platform is used for experimentation along with the Spark notebook. The results indicate that the proposed approach achieves considerable accuracy with optimal subsets in significantly less execution time. The algorithm is also compared with the existing feature selection and extraction algorithms.

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

  • 박단호;최원식;김홍조;이석룡
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.263-270
    • /
    • 2012
  • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

생물학적으로 의미 있는 특질에 기반한 베이지안 네트웍을 이용한 microRNA의 예측 (cmicroRNA prediction using Bayesian network with biologically relevant feature set)

  • 남진우;박종선;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.53-58
    • /
    • 2006
  • MicroRNA (miRNA)는 약 22 nt의 작은 RNA 조각으로 이루어져 있으며 stem-loop 구조의 precursor 형태에서 최종적으로 만들어 진다. miRNA는 mRNA의 3‘UTR에 상보적으로 결합하여 유전자의 발현을 억제하거나 mRNA의 분해를 촉진한다. miRNA를 동정하기 위한 실험적인 방법은 조직 특이적인 발현, 적은 발현양 때문에 방법상 한계를 가지고 있다. 이러한 한계는 컴퓨터를 이용한 방법으로 어느 정도 해결될 수 있다. 하지만 miRNA의 서열상의 낮은 보존성은 homology를 기반으로 한 예측을 어렵게 한다. 또한 기계학습 방법인 support vector machine (SVM) 이나 naive bayes가 적용되었지만, 생물학적인 의미를 해석할 수 있는 generative model을 제시해 주지 못했다. 본 연구에서는 우수한 miRNA 예측을 보일 뿐만 아니라 학습된 모델로부터 생물학적인 지식을 얻을 수 있는 Bayesian network을 적용한다. 이를 위해서는 생물학적으로 의미 있는 특질들의 선택이 중요하다. 여기서는 position weighted matrix (PWM)과 Markov chain probability (MCP), Loop 크기, Bulge 수, spectrum, free energy profile 등을 특질로서 선택한 후 Information gain의 특질 선택법을 통해 예측에 기여도가 높은 특질 25개 와 27개를 최종적으로 선택하였다. 이로부터 Bayesian network을 학습한 후 miRNA의 예측 성능을 10 fold cross-validation으로 확인하였다. 그 결과 pre-/mature miRNA 각 각에 대한 예측 accuracy가 99.99% 100.00%를 보여, SVM이나 naive bayes 방법보다 높은 결과를 보였으며, 학습된 Bayesian network으로부터 이전 연구 결과와 일치하는 pre-miRNA 상의 의존관계를 분석할 수 있었다.

  • PDF

열화상 이미지 분석을 통한 배전 설비 공정능력지수 감지 시스템 개발 (Identifying Process Capability Index for Electricity Distribution System through Thermal Image Analysis)

  • 이형근;홍용민;강성우
    • 품질경영학회지
    • /
    • 제49권3호
    • /
    • pp.327-340
    • /
    • 2021
  • Purpose: The purpose of this study is to propose a system predicting whether an electricity distribution system is abnormal by analyzing the temperature of the deteriorated system. Traditional electricity distribution system abnormality diagnosis was mainly limited to post-inspection. This research presents a remote monitoring system for detecting thermal images of the deteriorated electricity distribution system efficiently hereby providing safe and efficient abnormal diagnosis to electricians. Methods: In this study, an object detection algorithm (YOLOv5) is performed using 16,866 thermal images of electricity distribution systems provided by KEPCO(Korea Electric Power Corporation). Abnormality/Normality of the extracted system images from the algorithm are classified via the limit temperature. Each classification model, Random Forest, Support Vector Machine, XGBOOST is performed to explore 463,053 temperature datasets. The process capability index is employed to indicate the quality of the electricity distribution system. Results: This research performs case study with transformers representing the electricity distribution systems. The case study shows the following states: accuracy 100%, precision 100%, recall 100%, F1-score 100%. Also the case study shows the process capability index of the transformers with the following states: steady state 99.47%, caution state 0.16%, and risk state 0.37%. Conclusion: The sum of caution and risk state is 0.53%, which is higher than the actual failure rate. Also most transformer abnormalities can be detected through this monitoring system.