• 제목/요약/키워드: naive bayesian

검색결과 118건 처리시간 0.023초

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

대체방법별 GEE추정량 비교 (Comparison of GEE Estimators Using Imputation Methods)

  • 김동욱;노영화
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.407-426
    • /
    • 2003
  • 본 연구에서는 범주형 반복측정자료의 일반화추정방정식(GEE)모형에서 결측이 발생할 경우 결측값 대체(imputation)방법들에 대한 성능을 비교하고자 한다. 설명변수 X가 부분적으로 결측을 갖는 경우 GEE추정량을 계산할 수 없다. 본 논문에서는 시점에 따라 값이 변하는 설명변수에 결측이 있는 경우 GEE모형에서 결측값을 추정하는 7가지의 대체방법을 다루며, 실제자료와 모의실험을 통하여 대체방법별 GEE추정량의 성질을 연구한다. 대체방법별 GEE추정량의 성능을 비교하기 위해 우리는 반응변수가 범주형인 반복측정모형에서 완전자료의 GEE추정량과 완전자료에서 결측을 생성하여 결측값에 각 대체방법을 적용하여 대체한 후 구한 GEE추정량을 비교한다. 대체방법으로는 (1) 단순삭제 (2) 표본 평균대체 (3) 행 평균대체 (4) 횡 시점 회귀대체 (5) 이월대체 (6) 베이지안 붓스트랩 (7) 근사적 베이지안 붓스트랩에 대해서 살펴본다. 결측과정(missing mechanism)은 무시할 수 있는 무응답(ignorable nonresponse)을 가정하며, 결측 발생에 대해서는 원자료의 시점 무응답 패턴(wave nonresponse pattern)을 고려하여 발생시키거나 또는 시점 무응답 패턴을 고려하지 않고 단순임의추출로 결측을 발생시키는 방법을 각각 고려한다.

고혈압 예측을 위한 노모그램 구축 및 비교 (Comparison of nomograms designed to predict hypertension with a complex sample)

  • 김민호;신민석;이제영
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.555-567
    • /
    • 2020
  • 고혈압은 발병률이 꾸준히 증가하고 있을 뿐 아니라, 심혈관 질환과 같은 2차 질병의 주된 위험 요인이 되었다. 게다가 고혈압은 뇌졸중, 혈관성 치매와 같은 다른 합병증을 유발하는 질병이다. 따라서 고혈압 발병률을 예측하는 것은 중요한 일이다. 본 연구에서, 고혈압 발병률을 예측할 수 있는 노모그램을 구축하였다. 데이터는 2013년부터 2016년까지의 국민건강영양조사로부터 얻어졌다. 복합 표본의 특성을 고려하여 Rao-Scott chi-squared test를 통해 고혈압에 영향을 미치는 10가지 요인을 규명하였다. 하지만 로지스틱 회귀분석 시, 흡연 상태와, 운동 유무는 유의하지 않았다. 따라서 8개의 주 효과를 고혈압의 위험요인으로 최종 선별하였다. 그리고 최종 선별된 위험 요인들로 로지스틱 노모그램과 베이지안 노모그램을 제시 및 비교하였다. 마지막으로 ROC curve 그래프와 calibration plot을 통해 노모그램을 검증하였다.

멀티카메라 환경에서의 베이지안 네트워크 기반 이벤트 인식 (Bayesian Network based Event Recognition in Multi-Camera Environment)

  • 임수정;민준기;박한샘;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.248-251
    • /
    • 2007
  • 기존의 멀티 카메라 시스템은 넓은 영역을 커버하거나 이동 중인 물체를 트래킹 하기 위한 목적으로 주로 사용되어 왔다. 하지만 이러한 시스템은 하나의 카메라가 커버하는 영상이 가려지면 정보를 잃게 되는 단점이 있다. 멀티 카메라 시스템은 하나의 영역을 여러 카메라가 커버하도록 하여 이런 단점을 극복할 수 있다. 또한 다양한 시점의 카메라에서 수집되는 영상의 경우, 영상에 따라 담고 있는 정보가 다르므로 여러 카메라의 입력 정보를 함께 활용하여 보다 많은 정보를 얻을 수도 있다. 본 논문은 이런 장점을 활용하여 멀티 카메라 환경에서의 이벤트 인식 문제를 다룬다. 이를 위해 사무실 환경에 8대의 카메라를 설치하였으며, 시나리오에 따라 영상을 수집하였다. 수집된 영상은 전문가에 의해 어노테이션 된 후 인식 모델의 학습에 사용되며, 학습된 베이지안 네트워크 모델의 구조와 파라미터를 도메인 지식에 기반해서 수정하여 최종 이벤트 인식 모델을 설계하였다. 실험 결과 제안하는 이벤트 인식 모델의 인식률은 평균 87.0%로 Naive Bayes보다 우수한 성능을 보임을 확인하였다.

  • PDF

Bayesian Approach to Users' Perspective on Movie Genres

  • Lenskiy, Artem A.;Makita, Eric
    • Journal of information and communication convergence engineering
    • /
    • 제15권1호
    • /
    • pp.43-48
    • /
    • 2017
  • Movie ratings are crucial for recommendation engines that track the behavior of all users and utilize the information to suggest items the users might like. It is intuitively appealing that information about the viewing preferences in terms of movie genres is sufficient for predicting a genre of an unlabeled movie. In order to predict movie genres, we treat ratings as a feature vector, apply a Bernoulli event model to estimate the likelihood of a movie being assigned a certain genre, and evaluate the posterior probability of the genre of a given movie by using the Bayes rule. The goal of the proposed technique is to efficiently use movie ratings for the task of predicting movie genres. In our approach, we attempted to answer the question: "Given the set of users who watched a movie, is it possible to predict the genre of a movie on the basis of its ratings?" The simulation results with MovieLens 1M data demonstrated the efficiency and accuracy of the proposed technique, achieving an 83.8% prediction rate for exact prediction and 84.8% when including correlated genres.

로지스틱 회귀 분석을 이용한 스펨 필터링의 특징 축소 (Features Reduction using Logistic Regression for Spam Filtering)

  • 정용규;이범준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.13-18
    • /
    • 2010
  • 오늘날의 스팸 메일이 메일 서버와 네트워크 저장장치의 대부분을 차지함으로 인해 네트워크 부하와 같은 부정적인 문제가 발생하고 있으며 사용자 입장에서는 스팸을 삭제하기 위한 시간과 자원 소모 같은 문제를 가지고 있다. 자동 스팸 메일 필터링은 문제 해결위한 필수적인 요소로 부각 되었다. 대표적인 방법은 나이브 베이지안 방법과 달리 PCA를 통하여 많은 차원을 가지는 스팸 테이터 집합을 몇 개의 주축으로 차원을 축소 시켜 연차 처리의 부담을 줄이고 특정 집으로 분류를 위한 로지스틱 회귀 분석 방법을 사용하여 스팸 필터링을 하였다. 이를 통하여 속도와 성능 두가지의 성과를 얻을 수 있었다.

자동차 재구매 증진을 위한 데이터 마이닝 기반의 맞춤형 전략 개발 (Development of Customized Strategy for Enhancing Automobile Repurchase Using Data Mining Techniques)

  • 이동욱;최근호;유동희
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권3호
    • /
    • pp.47-61
    • /
    • 2017
  • Purpose Although automobile production has increased since the development of the Korean automobile industry, the number of customers who can purchase automobiles decreases relatively. Therefore, automobile companies need to develop strategies to attract customers and promote their repurchase behaviors. To this end, this paper analyzed customer data from a Korean automobile company using data mining techniques to derive repurchase strategies. Design/methodology/approach We conducted under-sampling to balance the collected data and generated 10 datasets. We then implemented prediction models by applying a decision tree, naive Bayesian, and artificial neural network algorithms to each of the datasets. As a result, we derived 10 patterns consisting of 11 variables affecting customers' decisions about repurchases from the decision tree algorithm, which yielded the best accuracy. Using the derived patterns, we proposed helpful strategies for improving repurchase rates. Findings From the top 10 repurchase patterns, we found that 1) repurchases in January are associated with a specific residential region, 2) repurchases in spring or autumn are associated with whether it is a weekend or not, 3) repurchases in summer are associated with whether the automobile is equipped with a sunroof or not, and 4) a customized promotion for a specific occupation increases the number of repurchases.

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

생의학 도메인에서 약어 중의성 해결을 위한 최적 자질의 규명 (Identifying Optimum Features for Abbreviation Disambiguation in Biomedical Domain)

  • 임호건;서희철;김선호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.173-180
    • /
    • 2004
  • 생의학 도메인에서 약어 중의성 해결이란 생의학 문서에 나타난 약어의 원래 형태(long form)를 판별하는 작업이다. 본 논문은 생의학 도메인에서 약어 중의성 해결에 적합한 자질들을 실험적으로 탐색하는데 목적이 있다. 이를 위해서 약어 중의성 해결에 사용할 문맥을 전역 문맥(topical context)과 지역 문맥(local context)으로 구분하고, 각각의 문맥에서 스테밍(stemming), 불용어 제거, 품사 부착 등의 과정을 통해서 다양한 자질들을 고려하도록 한다. 생의학 도메인에서 약어 중의성 해결을 위한 실험 자료의 부족을 해결하기 위해서, 학습 자료와 평가 자료를 자동으로 구축했으며, 평가를 위한 약어로는 기존 연구에서 사용된 두 가지 약어 목록을 사용했다. 또한 단순 베이지언 모델(Naive Bayesian Model)을 이용해서 각 자질들의 유용성을 평가하였다 실험 결과, 전역 문맥이 지역 문맥보다 더 좋은 성능을 보였으며, 전역 문맥에서는 불용어만을 제거한 경우가 각각의 평가 자료에서 94.2%와 96.2%로 가장 좋은 결과를 보였으며, 전역 문맥과 지역 문맥을 함께 사용하는 경우에 각각의 평가 자료에서 1.8%와 0.3%의 성능 향상이 있었다.

  • PDF

모바일 메신저를 이용한 스마트 IoT 하드웨어 제어 시스템 (Smart IoT Hardware Control System using Secure Mobile Messenger)

  • 이상형;김동현;이해연
    • 전기학회논문지
    • /
    • 제65권12호
    • /
    • pp.2232-2239
    • /
    • 2016
  • IoT industry has been highlighted in the domestic and foreign country. Since most IoT systems operate separate servers in Internet to control IoT hardwares, there exists the possibility of security problems. Also, IoT systems in markets use their own hardware controllers and devices. As a result, there are many limitations in adding new sensors or devices and using applications to access hardware controllers. To solve these problems, we have developed a novel IoT hardware control system based on a mobile messenger. For the security, we have adopted a secure mobile messenger, Telegram, which has its own security protection. Also, it can improve the easy of the usage without any installation of specific applications. For the enhancement of the system accessibility, the proposed IoT system supports various network protocols. As a result, there are many possibility to include various functions in the system. Finally, our IoT system can analyze the collected information from sensors to provide useful information to the users. Through the experiment, we show that the proposed IoT system can perform well.