• 제목/요약/키워드: Classifiers

검색결과 743건 처리시간 0.031초

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

기계학습법을 이용한 IoMT 핀테크 모델을 기반으로 한 구조화 스토리지에서의 빅데이터 관리 연구 (Big Data Management in Structured Storage Based on Fintech Models for IoMT using Machine Learning Techniques)

  • 김경실
    • 산업과 과학
    • /
    • 1권1호
    • /
    • pp.7-15
    • /
    • 2022
  • 사물인터넷(IoT) 기술은 최근 의료사물인터넷(IoMT)으로 정의된 대량의 의료 데이터를 처리하여 발전을 위해 개발된 의료분야에서 많이 활용되고 있다. 수집된 광범위한 의료 데이터는 수집된 의료 데이터를 처리하기 위해 구조화된 방식으로 클라우드에 저장된다. 그러나 방대한 양의 의료 데이터를 효과적으로 처리하는 것은 쉽지 않기 때문에 의료분야 구조 데이터를 개발하는 것이 필요하다. 본 논문에서는 IoMT에서 수집된 구조화된 건강 관리 데이터를 처리하기 위한 기계 학습 모드를 개발하였다. 광범위한 의료 데이터를 처리하기 위해 본 논문에서는 의료 데이터 처리를 위한 MTGPLSTM 모델을 제안하였다. 제안된 모델은 의료 정보 처리를 위한 선형 회귀 모델을 통합한다. 개발된 모델 이상치 모델은 IoMT에서 수집된 COVID-19 의료 데이터들의 평가 및 예측을 위해 FinTech 모델을 기반으로 구현되었다. 제안된 MTGPLSTM 모델은 감염 확산 방지를 위한 계획 계획을 예측하고 평가하기 위한 회귀 모델로 구성된다. 개발된 모델 성능은 LR, SVR, RFR, LSTM 및 제안된 MTGPLSTM 모델과 같은 서로 다른 분류기를 고려하였으며 1GB, 2GB, 3GB 등 데이터 크기가 다르다는 점도 주요하게 고려되었다. 제안된 MTGPLSTM 모델이 전 세계 데이터에 대해 최대 4% 감소된 MAPE 및 RMSE 값을 달성하였고 중국의 경우 기존 분류기보다 최대 6% 최소인 최소 MAPE(0.97)이 달성되었다.

텍스트 분류를 위한 자질 순위화 기법에 관한 연구 (An Experimental Study on Feature Ranking Schemes for Text Classification)

  • 김판준
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.1-21
    • /
    • 2023
  • 본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

무선단말기 RF-fingerprinting 특징의 비지도 클러스터링을 위한 차원축소 알고리즘 연구 (Study on Dimension Reduction algorithm for unsupervised clustering of the DMR's RF-fingerprinting features)

  • 정영규;신학철;나선필
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.83-89
    • /
    • 2023
  • RF-fingerprint를 이용한 클러스터링 기술은 전송 파형에 포함된 송수신기의 특성(signature)을 추출하고 이들에게 임의의 레이블을 자동으로 할당함으로써, 추후 지도 학습기반에 무선단말기 분류기의 개발을 용이하게 해준다. 동종 무선 단말기 분류를 위한 RF-fingerprint 특징 추출 알고리즘의 출력은 512개 또는 1024개 이상의 고차원 특징이다. 이러한 고차원의 특징을 분류기에는 효과적일 수 있으나 클러스터링 알고리즘의 입력으로는 부적절하다. 이에 본 논문은 다차원의 RF-fingerprinting 특징을 무선단말기의 fingerprinting 특징을 유지하면서 차원을 효과적으로 줄일 수 있는 차원 축소 알고리즘을 제안하고, 축소된 차원을 효과적으로 클러스터링할 수 있는 클러스터링 알고리즘을 제안한다. 제안된 RF-fingerprinting 클러스터링 알고리즘은 다차원 RF-fingerprinting 특징을 KL Divergence 기반에 t-SNE를 이용하여 차원을 축소하고 DPC(Density Peaks Clustering)를 이용하여 클러스터링 수행한다. 무선단말기 클러스터링 알고리즘의 성능 분석은 모토롤라XiR 10대와 윈어텍 N-Series 10대에서 수집한 3000개의 데이터셋을 이용한다. RF-fingerprintining기반 클러스터링 알고리즘의 성능 분석 결과 20개의 클러스터가 형성되었고, Homogeneity, Completeness, V-measure 모두 99.4%의 성능을 보였다.

봉제공정라인 생산 추적을 위한 CNN분류기 기반 에너지 모니터링 시스템 (CNN Classifier Based Energy Monitoring System for Production Tracking of Sewing Process Line)

  • 김준영;김형중;정우균;이재원;박용철;안성훈
    • 적정기술학회지
    • /
    • 제5권2호
    • /
    • pp.70-81
    • /
    • 2019
  • 의류산업은 대표적인 노동집약적인 산업 중 하나로 의류 제조의 기본 공정인 봉제 작업은 인력에 대한 의존도가 매우 높다. 의류 생산비용은 라인의 효율성에서 큰 영향을 받는데, 생산비용의 절감을 위해서는 생산 속도를 조절하여 라인의 균형 유지하는 것이 중요하다. 그러나, 현재 의류 생산라인에서 활용되고 있는 인력에 의한 생산 실적 집계 방식은 이를 위한 부수적인 인력의 소요 등으로 인한 추가 비용이 소요되어 중소기업들이 직접 적용하기 쉽지 않다. 완제품의 인력에 대한 의존도는 집계 시간의 추가 소요와 인적 오류가 크게 잠재되어 생산비용의 증가와 함께 효율성의 저하를 초래할 수 있다. 본 논문에서는 에너지 소비 데이터를 수집하고 이를 CNN (Convolutional Neural Network) 기법을 적용하여 분석함으로써 재봉 작업을 통하여 생산한 제품의 수량을 추적하고 자동으로 집계할 수 있는 봉제 작업 생산 추적 시스템을 제안한다. 개발된 시스템을 통하여 2종의 재봉 작업을 테스트 한 결과, 최대 98.6 %의 정확도를 보이며 재봉 작업을 감지할 수 있었다. 개발도상국에서 의류봉제산업은 매우 중요한 산업이나, 위에 언급한 문제들을 해결하기 위하여 고가의 첨단기술을 적용하는 등 많은 자본을 투입하는 것은 크게 제한된다. 적정 기술을 적용한 본 기술은 이러한 개발도상국의 의류산업에 큰 도움을 줄 수 있을 것으로 판단된다.

Multi-Time Window Feature Extraction Technique for Anger Detection in Gait Data

  • Beom Kwon;Taegeun Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.41-51
    • /
    • 2023
  • 본 논문에서는 보행자의 걸음걸이로부터 분노 감정 검출을 위한 다중 시간 윈도 특징 추출 기술을 제안한다. 기존의 걸음걸이 기반 감정인식 기술에서는 보행자의 보폭, 한 보폭에 걸리는 시간, 보행 속력, 목과 흉부의 전방 기울기 각도(Forward Tilt Angle)를 계산하고, 전체 구간에 대해서 최솟값, 평균값, 최댓값을 계산해서 이를 특징으로 활용하였다. 하지만 이때 각 특징은 보행 전체 구간에 걸쳐 항상 균일하게 변화가 발생하는 것이 아니라, 때로는 지역적으로 변화가 발생한다. 이에 본 연구에서는 장기부터 중기 그리고 단기까지 즉, 전역적인 특징과 지역적인 특징을 모두 추출할 수 있는 다중 시간 윈도 특징 추출(Multi-Time Window Feature Extraction) 기술을 제안한다. 또한, 제안하는 특징 추출 기술을 통해 각 구간에서 추출된 특징들을 효과적으로 학습할 수 있는 앙상블 모델을 제안한다. 제안하는 앙상블 모델(Ensemble Model)은 복수의 분류기로 구성되며, 각 분류기는 서로 다른 다중 시간 윈도에서 추출된 특징으로 학습된다. 제안하는 특징 추출 기술과 앙상블 모델의 효과를 검증하기 위해 일반인에게 공개된 3차원 걸음걸이 데이터 세트를 사용하여 시험 평가를 수행했다. 그 결과, 4가지 성능 평가지표에 대해서 제안하는 앙상블 모델이 기존의 특징 추출 기술로 학습된 머신러닝(Machine Learning) 모델들과 비교하여 최고의 성능을 달성하는 것을 입증하였다.

Application of peak based-Bayesian statistical method for isotope identification and categorization of depleted, natural and low enriched uranium measured by LaBr3:Ce scintillation detector

  • Haluk Yucel;Selin Saatci Tuzuner;Charles Massey
    • Nuclear Engineering and Technology
    • /
    • 제55권10호
    • /
    • pp.3913-3923
    • /
    • 2023
  • Todays, medium energy resolution detectors are preferably used in radioisotope identification devices(RID) in nuclear and radioactive material categorization. However, there is still a need to develop or enhance « automated identifiers » for the useful RID algorithms. To decide whether any material is SNM or NORM, a key parameter is the better energy resolution of the detector. Although masking, shielding and gain shift/stabilization and other affecting parameters on site are also important for successful operations, the suitability of the RID algorithm is also a critical point to enhance the identification reliability while extracting the features from the spectral analysis. In this study, a RID algorithm based on Bayesian statistical method has been modified for medium energy resolution detectors and applied to the uranium gamma-ray spectra taken by a LaBr3:Ce detector. The present Bayesian RID algorithm covers up to 2000 keV energy range. It uses the peak centroids, the peak areas from the measured gamma-ray spectra. The extraction features are derived from the peak-based Bayesian classifiers to estimate a posterior probability for each isotope in the ANSI library. The program operations were tested under a MATLAB platform. The present peak based Bayesian RID algorithm was validated by using single isotopes(241Am, 57Co, 137Cs, 54Mn, 60Co), and then applied to five standard nuclear materials(0.32-4.51% at.235U), as well as natural U- and Th-ores. The ID performance of the RID algorithm was quantified in terms of F-score for each isotope. The posterior probability is calculated to be 54.5-74.4% for 238U and 4.7-10.5% for 235U in EC-NRM171 uranium materials. For the case of the more complex gamma-ray spectra from CRMs, the total scoring (ST) method was preferred for its ID performance evaluation. It was shown that the present peak based Bayesian RID algorithm can be applied to identify 235U and 238U isotopes in LEU or natural U-Th samples if a medium energy resolution detector is was in the measurements.

Adverse Effects on EEGs and Bio-Signals Coupling on Improving Machine Learning-Based Classification Performances

  • SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.133-153
    • /
    • 2023
  • 본 논문에서 우리는 뇌 신호 측정 기술 중 하나인 뇌전도를 활용한 새로운 접근방식을 제안한다. 전통적으로 연구자들은 감정 상태의 분류성능을 향상시키기 위해 뇌전도 신호와 생체신호를 결합해왔다. 우리의 목표는 뇌전도와 결합된 생체신호의 상호작용 효과를 탐구하고, 뇌전도+생체신호의 조합이 뇌전도 단독사용 또는 임의로 생성된 의사 무작위 신호와 결합한 경우에 비해 감정 상태의 분류 정확도를 향상시킬 수 있는지를 확인한다. 네 가지 특징추출 방법을 사용하여 두 개의 공개 데이터셋에서 얻은 데이터 기반의 뇌전도, 뇌전도+생체신호, 뇌전도+생체신호+무작위신호, 및 뇌전도+무작위신호의 네 가지 조합을 조사했다. 감정 상태 (작업 대 휴식 상태)는 서포트 벡터 머신과 장단기 기억망 분류기를 사용하여 분류했다. 우리의 결과는 가장 높은 정확도를 가진 서포트 벡터 머신과 고속 퓨리에 변환을 사용할 때 뇌전도+생체신호의 평균 오류율이 뇌전도+무작위신호와 뇌전도 단독 신호만을 사용한 경우에 비해 각각 4.7% 및 6.5% 높았음을 보여주었다. 우리는 또한 다양한 무작위 신호를 결합하여 뇌전도+생체신호의 오류율을 철저하게 분석했다. 뇌전도+생체신호+무작위신호의 오류율 패턴은 초기에는 깊은 이중 감소 현상으로 인해 감소하다가 차원의 저주로 인해 증가하는 V자 모양을 나타냈다. 결과적으로, 우리의 연구 결과는 뇌파와 생체신호의 결합이 항상 유망한 분류성능을 보장할 수 없음을 시사한다.

랜섬웨어 탐지를 위한 머신러닝 기반 암호화 행위 감지 기법 (A Machine Learning-Based Encryption Behavior Cognitive Technique for Ransomware Detection)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권12호
    • /
    • pp.55-62
    • /
    • 2023
  • 최근 등장하는 랜섬웨어들은 다양한 공격 기법과 다양한 경로를 통해 공격을 수행하고 있어 조기 탐지와 방어에 많은 어려움을 겪고 있으며, 그 피해 규모도 날로 증가하고 있다. 따라서 본 논문에서는 효과적인 랜섬웨어 탐지를 위하여 파일 암호화와 암호화 패턴을 머신러닝 기반으로 하는 감지 기법을 제안한다. 파일 암호화는 랜섬웨어가 공격하는데 필수적으로 사용하는 기능으로 암호 행위와 암호화 패턴을 분석함으로써 랜섬웨어를 탐지하고 랜섬웨어의 특정 변종이나 새로운 유형의 랜섬웨어를 탐지할 수 있기 때문에 랜섬웨어 공격을 식별하고 차단하는 데 매우 효과적이다. 제안한 머신러닝 기반의 암호화 행위 감지 기법은 암호화 특성과 암호화 패턴 특성을 추출하여 머신러닝 기반의 분류기를 통해 각각 학습을 시켜 해당 행위에 대한 탐지를 진행하고 최종 결과는 두 분류기의 평가 결과를 기반으로 앙상블 분류기에서 랜섬웨어 유무를 판별하여 좀 더 정확도를 높였다. 또한, 제안한 기법을 numpy와 pandas, 파이썬의 사이킷런 라이브러리를 사용하여 구현하여 평가지표를 사용한 성능를 평가한 결과 평균적으로 94%,의 정확도와 95%의 정밀도, 93%의 재현률과 95%의 F1 스코어가 산출되었다. 성능 평가 결과를 보면 암호화 행위 감지를 통해 랜섬웨어 탐지가 가능하다는 것을 확인할 수 있었고 랜섬웨어의 사전 탐지를 위해 제안한 기법의 성능을 높이기 위한 연구도 계속해서 진행되어야 한다.

소셜미디어 감성분석을 위한 베이지안 속성 선택과 분류에 대한 연구 (Investigating the Performance of Bayesian-based Feature Selection and Classification Approach to Social Media Sentiment Analysis)

  • 강창민;어균선;이건창
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.1-19
    • /
    • 2022
  • 온라인 사용자들이 소셜 미디어상에 올린 온라인 리뷰 속 숨겨진 감정을 분석하는 감성분석은 소셜미디어의 확산에 힘입어 많은 관심을 받고 있다. 본 연구는 기존 연구들과 차별화된 방법으로 감성분석을 시도하기 위하여 베이지안 네트워크에 기반한 감성 분석 모델을 제안한다. 모델에는 MBFS(Markov Blanket-based Feature Selection)가 속성 선택 기법으로 사용된다. MBFS의 성과를 실증적으로 증명하기 위하여 소셜미디어인 Yelp의 리뷰 데이터를 활용하였다. 벤치마킹 속성 선택 기법으로는 상관관계기반 속성 선택, 정보획득 속성 선택, 획득비율 속성 선택을 사용하였다. 한편, 해당 속성선택방법을 토대로 4개의 머신러닝 알고리즘을 이용하여 분류성과를 비교하였다. 나아가 MBFS로 선택된 속성들 간 인과관계를 확인하고자 베이지안 네트워크를 통해 What-if 분석을 실시하였다. 본 연구에서 택한 머신러닝 분류기는 베이지안 네트워크 기반의 TAN (Tree Augmented Naive Bayes), NB (Naive Bayes), S-Spouses(Sons & Spouses), A-markov (Augmented Markov Blanket)이다. 성과분석 결과 본 연구에서 제안한 MBFS 방법이 정확도, 정밀도, F1점수 측면에서 벤치마킹 방법보다 더 우수한 성과를 나타내었다.