• 제목/요약/키워드: Binary classification

검색결과 468건 처리시간 0.026초

MLP ANN 가뭄 예측 모형에 대한 ROC 평가 (ROC evaluation for MLP ANN drought forecasting model)

  • 정민수;김종석;장호원;이주헌
    • 한국수자원학회논문집
    • /
    • 제49권10호
    • /
    • pp.877-885
    • /
    • 2016
  • 본 연구에서는 기상학적 가뭄지수인 표준강수지수(Standardized Precipitation Index, SPI)를 이용하여 우리나라 전역에 대한 가뭄예측의 시공간적인 평가를 수행하였다. 또한 다층 퍼셉트론 인공신경망(Multi Layer Perceptron-Artificial Neural Network, MLP-ANN) 예측 기법을 이용하여 SPI(3), (6)에 대한 선행예보시간별 가뭄 예측을 실시하였다. 입력 자료는 기상청 산하의 59개 관측소에서 관측된 기상자료를 활용하였고, 관측자료 기간은 1976~2015년이다. 예측 모델의 성능평가는 기준점(Threshold)에 따른 가뭄 발생유무와 같은 이진분류 혼동행렬을 구성하여 Receiver Operating Characteristics (ROC) score와 조건부 확률에 따른 F score를 산정하여 예측 성능평가를 수행하였다. 예측성능에 대한 ROC 분석결과 다층 퍼셉트론 인공신경망(MLP-ANN) 모형을 적용한 가뭄예측성능이 매우 우수한 것으로 나타났으며, SPI (3)은 2개월, SPI (6)는 5개월 정도의 선행예측이 충분히 가능한 것으로 나타났다.

Content-based Image Retrieval Using Texture Features Extracted from Local Energy and Local Correlation of Gabor Transformed Images

  • Bu, Hee-Hyung;Kim, Nam-Chul;Lee, Bae-Ho;Kim, Sung-Ho
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1372-1381
    • /
    • 2017
  • In this paper, a texture feature extraction method using local energy and local correlation of Gabor transformed images is proposed and applied to an image retrieval system. The Gabor wavelet is known to be similar to the response of the human visual system. The outputs of the Gabor transformation are robust to variants of object size and illumination. Due to such advantages, it has been actively studied in various fields such as image retrieval, classification, analysis, etc. In this paper, in order to fully exploit the superior aspects of Gabor wavelet, local energy and local correlation features are extracted from Gabor transformed images and then applied to an image retrieval system. Some experiments are conducted to compare the performance of the proposed method with those of the conventional Gabor method and the popular rotation-invariant uniform local binary pattern (RULBP) method in terms of precision vs recall. The Mahalanobis distance is used to measure the similarity between a query image and a database (DB) image. Experimental results for Corel DB and VisTex DB show that the proposed method is superior to the conventional Gabor method. The proposed method also yields precision and recall 6.58% and 3.66% higher on average in Corel DB, respectively, and 4.87% and 3.37% higher on average in VisTex DB, respectively, than the popular RULBP method.

딥러닝 기술을 활용한 차별 및 혐오 표현 탐지 : 어텐션 기반 다중 채널 CNN 모델링 (Bias & Hate Speech Detection Using Deep Learning: Multi-channel CNN Modeling with Attention)

  • 이원석;이현상
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1595-1603
    • /
    • 2020
  • 포털 사이트의 인터넷 뉴스 댓글, SNS, 커뮤니티 사이트 등의 온라인상에서 명예 훼손 사건이 최근 점점 증가하고 있다. 온라인상의 차별 및 혐오 표현은 명예 훼손 문제뿐만 아니라 사생활 침해, 인신 공격 등 다양한 형태로 온라인 서비스 이용자들을 위협하고 있다. 지난 몇 년간 산업계와 학계는 이러한 문제를 해결하고자 다양한 방법으로 연구해왔다. 하지만 한국어 대상으로 수행된 딥러닝 기반 혐오 표현 탐지 연구는 아직까지 부족한 상황이다. 본 연구의 목적은 혐오 표현뿐만 아니라 다양한 차별적 표현에 대한 탐지를 위해 데이터셋을 구축하고 이를 분류하기 위한 딥러닝 모델링을 실험하는 것이다. 데이터셋 구축은 10명의 인원이 교차적으로 검토를 하면서 7개 항목에 대한 라벨링 기준을 확립했다. 본 연구는 약 137,111개에 해당하는 한국어 인터넷 뉴스 댓글 데이터셋에 대해 7개의 항목을 각각 이진 분류하고, 이를 딥러닝 기법을 통해 분석한다. 본 연구에서 제안하는 기법은 어텐션 기반 다중 채널 CNN 모델링 기법이다. 실험 결과 7개 항목에 대해 가중 평균 f1 점수를 평가했을 때, 70.32%의 성능을 달성했다.

전력소비행위 변화를 위한 전력소비패턴 분석 및 적용 (Analysis and Application of Power Consumption Patterns for Changing the Power Consumption Behaviors)

  • 장민석;남광우;이연식
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.603-610
    • /
    • 2021
  • 본 논문에서는 사용자의 전력소비패턴을 추출하고 사용자의 환경 및 감성을 적용한 최적 소비패턴을 모델링한 후, 이 두 가지의 패턴을 비교 적용하여 사용자의 전력소비행위 변화를 통한 전력의 효율적 사용 방법을 제시한다. 유의미한 소비패턴을 추출하기 위하여 벡터 표준화 및 이진 데이터 변환방법을 사용하고, k-평균 군집화를 적용한 앙상블의 합집합에 대한 학습과 k값에 따른 지지도를 적용하였으며, 최적 전력소비패턴 모델은 상대적 평균 소비량이 적은 앙상블 합집합에 대한 학습 결과를 기준으로 강제 및 감성 제어를 적용하여 생성하였다. 실험을 통하여 전력소비행위 변화 유도대상 추출 시 클러스터의 수와 일치율 간의 상관관계를 파악함으로써, 사용자의 의도에 따라 강제 및 감성 기반의 제어가 가능하도록 클러스터의 수나 크기 조절을 통한 다양한 윈도우에 적용할 수 있음을 검증하였다.

인지 무선 통신을 위한 순환 신경망 기반 스펙트럼 센싱 기법 (Recurrent Neural Network Based Spectrum Sensing Technique for Cognitive Radio Communications)

  • 정태윤;정의림
    • 한국정보통신학회논문지
    • /
    • 제24권6호
    • /
    • pp.759-767
    • /
    • 2020
  • 본 논문에서는 인지 무선 통신을 위한 새로운 순환 신경망 기반 스펙트럼 센싱 기법을 제안한다. 제안하는 기법은 주사용자에 대한 정보가 전혀 없는 상황에서 에너지 검출을 통해 신호 존재 유무를 판단한다. 제안 기법은 센싱하고자 하는 전체 대역을 고려하여 수신신호를 고속으로 샘플링 후 이 신호의 FFT (fast Fourier transform)를 통해 주파수 스펙트럼으로 변환한다. 이 스펙트럼 신호는 채널 대역폭 단위로 자른 후 순환 신경망에 입력하여 해당 채널이 사용중인지 비어있는지 판정한다. 제안하는 기법의 성능은 컴퓨터 모의실험을 통해 확인하는데 그 결과에 따르면 기존 문턱값 기반 기법보다 2 [dB] 이상 우수하며 합성곱 신경망 기법과 유사한 성능을 보인다. 또한, 실제 실내환경에서 실험도 수행하는데 이 결과에 따르면 제안하는 기법이 기존 문턱값 기반 방식 및 합성곱 신경망 방식보다 4 [dB] 이상 우수한 성능을 보인다.

불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계 (Fraud detection support vector machines with a functional predictor: application to defective wafer detection problem)

  • 박민형;신승준
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.593-601
    • /
    • 2022
  • 빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.

A Comparative Study of Predictive Factors for Passing the National Physical Therapy Examination using Logistic Regression Analysis and Decision Tree Analysis

  • Kim, So Hyun;Cho, Sung Hyoun
    • Physical Therapy Rehabilitation Science
    • /
    • 제11권3호
    • /
    • pp.285-295
    • /
    • 2022
  • Objective: The purpose of this study is to use logistic regression and decision tree analysis to identify the factors that affect the success or failurein the national physical therapy examination; and to build and compare predictive models. Design: Secondary data analysis study Methods: We analyzed 76,727 subjects from the physical therapy national examination data provided by the Korea Health Personnel Licensing Examination Institute. The target variable was pass or fail, and the input variables were gender, age, graduation status, and examination area. Frequency analysis, chi-square test, binary logistic regression, and decision tree analysis were performed on the data. Results: In the logistic regression analysis, subjects in their 20s (Odds ratio, OR=1, reference), expected to graduate (OR=13.616, p<0.001) and from the examination area of Jeju-do (OR=3.135, p<0.001), had a high probability of passing. In the decision tree, the predictive factors for passing result had the greatest influence in the order of graduation status (x2=12366.843, p<0.001) and examination area (x2=312.446, p<0.001). Logistic regression analysis showed a specificity of 39.6% and sensitivity of 95.5%; while decision tree analysis showed a specificity of 45.8% and sensitivity of 94.7%. In classification accuracy, logistic regression and decision tree analysis showed 87.6% and 88.0% prediction, respectively. Conclusions: Both logistic regression and decision tree analysis were adequate to explain the predictive model. Additionally, whether actual test takers passed the national physical therapy examination could be determined, by applying the constructed prediction model and prediction rate.

라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구 (A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages)

  • 이재아;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.940-943
    • /
    • 2022
  • 본 연구에서는 직접 수집한 라디오 청취자 문자 사연을 활용하여 한국어 문장 감정 분석을 수행하기 위한 한국어 데이터셋을 구성하였으며 그 특성을 분석하였다. 딥러닝 언어모델 연구가 활발해지면서 한국어 문장 감정 분석에 관한 연구도 다양하게 진행되고 있다. 그러나 한국어의 언어학적 특성으로 인해 감정 분석은 높은 정확도를 기대하기 어렵다. 또한, 긍정/부정으로만 분류되도록 하는 이진 감성 분석은 많은 연구가 이루어졌으나, 3개 이상의 감정으로 분류되는 다중 감정 분석은 더 많은 연구가 필요하다. 이에 대해 딥러닝 기반의 한국어에 대한 다중 감정 분석 모델의 정확도를 높이기 위한 한국어 데이터셋 구성에 관한 고찰과 분석이 필요하다. 본 논문에서는 설문조사와 실험을 통해 감정 분석이 실행되는 과정에서 한국어 감정 분석이 어떤 이유 때문에 어려운지 분석하고 정확도를 향상시킬 수 있는 데이터셋 조성에 대한 방안을 제시하였으며 한국어 문장 감정 분석에 근거로 활용할 수 있게 하였다.

SVM 이용한 다중 생체신호기반 온열질환 감지 스마트 안전모 개발 (Smart Helmet for Vital Sign-Based Heatstroke Detection Using Support Vector Machine)

  • 장재민;이강호;주수빈;권오원;이학;이동규
    • 센서학회지
    • /
    • 제31권6호
    • /
    • pp.433-440
    • /
    • 2022
  • Recently, owing to global warming, average summer temperatures are increasing and the number of hot days is increasing is increasing, which leads to an increase in heat stroke. In particular, outdoor workers directly exposed to the heat are at higher risk of heat stroke; therefore, preventing heat-related illnesses and managing safety have become important. Although various wearable devices have been developed to prevent heat stroke for outdoor workers, applying various sensors to the safety helmets that workers must wear is an excellent alternative. In this study, we developed a smart helmet that measures various vital signs of the wearer such as body temperature, heart rate, and sweat rate; external environmental signals such as temperature and humidity; and movement signals of the wearer such as roll and pitch angles. The smart helmet can acquire the various data by connecting with a smartphone application. Environmental data can check the status of heat wave advisory, and the individual vital signs can monitor the health of workers. In addition, we developed an algorithm that classifies the risk of heat-related illness as normal and abnormal by inputting a set of vital signs of the wearer using a support vector machine technique, which is a machine learning technique that allows for rapid binary classification with high reliability. Furthermore, the classified results suggest that the safety manager can supervise the prevention of heat stroke by receiving feedback from the control system.

N-gram Opcode를 활용한 머신러닝 기반의 분석 방지 보호 기법 탐지 방안 연구 (A Study on Machine Learning Based Anti-Analysis Technique Detection Using N-gram Opcode)

  • 김희연;이동훈
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.181-192
    • /
    • 2022
  • 신종 악성코드의 등장은 기존 시그니처 기반의 악성코드 탐지 기법들을 무력화시키며 여러 분석 방지 보호 기법들을 활용하여 분석가들의 분석을 어렵게 하고 있다. 시그니처 기반의 기존 연구는 악성코드 제작자가 쉽게 우회할 수 있는 한계점을 지닌다. 따라서 본 연구에서는 악성코드 자체의 특성이 아닌, 악성코드에 적용될 수 있는 패커의 특성을 활용하여, 단시간 내에 악성코드에 적용된 패커의 분석 방지 보호 기법을 탐지하고 분류해낼 수 있는 머신러닝 모델을 구축하고자 한다. 본 연구에서는 패커의 분석 방지 보호 기법을 적용한 악성코드 바이너리를 대상으로 n-gram opcode를 추출하여 TF-IDF를 활용함으로써 피처(feature)를 추출하고 이를 통해 각 분석 방지 보호 기법을 탐지하고 분류해내는 머신러닝 모델 구축 방법을 제안한다. 본 연구에서는 실제 악성코드를 대상으로 악성코드 패킹에 많이 사용되는 상용 패커인 Themida와 VMProtect로 각각 분석 방지 보호 기법을 적용시켜 데이터셋을 구축한 뒤, 6개의 머신러닝 모델로 실험을 진행하였고, Themida에 대해서는 81.25%의 정확도를, VMProtect에 대해서는 95.65%의 정확도를 보여주는 최적의 모델을 구축하였다.