• 제목/요약/키워드: Classification Accuracy Test

검색결과 396건 처리시간 0.039초

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.

Gaofen-1 WFV 영상을 이용한 딥러닝 기반 대형 부유조류 분류 (Deep Learning Based Floating Macroalgae Classification Using Gaofen-1 WFV Images)

  • 김의현;김근용;김수미;;유주형
    • 대한원격탐사학회지
    • /
    • 제36권2_2호
    • /
    • pp.293-307
    • /
    • 2020
  • 매년 황해와 동중국해에서는 대형 부유조류인 녹조와 갈조가 대량으로 발생하고 있다. 이러한 대형 부유조류는 연안의 양식 시설물이나 해변으로 유입되며, 제거하는데 막대한 경제적 손실을 발생시킨다. 현재는 연안으로 유입되는 대형 부유조류를 탐지하기 위해 원격탐사 방법이 활발하게 사용되고 있다. 그러나 대형 부유조류는 해양의 다양한 대상들과 중첩되는 파장이 존재하기에 이를 정확하게 탐지하는데 한계가 있다. 더욱이 녹조와 갈조는 유사한 스펙트럼 특성을 보이기 때문에 원격탐사 자료를 이용한 구분을 더욱 어렵게 만든다. 따라서 본 연구에서는 위성 영상에 딥러닝 기법을 적용하여 녹조와 갈조를 효과적으로 구분하고자 하였다. 이를 위한 네트워크를 결정하기 위해 최적의 학습 조건을 찾아 AlexNet 신경망을 전이 학습하였으며, 학습과 검증을 위해 Gaofen-1 WFV 영상을 이용하여 데이터셋을 구성하였다. 최적의 학습 조건으로 학습된 네트워크를 이용하여 실험 데이터에 대한 결과를 확인하였다. 그 결과 실험 데이터에 대한 정확도는 88.89%를 보였으며, 녹조와 갈조에 대해 각각 66.67%와 100%의 정밀도로 구분이 가능하였다. 이는 전이 학습된 AlexNet 신경망이 녹조와 갈조의 미세한 차이를 구분할 수 있는 것으로 해석된다. 본 연구를 통해 해양의 다양한 대상으로부터 녹조와 갈조를 효과적으로 분류하고 각각 구분할 수 있을 것으로 기대된다.

합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점 (The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model)

  • 한재상;김현주
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.237-251
    • /
    • 2023
  • 본 연구는 합성곱 신경망을 활용한 자동 채점 모델을 설계하고 학생의 운동학 그래프 답안에 적용함으로써, 과학 그래프 답안에 대한 자동 채점의 가능성을 탐색하였다. 연구자가 작성한 2,200개의 답안을 2,000개의 훈련 데이터와 200개의 검증 데이터로 데이터셋을 구성하고, 202개의 학생 답안을 100개의 훈련 데이터와 102개의 시험 데이터로 데이터셋을 구성하여 연구를 진행하였다. 먼저, 자동 채점모델을 설계하고 성능을 검증하는 과정에서는 연구자가 작성한 답안 데이터셋을 활용하여 그래프 이미지 분류에 최적화되도록 자동 채점모델을 완성하였다. 다음으로 자동 채점 모델에 훈련 데이터셋을 여러 유형으로 학습시키면서 학생의 시험 데이터셋에 대한 채점을 수행하여 훈련 데이터의 양이 많고 다양할수록 자동 채점 모델의 성능이 향상된다는 것을 확인하였고, 최종적으로 인간 채점과의 일치율은 97.06%, 카파 계수는 0.957, 가중 카파 계수는 0.968을 얻었다. 한편, 훈련 데이터로 학습되지 않은 유형의 답안의 경우 인간 채점자들 간에는 채점이 거의 일치하였으나, 자동 채점 모델은 일치하지 않게 채점하는 것을 확인하였다.

지역난방 열배관망 운영데이터 기반의 파손확률 모델 개발 (Development of a Failure Probability Model based on Operation Data of Thermal Piping Network in District Heating System)

  • 김형석;김계범;김래현
    • Korean Chemical Engineering Research
    • /
    • 제55권3호
    • /
    • pp.322-331
    • /
    • 2017
  • 지역난방은 국내에 1985년 처음 도입되었다. 지하 열배관망의 사용연한이 30년 이상 증가함에 따라, 지하에 매설된 열수송 배관 특성상 유지관리가 중요한 문제로 대두되고 있다. 노후화가 진행된 열배관망 유지보수를 위한 정기적인 점검, 운영관리 시 다양한 복합 기술이 필요하다. 특히 현장에서 경제적 관점에서 최적 유지보수 및 교체시점을 도출하기 위하여 의사결정에 활용될 수 있는 모형개발이 요구되고 있다. 본 연구에서는 한국지역난방공사 수도권 5개 지사열 배관망 운영 시 보수이력과 사고성 데이터를 바탕으로 분석하였다. 정성적 분석과 이항 로지스틱 회귀분석의 통계적 기법을 도입하여 파손확률 모델을 개발하였다. 보수이력 및 사고성 자료의 정성적 분석 결과, 파이프라인 손상의 가장 중요한 원인으로 건설 시공불량, 배관의 부식과 자재 불량이 전체의 약 82%를 차지했다. 통계 모델 분석에서는 분류의 분리 점을 0.25로 설정함으로써 열배관 파손 및 비 파손 분류의 정확도가 73.5%로 향상 되었다. 파손확률 모델 수립을 위해 Hosmer와 Lemeshow 검정과 독립변수의 유의성 검정, 모델의 Chi-Square 검정을 통해 모델의 적합성을 검증 하였다. 열배관망 파손의 위험순위 분석결과에 따르면 파손확률을 가장 높이는 경우는 겨울철 서울지역 자동차 도로에 있는 10년 이상 된 250mm이하 배관 Reducer에서 F 건설회사가 시공했던 열배관망으로 분석되었다. 본 연구결과는 열배관망 시스템의 유지관리 및 예방점검, 교체 사업 우선순위를 정할 때 활용 가능하다. 또한 이를 통하여 점검 유지보수 등 사전에 사고예방 계획을 수립하여 대처함으로써 열배관 파손의 빈도를 감소시키고 보다 적극적인 열배관망 관리에 이용할 수 있을 것으로 사료된다.

두경부 편평상피암 환자에서 수술 전 경부림프절 전이 평가에 대한 F-18 FDG PET/CT의 정확도: CT/MRI와의 비교 (Accuracy of F-18 FDG PET/CT in Preoperative Assessment of Cervical Lymph Nodes in Head and Neck Squamous Cell Cancer: Comparison with CT/MRI)

  • 최승진;변성수;박선원;김영모;현인영
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제40권6호
    • /
    • pp.309-315
    • /
    • 2006
  • 목적: 두경부 편평상피암 환자에서 경부림프절전이에 대한 F-18 FDG PET/CT의 진단성적을 평가하고 CT/MRI와 비교하였다. 대상 및 방법: 수술전 조직검사로 편평상피암으로 진단받은 17명(남: 15명, 여: 2명, 평균나이: $59{\pm}11$세)의 환자를 대상으로 F-18 FDG PET/CT를 시행하였다. 경부림프절의 F-18 FDG섭취 정도는 세 등급(1=배후방사능, 2=간방사능보다 낮거나 같은 경우, 3=간방사능보다 높은 경우)으로 나누었고, 3등급일 때 전이로 진단하였다. 경부림프절전이에 대한 F-18 FDG PET/CT의 예민도와 특이도를 CT/MRI와 비교하였다. 결과: 17명의 환자에서 123개의 경부림프절이 절제되었고 이 중 29개가 전이로 확진되었다. F-18 FDG PET/CT의 예민도는 69%(20/29), 특이도는 99%(93/94), CT/MRI의 예민도는 62%(18/29), 특이도는 96%(90/94)로 경부림프절전이에 대한 두 검사의 진단성적은 유의한 차이가 없었다. 그러나 F-18 FDG PET/CT는 각각의 환자에서 간에 생긴 이차성 원발암과 늑골전이를 발견할 수 있었다. 결론: 두경부 편평상피암에서 경부림프절 전이에 대한 F-18 FDG PET/CT의 특이도는 매우 높았지만 예민도는 비교적 낮았고 CT/MRI와 유의하게 다르지 않았다. F-18 FDG PET/CT의 비교적 낮은 예민도의 원인은 최근 많이 절제되고 있는 잠재 전이의 가능성이 있는 작은 경부림프절을 발견하지 못하는 F-18 FDG PET/CT 의 한계 때문이었다. 그러나 F-18 FDG PET/CT는 이차성 원발암과 원격전이를 부가적으로 평가할 수 있어 환자의 치료 방침 결정에 유용하였다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

적지적수(適地適樹) 판정(判定)을 위한 Neural Network 기법(技法)의 응용(應用) (Neural Network Applications to Determining Suitable Tree Species for Site-Specific Conditions)

  • 김형호;정주상
    • 한국산림과학회지
    • /
    • 제90권4호
    • /
    • pp.437-444
    • /
    • 2001
  • 이 연구는 인공신경망기법을 적용하여 적지적수를 판정할 수 있는 산림환경입지인자를 도출하고, 그들 인자 상호간의 관계를 분석하여 적지적수 판정방법을 제시하고자 수행되었다. 적지적수 선정을 위한 대상수종으로 5개의 주요 침엽수종(P. densiflora for. erecta, L. leptolepis, P. koraiensis, P. densiflora, P. thunbergil)을 선정하였다. 먼저 총 1,320개소의 표준지를 대상으로 각 수종별 지위지수가 높은 순으로 40개씩 추출하여 총 200개의 표준지를 선발하였다. 각각의 자료는 해당 표준지에 대한 13개 인자의 산림입지환경 정보를 보유하고 있다. 연구결과 인공신경망기법은 패턴분류에 의한 산림입지환경 조사 자료들의 전산정보처리에 매우 효과적인 것을 알 수 있었다. 이 기법을 적지적수 판정에 필요한 패턴의 유무 분석에 응용함으로써 적지적수 판정에 거의 영향을 미칠 수 없는 패턴을 소유하고 있거나, 불규칙한 양상의 패턴으로 인해 패턴분류 과정 자체를 교란할 수 있는 자료들을 선별하여 제거할 수 있었다. 그 외에 인공신경망기법은 입지인자 구성에 따라 적지적수 판정 적합도가 77.6%에서 91.8%까지 높게 나타남으로써 산림입지환경조사 자료를 토대로 하는 적지적수 판정에 매우 높은 잠재력을 보여주었다.

  • PDF

Chatbot Design Method Using Hybrid Word Vector Expression Model Based on Real Telemarketing Data

  • Zhang, Jie;Zhang, Jianing;Ma, Shuhao;Yang, Jie;Gui, Guan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권4호
    • /
    • pp.1400-1418
    • /
    • 2020
  • In the development of commercial promotion, chatbot is known as one of significant skill by application of natural language processing (NLP). Conventional design methods are using bag-of-words model (BOW) alone based on Google database and other online corpus. For one thing, in the bag-of-words model, the vectors are Irrelevant to one another. Even though this method is friendly to discrete features, it is not conducive to the machine to understand continuous statements due to the loss of the connection between words in the encoded word vector. For other thing, existing methods are used to test in state-of-the-art online corpus but it is hard to apply in real applications such as telemarketing data. In this paper, we propose an improved chatbot design way using hybrid bag-of-words model and skip-gram model based on the real telemarketing data. Specifically, we first collect the real data in the telemarketing field and perform data cleaning and data classification on the constructed corpus. Second, the word representation is adopted hybrid bag-of-words model and skip-gram model. The skip-gram model maps synonyms in the vicinity of vector space. The correlation between words is expressed, so the amount of information contained in the word vector is increased, making up for the shortcomings caused by using bag-of-words model alone. Third, we use the term frequency-inverse document frequency (TF-IDF) weighting method to improve the weight of key words, then output the final word expression. At last, the answer is produced using hybrid retrieval model and generate model. The retrieval model can accurately answer questions in the field. The generate model can supplement the question of answering the open domain, in which the answer to the final reply is completed by long-short term memory (LSTM) training and prediction. Experimental results show which the hybrid word vector expression model can improve the accuracy of the response and the whole system can communicate with humans.