• 제목/요약/키워드: Multi-class classification

검색결과 224건 처리시간 0.033초

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

Contactless User Identification System using Multi-channel Palm Images Facilitated by Triple Attention U-Net and CNN Classifier Ensemble Models

  • Kim, Inki;Kim, Beomjun;Woo, Sunghee;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.33-43
    • /
    • 2022
  • 본 논문에서는 기존의 스마트폰 카메라 센서를 사용하여 비접촉식 손바닥 기반 사용자 식별 시스템을 구축하기 위해 Attention U-Net 모델과 사전 훈련된 컨볼루션 신경망(CNN)이 있는 다채널 손바닥 이미지를 이용한 앙상블 모델을 제안한다. Attention U-Net 모델은 손바닥(손가락 포함), 손바닥(손바닥 미포함) 및 손금을 포함한 관심 영역을 추출하는 데 사용되며, 이는 앙상블 분류기로 입력되는 멀티채널 이미지를 생성하기 위해 결합 된다. 생성된 데이터는 제안된 손바닥 정보 기반 사용자 식별 시스템에 입력되며 사전 훈련된 CNN 모델 3개를 앙상블 한 분류기를 사용하여 클래스를 예측한다. 제안된 모델은 각각 98.60%, 98.61%, 98.61%, 98.61%의 분류 정확도, 정밀도, 재현율, F1-Score를 달성할 수 있음을 입증하며, 이는 저렴한 이미지 센서를 사용하고 있음에도 불구하고 제안된 모델이 효과적이라는 것을 나타낸다. 본 논문에서 제안하는 모델은 COVID-19 펜데믹 상황에서 기존 시스템에 비하여 높은 안전성과 신뢰성으로 대안이 될 수 있다.

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.

소아 루프스 신염에 대한 기초 조사 (The Basic Data Analysis of Lupus Nephritis in Children)

  • 민재홍;백경훈;박경미;김정수;하일수;정해일;김중곤;최용
    • Childhood Kidney Diseases
    • /
    • 제3권1호
    • /
    • pp.80-87
    • /
    • 1999
  • 목 적 : 루프스 신염은 전신성 홍반성 낭창(systemiclupuserythematosus,SLE)의 가장 심각한 합병증 가운데 하나이지만, 소아 연령에서 루프스 신염에 대한 국내 연구는 미약한 실정이다. 본 연구는 루프스 신염 환자를 대상으로 빈도, 임상상, 치료반응, 예후 등에 대한 기초 조사를 실시하여 향후 전국 규모의 다기관 연구를 위한 기반 자료로 사용하기 위함이다. 방 법 : 1986년부터 1997년 11년 동안 서울대학교 어린이병원 소아과에 입원한 SLE환아 53례 중 신생검상 루프스 신염이 확인된 46례를 대상으로 후향적 의무기록 고찰을 시행하였다. 결 과 : 1) 전체 남녀비는 1:2.5, 루프스 신염의 진단 당시 정중연령은 12.8세(2세-15세 8개월)이었다. 2) ARA 분류 기준 중 형광항핵항체($85.7\%$), 항ds-DNA항체($78.0\%$), 나비모양 홍반($60.8\%$) 등이 가장 빈번히 관찰되었으며, 기타 검사 소견중에서는 C3의 감소($88.9\%$)가 흔하였다. 3) 혈뇨($87.0\%$)는 가장 흔한 신장 증상이었고, 신생검상 41례에서 WHO class IV 병변이 확인되었다. 4) Prednisolone, azathioprine, 경구 또는 정맥 cyclophosphamide 등을 단독 또는 병합치료 결과 대부분 환자에서 질환 활성도가 정상 혹은 중증도 이하로 조절되었으며, 치료 종류에 따른 반응도의 차이는 관찰할 수 없었다. 5) 감염은 치료 경과중 가장 흔한 합병증이었으며, 특히 Varicella-Zoster virus와 candida 감염증이 흔하였다. 결 론 : SLE 환아중 루프스 신염의 빈도는 $87.0\%$이었고, 그중 $89.1\%$가 장기적 예후가 불량한 WHO class IV 로 확인되었다. 따라서 신염 초기의 적극적인 면역억제제 사용이 장기적 예후 향상에 도움을 주리라 사료되며, 이에 대한 장기간의 전향적-비교연구를 위하여 다기관 공동연구가 절실히 필요하다.

  • PDF

뇌파신호를 이용한 감정분류 연구 (Research on Classification of Human Emotions Using EEG Signal)

  • 무하마드 주바이르;김진술;윤장우
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.821-827
    • /
    • 2018
  • Affective Computing은 HCI (Human Computer Interaction) 및 건강 관리 분야에서 다양한 애플리케이션이 개발됨에 따라 최근 몇 년 동안 관심이 높아지고 있다. 이에 필수적으로 필요한 인간의 감정 인식에 대한 중요한 연구가 있었지만, 언어 및 표정과 비교하여 심전도 (ECG) 또는 뇌파계 (EEG) 신호와 같은 생리적 신호 분석에 따른 감정 분석에 대한 관심은 적었다. 본 논문에서는 이산 웨이블릿 변환을 이용한 EEG 기반 감정 인식 시스템을 제안하고 감정 관련 정보를 얻기 위해 다른 뇌파와 뇌 영역을 연구 하였으며, 웨이블릿 계수에 기초한 특징 세트가 웨이블릿 에너지 특징과 함께 추출되었다. 중복성을 최소화하고 피처 간의 관련성을 극대화하기 위해 mRMR 알고리즘이 피쳐 선택에 적용된다. 다중클래스 Support Vector Machine을 사용하여 4 가지 종류의 인간 감정을 크게 분류하였으며 공개적으로 이용 가능한 "DEAP"데이터베이스의 뇌파 기록이 실험에서 사용되었다. 제안 된 접근법은 기존의 알고리즘에 비해 향상된 성능을 보여준다.

Genetic Association Analysis of Fasting and 1- and 2-Hour Glucose Tolerance Test Data Using a Generalized Index of Dissimilarity Measure for the Korean Population

  • Yee, Jaeyong;Kim, Yongkang;Park, Taesung;Park, Mira
    • Genomics & Informatics
    • /
    • 제14권4호
    • /
    • pp.181-186
    • /
    • 2016
  • Glucose tolerance tests have been devised to determine the speed of blood glucose clearance. Diabetes is often tested with the standard oral glucose tolerance test (OGTT), along with fasting glucose level. However, no single test may be sufficient for the diagnosis, and the World Health Organization (WHO)/International Diabetes Federation (IDF) has suggested composite criteria. Accordingly, a single multi-class trait was constructed with three of the fasting phenotypes and 1- and 2-hour OGTT phenotypes from the Korean Association Resource (KARE) project, and the genetic association was investigated. All of the 18 possible combinations made out of the 3 sets of classification for the individual phenotypes were taken into our analysis. These were possible due to a method that was recently developed by us for estimating genomic associations using a generalized index of dissimilarity. Eight single-nucleotide polymorphisms (SNPs) that were found to have the strongest main effect are reported with the corresponding genes. Four of them conform to previous reports, located in the CDKAL1 gene, while the other 4 SNPs are new findings. Two-order interacting SNP pairs of are also presented. One pair (rs2328549 and rs6486740) has a prominent association, where the two single-nucleotide polymorphism locations are CDKAL1 and GLT1D1. The latter has not been found to have a strong main effect. New findings may result from the proper construction and analysis of a composite trait.

A Deep Learning Approach with Stacking Architecture to Identify Botnet Traffic

  • Kang, Koohong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.123-132
    • /
    • 2021
  • 봇 넷의 악의적인 행위는 인터넷 서비스 제공자뿐만 아니라 기업, 정부, 그리고 심지어 가정의 일반 사용자에 이르기까지 엄청난 경제적 손실을 끼치고 있다. 본 논문에서는 CTU-13 봇 넷 트래픽 데이터 셋을 사용하여 딥러닝 모델 Convolutional Neural Network(CNN)을 적용한 봇 넷 트래픽 검출에 대한 가능성을 확인하고자한다. 특히 알려진 봇 넷과 알려지지 않은 봇 넷 트래픽에 대해 C&C 서버를 검출하기 위한 봇과 C&C 서버 사이 트래픽, 봇을 검출하기 위한 C&C 통신 이외에 봇이 발생하는 트래픽, 그리고 정상 트래픽을 분류하는 멀티클래스 분류(multi-class classification)를 시도하였다. 성능검증을 위한 지표는 정확도, 정밀도, 재현율, 그리고 F1 점수를 제시하였다. 한편 확장성과 운영을 고려하여 봇 넷 타입 별로 모듈을 적재할 수 있는 스택구조의 봇 넷 검출 시스템을 제안함으로써 실제 네트워크의 적용 가능성을 제시하였다.

코로나-19 이후 시대에 생활SOC 시설의 설치·운영을 위한 우리나라 생활권의 설정과 유형 구분 연구 (Studying Life Zone Determination and Classification of South Korea for Providing and Operating Living SOC Facilities in the Post-COVID-19 Era)

  • 김희재;김근영
    • 한국재난정보학회 논문집
    • /
    • 제20권2호
    • /
    • pp.448-461
    • /
    • 2024
  • 연구목적: 본 연구는 포스트 코로나 시대에 생활 SOC 시설을 설치하고, 운영하기 위해 우리나라 특성에 적합한 생활권 위계를 설정하고, 유형을 구분하는 것을 목적으로 한다. 연구방법: 생활권과 관련된 정책과 선행연구들을 통해 생활권의 개념을 정립하였고, 생활권 위계에 따라 생활권의 유형을 인구, 고용, 교통, 경제, 교육 등 다양한 분야의 데이터를 z-score 기법을 이용하여 유형구분을 하였다. 연구결과: 우리나라 생활권은 규모에 따라 광역생활권, 권역생활권, 도시생활권, 마을생활권, 동네생활권으로 구분할 수 있으며, 역할에 따라 중심생활권, 직주균형생활권, 주거생활권, 산업생활권, 저밀생활권으로 유형구분을 할 수 있다. 결론: 본 연구의 결과는 타당한 생활권 설정과 적절한 생활 SOC공급은 낙후지역의 쇠퇴를 막고, 지역 간 균형발전에 기여할 수 있다

설명가능한 의사결정을 위한 마이닝 기술 (Research on Mining Technology for Explainable Decision Making)

  • 정경용
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.186-191
    • /
    • 2023
  • 데이터 처리 기술은 의사결정을 위해 중요한 역할을 하며, 데이터 결측값 및 이상값 처리, 예측, 추천 모델 등이 포함 된다. 이는 모든 과정과 결과의 타당성, 신뢰성, 정확성에 대한 명확한 설명이 필요하다. 또한 의사결정트리, 추론 등을 이용한 설명가능한 모델을 통해 데이터의 문제를 해결하고, 다양한 유형의 학습을 고려하여 모델 경량화를 진행할 필요가 있다. 육하원칙을 적용한 다중 계층 마이닝 분류 방법은 데이터 전처리 후 트랜잭션에서 빈번하게 발생하는 변수와 속성 간의 다차원 관계를 발견하는 방법이다. 이는 트랜잭션에서 마이닝을 이용하여 유의미한 관계를 발견하고, 회귀분석을 통해 데이터를 모델링 하는 방법을 설명한다. 이에따라 확장 가능한 모델과 로지스틱 회귀모델을 개발하고, 데이터 정제, 관련성 분석, 데이터 변환, 데이터 증강을 통해 클래스 레이블을 생성하여 설명가능한 의사결정을 위한 미이닝 기술을 제안한다.

CSL을 통한 음향특성과 사상체질간의 상관성 연구 (An Study on the Correlation between Sound Characteristics and Sasang Constitution by CSL)

  • 신미란;김달래
    • 사상체질의학회지
    • /
    • 제11권1호
    • /
    • pp.137-157
    • /
    • 1999
  • 1. 연구배경 사상인은 생리 및 병리 현상에 차이를 나타낼 뿐만 아니라 섭생법 및 치료법에서도 각기 다른 방법을 적용하고 있다. 그러므로 사상의학에 있어서 체질변증분야가 매우 중요한 과제라 하겠다. 동무는 사상인변증의 진단지표를 외형 심성 병증 등을 제시하였고, 많은 의가들에 의해 여러 가지 새로운 체질변증의 방법이 모색되어 임상에 시도 활용되고 있는 추세이나 체질변증의 객관성유지에 어려운 점이 많아서 학문의 발전에 적지 않은 난관이 따랐다. 최근에는 음성과학의 발달에 힘입어 음성의 특성을 가시적 수치적으로 객관화 할 수 있는 가능성이 높아졌다. 본 연구는 이러한 음성과학을 바탕으로 여러 의가들에 의해 제시되어 온 사상인의 음성적 특정을 각 개인의 사상체질과 직접적으로 연관성이 있다고 판단되는 공명주파수와 기본주파수 등 여러 음성학적인 pattern자료들을 모집단으로부터 획득하여 체질별로 객관적인 수치로 비교 분석함으로써 음성과 체질과의 관계에 대하여 살펴보고 개인의 성문에 의한 사상체질 판단의 기본자료로 활용하고자 하였다. 2. 연구방법 상지대한의과대학 남학생 132명과 기타8명을 대상으로 하였다. 음향특성과 체질과의 상관성에 관하여 문헌조사를 하였다. 설문지와 체질전문가에 의하여 연구대상자를 체질 판별하였다. 연구대상자의 음성특성에 대한 설문조사를 하였고 CSL로 Pitch. Formant Frequency. Energy, Time of reading composition 등을 분석하고 통계 처리하여 체질 판별을 시도하였다. 3. 연구결과 1) 설문조사결과 소음인은 음성이 낮고 완만하며 조용한 편으로, 소양인은 음성이 높고 밝으며 급하고 함부로 말을 하는 것으로, 태음인은 음성이 낮고 무거우며 완만하고 굵고 성량이 풍부한 것으로 나타났다. 2) 문장의 평균 발음 시간에서 태양인은 다른 체질에 비하여 유의성 있게 길었다. 몸무게에서 태음인은 다른 체질에 비하여 유의성 있게 높았다. Formant frequency 1에서는 태양인이, Bandwidth 1에서는 소음인과 태양인이 다른 체질에 비하여 유의성 있게 낮았으며, Bandwidth 2와 Formant frequency 5에서는 태양인이 유의성 있게 높았다. Pitch Maximum과 Pitch Maximum-Pitch Minimum에서는 소음인과 태양인이 유의성 있는 차이를 나타내었다. Energy Mean에서는 태양인과 태음인에서 유의성 있는 차이를 나타내었다. 3) Multi-dimensional 4-class minimum-distance classifier 분석결과 모든 항목으로 분석한 것 보다 체질별로 특정 항목을 갖고 분석한 것이 높은 일치를 나타내었다. SPSS/PC+프로그램에서 일원분산분석과 판별분석결과 네 체질사이에서의 정판별력보다 소양인을 제외한 3체질 사이에서의 정판별력이 높았다. CART모형에서 앞에서 제시된 다른 방법들보다 높은 예측율을 보이고 있다. 연구수행과정 중에 표준화, 녹음기술, 적적한 문장의 선택, 음성분석 항목선택, 통계기법, 적절한 알고리즘의 개발 등의 많은 문제점이 나타나고 있으며 관련분야의 보완과 연구진행이 지속적으로 있어야 할 것으로 사려 된다. 다각도로 진행되고 있는 사상의학에서의 객관화 노력과 통계적인 방법론들이 적용되고 체질진단에 있어 가장 최적의 알고리즘을 찾아낼 수 있다면, 정확한 체질 진단과 더불어 그에 따른 환자들의 치료와 약물처방에 있어서도 많은 도움을 줄 수 있으리라 생각된다. 성문과 음성특성의 분석을 통한 사상체질 분류검사방법은 사상체질의 객관화를 위한 하나의 보조적인 방법이 될 수 있다고 사료된다.

  • PDF