• 제목/요약/키워드: Two-level Classification algorithm

검색결과 57건 처리시간 0.026초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

Inhalation Configuration Detection for COVID-19 Patient Secluded Observing using Wearable IoTs Platform

  • Sulaiman Sulmi Almutairi;Rehmat Ullah;Qazi Zia Ullah;Habib Shah
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1478-1499
    • /
    • 2024
  • Coronavirus disease (COVID-19) is an infectious disease caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) virus. COVID-19 become an active epidemic disease due to its spread around the globe. The main causes of the spread are through interaction and transmission of the droplets through coughing and sneezing. The spread can be minimized by isolating the susceptible patients. However, it necessitates remote monitoring to check the breathing issues of the patient remotely to minimize the interactions for spread minimization. Thus, in this article, we offer a wearable-IoTs-centered framework for remote monitoring and recognition of the breathing pattern and abnormal breath detection for timely providing the proper oxygen level required. We propose wearable sensors accelerometer and gyroscope-based breathing time-series data acquisition, temporal features extraction, and machine learning algorithms for pattern detection and abnormality identification. The sensors provide the data through Bluetooth and receive it at the server for further processing and recognition. We collect the six breathing patterns from the twenty subjects and each pattern is recorded for about five minutes. We match prediction accuracies of all machine learning models under study (i.e. Random forest, Gradient boosting tree, Decision tree, and K-nearest neighbor. Our results show that normal breathing and Bradypnea are the most correctly recognized breathing patterns. However, in some cases, algorithm recognizes kussmaul well also. Collectively, the classification outcomes of Random Forest and Gradient Boost Trees are better than the other two algorithms.

Sentinel-1 위성의 영상 분류 기법을 이용한 백두산 천지의 얼음 면적 변화 탐지 (Changes Detection of Ice Dimension in Cheonji, Baekdu Mountain Using Sentinel-1 Image Classification)

  • 박성재;엄진아;고보균;박정원;이창욱
    • 한국지구과학회지
    • /
    • 제41권1호
    • /
    • pp.31-39
    • /
    • 2020
  • 아시아에서 가장 큰 칼데라 호수인 천지는 해발 약 2250 m의 백두산 정상에 위치한다. 천지는 높은 해발고도 및 바다와 인접한 환경으로 인해 1년 중 6개월 정도가 눈과 얼음으로 뒤덮여 있다. 천지의 수원은 대부분 지하수로부터 유입되기 때문에 수온과 백두산의 화산활동이 밀접한 관련이 있다. 하지만 2000년대에 들어서며 백두산에 많은 화산활동이 관측되고 있다. 본 연구에서는 유럽우주국(European Space Agency: ESA)에서 제공하는 Sentinel-1 위성 영상자료를 활용하여 백두산의 겨울철 생성되는 얼음의 면적을 분석하였다. Sentinel-1 위성의 후방산란 영상에서 얼음의 면적을 산출하기 위해 질감 분석 기법을 활용하여 2개의 편파영상에서 20개의 Gray-Level Co-occurrence Matrix(GLCM) 레이어를 생성했다. 면적 산출에 사용된 방법은 GLCM 레이어를 Support Vector Machine (SVM) 알고리즘으로 분류하여 영상에서 얼음의 면적을 산출했다. 또한 산출된 면적은 삼지연 기상관측소에서 획득된 기온자료와 상관관계를 분석하였다. 본 연구는 본격적인 장기간의 시계열 분석에 앞서 얼음의 면적을 산출하는 새로운 방법에 대한 대안을 제시하는 근거로서 활용될 수 있을 것이다.

머신러닝 기반 금속외관 결함 검출 비교 분석 (Comparative analysis of Machine-Learning Based Models for Metal Surface Defect Detection)

  • 이세훈;강성환;신요섭;최오규;김시종;강재모
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.834-841
    • /
    • 2022
  • 최근 스마트팩토리와 인공지능 기술의 수요 증가로 인해 다양한 분야에서 인공지능 기술을 적용하는 연구가 진행되고 있다. 결함 검사 분야에서도 인공지능 알고리즘을 도입하기 위한 노력을 기울이고 있다. 특히, 금속 외관의 결함을 검출하는 연구는 다른 소재(목재, 플라스틱, 섬유 등)의 결함을 검출하는 연구에 비해 많은 연구가 이루어지고 있다. 본 논문에서는 머신러닝 기법(서포터 벡터 머신(SVM: Support Vector Machine), 소프트맥스 회귀(Softmax Regression), 결정 트리(Decesion Tree))과 차원 축소 알고리즘(주성분 분석(PCA: Principal Component Analysis), 오토인코더(AutoEncoder))의 9가지 조합과 2가지 합성곱신경망(CNN: Convolutional Neural Network) 기법(자체 알고리즘, ResNet)의 금속 외관의 결함 분류 성능 및 속도를 비교하고 분석하는 연구를 수행하고자 한다. 두 종류의 학습 데이터셋((i) 공용 데이터셋(Public Dataset), (ii) 실측 데이터셋(Actual Dataset))에 대한 실험을 통해 각 데이터셋에 대한 성능 및 속도를 비교 분석하고, 가장 효율적인 알고리즘을 찾아낸다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

명시야 현미경 영상에서의 세포 분할을 위한 이중 사전 학습 기법 (Dual Dictionary Learning for Cell Segmentation in Bright-field Microscopy Images)

  • 이규현;트란민콴;정원기
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제22권3호
    • /
    • pp.21-29
    • /
    • 2016
  • 본 논문은 명시야 (bright-field) 현미경 영상를 위한 데이터 기반 세포 분할 알고리즘을 제시한다. 제시된 알고리즘은 일반적인 사전 학습 기법과 다르게 동시에 두 개의 사전과 관련된 희소 코드 (sparse code)를 통해 정의된 에너지 함수의 최소화를 진행하게 된다. 두 개의 사전 중 하나는 명시야 영상에 대해 학습된 사전이고 다른 하나는 사람에 의해 수작업으로 세포 분할된 영상에 대해 학습된 것이다. 학습된 두 개의 사전을 세포 분할 될 새로운 입력 영상에 대해 적용하여 이와 관련된 희소 코드를 획득한 후 픽셀 단위의 분할을 진행하게 된다. 효과적인 에너지 최소화를 위해 합성곱 희소 코드 (Convolutional Sparse Coding)와 Alternating Direction of Multiplier Method(ADMM)이 사용되었고 GPU를 사용하여 빠른 분산 연산이 가능하다. 본 연구는 이전에 사용된 가변형 모델 (deformable model)을 이용한 세포 분할 방식과는 다르게 제시된 알고리즘은 세포 분할을 위해 사전 지식이 필요없이 데이터 기반의 학습을 통해서 쉽고 효율적으로 세포 분할을 진행할 수 있다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.