• 제목/요약/키워드: feature models

검색결과 1,135건 처리시간 0.025초

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

Deep Learning Similarity-based 1:1 Matching Method for Real Product Image and Drawing Image

  • Han, Gi-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.59-68
    • /
    • 2022
  • 본 논문은 주어진 현품 영상과 도면 영상의 유사도를 비교하여 1:1 검증을 위한 방법을 제시한 것으로, CNN(Convolutional Neural Network) 기반의 딥러닝 모델을 두 개로 결합하여 Siamese Net을 구성하고 현품 영상과 도면 영상(정면도, 좌우 측면도, 평면도 등)을 같은 제품이면 1로 다른 제품이면 0으로 학습하며, 추론은 현품 영상과 도면 영상을 쌍으로 질의하여 해당 쌍이 같은 제품인지 아닌지를 판별하는 딥러닝 모델을 제안한다. 현품 영상과 도면 영상과의 유사도가 문턱 값(Threshold: 0.5) 이상이면 동일한 제품이고, 문턱 값 미만이면 다른 제품이라고 판별한다. 본 연구에서는 질의 쌍으로 동일제품의 현품 영상과 도면 영상이 주어졌을 때(긍정 : 긍정) "동일제품"으로 판별할 정확도는 약 71.8%로 나타났고, 질의 쌍으로 다른 현품 영상과 도면 영상이 주어졌을 때(긍정: 부정) "다른제품"으로 판별할 정확도는 약 83.1%를 나타내었다. 향후 제안한 모델에 파라미터 최적화 연구를 접목하고 데이터 정제 등의 과정을 추가하여 현품 영상과 도면 영상의 매칭 정확도를 높이는 연구를 진행할 예정이다.

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.

데이터 증강 기반 효율적인 무선 신호 분류 연구 (An Efficient Wireless Signal Classification Based on Data Augmentation)

  • 임상순
    • Journal of Platform Technology
    • /
    • 제10권4호
    • /
    • pp.47-55
    • /
    • 2022
  • 사물인터넷 환경에서는 다양한 무선 통신 기술을 사용하는 기기들이 점점 증가하고 있다. 특히, 다양한 무선 신호 변조 유형을 정확하게 식별하기 위해 효율적인 특성 추출 기법을 설계하고 무선 신호의 종류를 분류하는 것이 필수적이다. 하지만, 실제 환경에서 레이블이 지정된 무선 신호 데이터를 수집하는 것은 쉬운 문제가 아니다. 최근 무선 신호 분류를 위해 딥러닝 기반의 다양한 학습 기법들이 제안되어졌다. 딥러닝의 경우 훈련 데이터셋이 적을 경우 과대적합에 빠질 가능성이 높으며, 이는 딥러닝 모델을 활용한 무선 신호 분류 기법의 성능 저하를 유발한다. 본 연구에서는 다양한 무선 신호들이 존재할 때 분류 성능을 높이기 위해 생성적 적대 신경망 기반 데이터 증대 기법을 제안한다. 분류해야 하는 무선 신호의 종류가 다양할 때 특정 무선 신호를 나타내는 데이터의 양이 적거나 균형이 맞지 않는 경우 제안한 기법을 활용하여 필요한 무선 신호와 관련된 데이터의 양을 증가시킨다. 제안한 데이터 증강 알고리즘의 유효성을 검증하기 위해 무선 신호의 데이터양을 증가시키고 균형을 맞춘 결과를 바탕으로 CNN 및 LSTM 기반 무선 신호 분류기를 구현하여 실험해본 결과 데이터 균형을 맞추지 않았을 때보다 분류 정확도가 높아지는 것을 확인하였다.

TeGCN:씬파일러 신용평가를 위한 트랜스포머 임베딩 기반 그래프 신경망 구조 개발 (TeGCN:Transformer-embedded Graph Neural Network for Thin-filer default prediction)

  • 김성수;배준호;이주현;정희주;김희웅
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.419-437
    • /
    • 2023
  • 국내 씬파일러(Thin Filer)의 수가 1200만명을 넘어서며, 금융 업계에서 씬파일러의 신용을 정확히 평가하여 우량고객을 선별해 대출을 공급하는 시도가 많아지고 있다. 특히, 차주의 신용정보에 존재하는 비선형성을 반영하여 채무불이행을 예측하기 위해서 다양한 머신러닝 알고리즘을 활용한 연구가 진행되고 있다. 그 중 그래프 신경망 구조(Graph Neural Network)는 일반적인 신용정보 외에 대출자 간의 네트워크 정보를 반영할 수 있다는 점에서 데이터가 부족한 씬파일러의 채무 불이행 예측에서 주목할 만하다. 그러나, 그래프 신경망을 활용한 기존의 연구들은 신용정보에 존재하는 다양한 범주형 변수를 적절히 처리하지 못했다는 한계가 있었다. 이에 본 연구는 범주형 변수의 맥락적 정보를 추출할 수 있는 트랜스포머 메커니즘(Transformer mechanism)과 대출자 간 네트워크 정보를 반영할 수 있는 그래프 합성곱 신경망(Graph Convolutional Network)를 결합하여 효과적으로 씬파일러의 채무 불이행 예측이 가능한 TeGCN (Transformer embedded Graph Convolutional Network)를 제안한다. TeGCN는 일반 대출자 데이터셋과 씬파일러 데이터셋에 대하여 모두 베이스 라인 모델 대비 높은 성능을 보였으며, 특히 씬파일러 채무 불이행 예측에 우수한 성능을 달성했다. 본 연구는 범주형 변수가 많은 신용정보와 데이터가 부족한 씬파일러의 특성에 적합한 모델 구조를 결합하여 높은 채무 불이행 예측 성능을 달성했다는 시사점이 있다. 이는 씬파일러의 금융소외문제를 해결하고 금융업계에서 씬파일러를 대상으로 추가적인 수익을 창출하는데 기여할 수 있을 것이다.

센서드리프트 판별을 위한 통계적 탐지기술 고찰 (Statistical Techniques to Detect Sensor Drifts)

  • 서인용;신호철;박문규;김성준
    • 한국시뮬레이션학회논문지
    • /
    • 제18권3호
    • /
    • pp.103-112
    • /
    • 2009
  • 원자력발전소에서 센서의 주기적 교정은 안전운전을 위해 꼭 필요하다. 그러나 실제 드리프트가 발생하여 교정을 요하는 센서는 약 2% 미만이다. 또한, 센서의 작동 상태를 매 핵연료 주기마다 수행하는 것은 고장 혹은 드리프트가 발생한 센서를 최대 18개월까지 감지하지 못한 채 운전할 위험이 있다. 원전의 안전운전 및 불필요한 교정을 줄이기 위해 센서의 상시 교정 감시가 필요하다. 이를 위해 주성분 분석과 Support Vector Regression(SVR)을 이용한 PCSVR 알고리즘을 개발하였고, 고리원전 3호기의 출력증발 데이터를 이용하여 검증하였다. 주성분분석은 선형변환을 통한 입력공간의 축소 및 노이즈 제거 효과를 나타내며, AASVR은 해석학적 및 기계학적 모델로 모델링하기 힘든 복잡계를 쉽게 나타낼 수 있는 장점이 있다. SVR의 세가지 파라미터는 반응표면분석법에 의해 최적화하였다. 센서의 고장탐지를 위해 모델 출력의 잔차를 슈하르트 관리도, EWMA, CUSUM 및 일반화우도비검정(GLRT)을 통해 그 결과를 비교하였다. 미세한 드리프트에 대해 CUSUM과 GLRT가 우수한 결과를 보였다. 개발된 알고리즘은 수출형 원전 APR1000 설계시 적용가능 할 것으로 판단된다.

실시간 총유사량 모니터링을 위한 H-ADCP 연계 수정 아인슈타인 방법의 의사 SVR 모형 (A SVR Based-Pseudo Modified Einstein Procedure Incorporating H-ADCP Model for Real-Time Total Sediment Discharge Monitoring)

  • 노효섭;손근수;김동수;박용성
    • 대한토목학회논문집
    • /
    • 제43권3호
    • /
    • pp.321-335
    • /
    • 2023
  • 자연하천에서의 유사량 계측은 하천공학적으로 중요한 의미를 가지지만 계측 방법의 비용 문제로 유사량 실측에 어려움이 따른다. 특히 소류사량 계측의 어려움으로 인해 주기적인 유사량 모니터링의 대부분이 부유사 농도 계측에만 제한되어 있는 실정이다. 본 연구에는 자동유량관측소에 설치된 횡방향 도플러 유속계(H-ADCP)의 후방산란값과 부유사 농도의 상관관계를 이용해 실시간으로 부유사 농도를 산정하고 총유사량을 산정하는 서포트벡터회귀 모형을 제안한다. 제안하는 실시간 총유사량 모니터링 시스템은 부유사 농도 모형과 수정 아인슈타인 방법을 모사하는 총유사량 산정 모형으로 구성된다. 각 모형의 매개변수와 입력변수는 K겹 교차검증 기반 격자검색 방법과 재귀적 특징 제거법을 이용해 결정되었다. 교차검증에서 부유사 농도 모형과 총유사량 산정 모형의 R2가 각각 0.885와 0.860으로 유사량-유량 관계곡선에 비해 정확한 것으로 나타났다. 시계열 유사량 관측을 통해 새로 제시되는 실시간 총유사량 관측 시스템이 자연하천에서 발달하는 유사량-유량 이력관계와 미세한 유량 변화에서 나타나는 유사량 변화를 성공적으로 관측할 수 있음을 확인했다. 본 연구에서 제안하는 방법은 마찰경사나 부유사 입도 등의 수리 조건을 가정할 필요 없이 H-ADCP의 원시자료만으로 부유사 농도와 총유사량을 산정할 수 있어 기존 방법에 비해 불확도가 적으며 경제적이다. 본 방법은 H-ADCP가 설치된 유사량 관측소에 광범위하게 적용 가능해 유사량 모니터링의 시간적 해상도를 경제적으로 크게 줄일 수 있을 것으로 기대된다.

유튜브에 나타난 화예 디자인 교육 콘텐츠 연구 -화훼장식기능사 교육 콘텐츠를 중심으로- (A Study on the Educational Content of Floral Design on YouTube)

  • 양동복
    • 한국화예디자인학연구
    • /
    • 제41호
    • /
    • pp.93-114
    • /
    • 2019
  • 본 연구는 유튜브에 나타난 화예 디자인 교육 콘텐츠의 특징과 문제점을 분석하고 개선방향을 모색해보려는데 목적이 있다. 이를 위해 '화훼장식기능사'를 검색어로 최근 1년간 게시된 콘텐츠 129개를 분석하였다. 분석결과, 콘텐츠가 다룬 내용은 실기강의, 이론강의, 시험관련 팁, 직업과 인물소개, 시험과제 작품, 교육안내와 홍보였고 그 중 실기강의가 가장 많은 것으로 나타났다. 제작형식은 강의, 강의실황, 영상구성, 인터뷰, 브이로그, 텔레비전방송프로그램으로 구분되었으며 강의 형태를 띤 콘텐츠가 가장 많았다. 편성전략 유형으로는 목표 시청층의 관심사에 대한 내용을 주기적으로 업로드하는 허브 유형이 가장 많았다. 이용자들은 실기시험을 다룬 내용의 강의 형태에 가장 높은 반응을 보였다. 전반적으로 콘텐츠의 다양성, 크리에이터와 이용자 간의 양방향 소통, 조화로운 편성전략이 부족한 것으로 분석된다. 이를 개선하기 위해 내용적 측면에서는 독창적이며 틈새를 공략하는 분야의 개척, 현장을 배경으로 하는 실습내용의 반영, 감성과 흥미가 포함된 콘텐츠 개발이 필요하다. 형식적 측면에서는 게임, 퀴즈와 같은 양방향 요소의 도입, VR, AR 등 뉴미디어 기술의 적용을 시도해볼 수 있겠다. 편성전략유형에서도 히어로, 허브, 하우투 세 가지 유형의 상호보완적 채널구성 방안이 제시되었다. 향후 화예 디자인 관련 교육 콘텐츠 수요의 확장이 예상되므로 다양한 플랫폼에서 활용될 수 있는 콘텐츠 제작, 전문적 크리에이터의 육성, 연관 수익 모델의 개발이 요구된다.

인공지능 기법을 이용한 조영제 부작용 예측 연구 (Contrast Media Side Effects Prediction Study using Artificial Intelligence Technique)

  • 김상현
    • 한국방사선학회논문지
    • /
    • 제17권3호
    • /
    • pp.423-431
    • /
    • 2023
  • 본 연구의 목적은 환자의 신체정보와 인공지능 기법을 활용하여 부작용에 영향을 미치는 인자들을 분석하고 조영제 부작용의 정도를 예측하여 이를 완화하는 기초자료로 활용되고자 한다. 연구에 사용한 데이터는 서울 소재 종합병원의 검진을 시행한 CT 검사 58,000건 중 조영제 부작용이 발생한 1,235건 중 과거력 조사에서 조영제 부작용이 없었던 606명의 검사자를 대상자로 하였다. 606개 샘플 중 70%는 훈련 셋으로 사용하고 나머지 30%는 검증을 위한 테스트 셋으로 사용하였다. 나이, BMI(Body Mass Index), GFR(Glomerular Filtration Rate), BUN(Blood Urea Nitrogen), GGT(Gamma Glutamyl Transgerase), AST(Aspartate Amino Transferase,), and ALT(Alanine Amiono Transferase)의 feature를 독립변수로 조영제 중증도를 목표변수로 사용하였다. AdaBoost, Tree, Neural network, SVM, Random foest 알고리즘을 통해 AUC(Area under curve), CA(Classification Accuracy), F1, Precision, Recall을 파악하였다. 분류 예측에 사용된 알고리즘 중 가장 높은 평가지표를 나타내 것은 AdaBoost와 Random Forest이다. 모든 모델의 예측에서 가장 큰 요인은 GFR, BMI, GGT 이였다. 이는 신장 여과 기능, 비만에 따라 주입되는 조영제 양의 차이와 대사증후군의 여부에 따라 조영제 부작용 중증도에 영향을 미치는 것을 알 수 있었다.

기상청 기후예측시스템(GloSea)의 앙상블 확대를 통해 살펴본 신호대잡음의 역설적 특징(Signal-to-Noise Paradox)과 예측 스킬의 한계 (Characteristics of Signal-to-Noise Paradox and Limits of Potential Predictive Skill in the KMA's Climate Prediction System (GloSea) through Ensemble Expansion)

  • 현유경;박연희;이조한;지희숙;부경온
    • 대기
    • /
    • 제34권1호
    • /
    • pp.55-67
    • /
    • 2024
  • This paper aims to provide a detailed introduction to the concept of the Ratio of Predictable Component (RPC) and the Signal-to-Noise Paradox. Then, we derive insights from them by exploring the paradoxical features by conducting a seasonal and regional analysis through ensemble expansion in KMA's climate prediction system (GloSea). We also provide an explanation of the ensemble generation method, with a specific focus on stochastic physics. Through this study, we can provide the predictability limits of our forecasting system, and find way to enhance it. On a global scale, RPC reaches a value of 1 when the ensemble is expanded to a maximum of 56 members, underlining the significance of ensemble expansion in the climate prediction system. The feature indicating RPC paradoxically exceeding 1 becomes particularly evident in the winter North Atlantic and the summer North Pacific. In the Siberian Continent, predictability is notably low, persisting even as the ensemble size increases. This region, characterized by a low RPC, is considered challenging for making reliable predictions, highlighting the need for further improvement in the model and initialization processes related to land processes. In contrast, the tropical ocean demonstrates robust predictability while maintaining an RPC of 1. Through this study, we have brought to attention the limitations of potential predictability within the climate prediction system, emphasizing the necessity of leveraging predictable signals with high RPC values. We also underscore the importance of continuous efforts aimed at improving models and initializations to overcome these limitations.