• 제목/요약/키워드: Learning

검색결과 34,965건 처리시간 0.058초

머신러닝 기반 부도예측모형에서 로컬영역의 도메인 지식 통합 규칙 기반 설명 방법 (Domain Knowledge Incorporated Local Rule-based Explanation for ML-based Bankruptcy Prediction Model)

  • 조수현;신경식
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.105-123
    • /
    • 2022
  • 신용리스크 관리에 해당하는 부도예측모형은 기업에 대한 신용평가라고도 볼 수 있으며 은행을 비롯한 금융기관의 신용평가모형의 기본 지식기반으로 새로운 인공지능 기술을 접목할 수 있는 유망한 분야로 손꼽히고 있다. 고도화된 모형의 실제 응용은 사용자의 수용도가 중요하나 부도예측모형의 경우, 금융전문가 혹은 고객에게 모형의 결과에 대한 설명이 요구되는 분야로 설명력이 없는 모형은 실제로 도입되고 사용자들에게 수용되기에는 어려움이 있다. 결국 모형의 결과에 대한 설명은 모형의 사용자에게 제공되는 것으로 사용자가 납득할 수 있는 설명을 제공하는 것이 모형에 대한 신뢰와 수용을 증진시킬 수 있다. 본 연구에서는 머신러닝 기반 모형에 설명력을 제고하는 방안으로 설명대상 인스턴스에 대하여 로컬영역에서의 설명을 제공하고자 한다. 이를 위해 설명대상의 로컬영역에 유전알고리즘(GA)을 이용하여 가상의 데이터포인트들을 생성한 후, 로컬 대리모델(surrogate model)로 연관규칙 알고리즘을 이용하여 설명대상에 대한 규칙기반 설명(rule-based explanation)을 생성한다. 해석 가능한 로컬 모델의 활용으로 설명을 제공하는 기존의 방법에서 더 나아가 본 연구는 부도예측모형에 이용된 재무변수의 특성을 반영하여 연관규칙으로 도출된 설명에 도메인 지식을 통합한다. 이를 통해 사용자에게 제공되는 규칙의 현실적 가능성(feasibility)을 확보하고 제공되는 설명의 이해와 수용을 제고하고자 한다. 본 연구에서는 대표적인 블랙박스 모형인 인공신경망 기반 부도예측모형을 기반으로 최신의 규칙기반 설명 방법인 Anchor와 비교하였다. 제안하는 방법은 인공신경망 뿐만 아니라 다른 머신러닝 모형에도 적용 가능한 방법(model-agonistic method)이다.

변이형 오토인코더와 어텐션 메커니즘을 결합한 차트기반 주가 예측 (Chart-based Stock Price Prediction by Combing Variation Autoencoder and Attention Mechanisms)

  • 배상현;최병구
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.23-43
    • /
    • 2021
  • 최근 인공지능 기법을 활용하여 캔들스틱 차트를 분석함으로써 주식가격 예측의 정확성을 높이고자 하는 다양한 연구가 진행되어 왔다. 그러나 이러한 연구들은 주식가격 예측을 위한 학습에 있어 캔들스틱 차트의 시계열적 특성을 고려하지 못한다는 점과 시장 참여자들의 감정 상태를 고려하지 못한다는 점 등이 문제로 지적되고 있다. 본 연구에서는 시장 참여자들의 감정상태를 반영하기 위해 변동성지수(VIX: volatility index) 차트를 캔들스틱 차트와 함께 고려하여 학습시키고 이를 변이형 오토인코더(VAE: variational auto encoder)와 어텐션 메커니즘(attention mechanisms)을 결합한 새로운 방법으로 분석하여 캔들스틱 차트의 시계열적 특성을 고려함으로써 기존 연구의 한계를 극복하고자 한다. 본 연구에서 제안한 방법의 성능 비교를 위해 S&P 500 기업 가운데 50개를 임의로 추출하여 제안한 방법을 통해 이들의 주식가격을 예측하고 이를 합성곱 신경망(CNN: convolutional neural network) 또는 장단기메모리(LSTM: long-short term memory) 등과 같은 기존 방법들과 비교하였다. 비교 결과 기존 방법들에 비해 본 연구에서 제안한 방법이 더 우수한 성능을 보이는 것으로 나타났다. 본 연구는 시장 참여자들의 감정 상태와 캔들스틱 차트의 시계열적 특성을 고려함으로써 주식 가격 예측의 정확성을 높였다는 점에서 그 의의가 있다.

GPT를 활용한 개인정보 처리방침 안전성 검증 기법 (Safety Verification Techniques of Privacy Policy Using GPT)

  • 심혜연;권민서;윤다영;서지영;이일구
    • 정보보호학회논문지
    • /
    • 제34권2호
    • /
    • pp.207-216
    • /
    • 2024
  • 4차 산업혁명으로 인해 빅데이터가 구축됨에 따라 개인 맞춤형 서비스가 급증했다. 이로 인해 온라인 서비스에서 수집하는 개인정보의 양이 늘어났으며, 사용자들의 개인정보 유출 및 프라이버시 침해 우려가 높아졌다. 온라인 서비스 제공자들은 이용자들의 프라이버시 침해 우려를 해소하기 위해 개인정보 처리방침을 제공하고 있으나, 개인정보 처리방침은 길이가 길고 복잡하여 이용자가 직접 위험 항목을 파악하기 어려운 문제로 인해 오남용되는 경우가 많다. 따라서 자동으로 개인정보 처리방침이 안전한지 여부를 검사할 수 있는 방법이 필요하다. 그러나 종래의 블랙리스트 및 기계학습 기반의 개인정보 처리방침 안전성 검증 기법은 확장이 어렵거나 접근성이 낮은 문제가 있다. 본 논문에서는 문제를 해결하기위해 생성형 인공지능인 GPT-3.5 API를 이용한 개인정보 처리방침 안전성 검증 기법을 제안한다. 새로운 환경에서도 분류 작업을 수행할 수 있고, 전문 지식이 없는 일반인이 쉽게 개인정보 처리방침을 검사할 수 있다는 가능성을 보인다. 실험에서는 블랙리스트 기반 개인정보 처리방침과 GPT 기반 개인정보 처리방침이 안전한 문장과 안전하지 않은 문장의 분류를 얼마나 정확하게 하는지와 분류에 소요된 시간을 측정했다. 실험 결과에 따르면, 제안하는 기법은 종래의 블랙리스트 기반 문장 안전성 검증 기법보다 평균적으로 10.34% 높은 정확도를 보였다.

AI면접 대상자에 대한 다면적 평가방법론 -얼굴인식, 음성분석, 자연어처리 영역의 융합 (Multifaceted Evaluation Methodology for AI Interview Candidates - Integration of Facial Recognition, Voice Analysis, and Natural Language Processing)

  • 지현욱;이상진;문성민;이재열;이동은;임규상
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 최근 각 기업의 AI 면접시스템 도입이 증가하고 있으며, AI 면접에 대한 실효성 논란 또한 많은 상황이다. 본 논문에서는 AI 면접 과정에서 지원자를 평가하는 방식을 시각, 음성, 자연어처리 3영역에서 구현함으로써, 면접 지원자를 다방면으로 분석 방법론의 적절성에 대해 평가하고자 한다. 첫째, 시각적 측면에서, 면접 지원자의 감정을 인식하기 위해, 합성곱 신경망(CNN) 기법을 활용해, 지원자 얼굴에서 6가지 감정을 인식했으며, 지원자가 카메라를 응시하고 있는지를 시계열로 도출하였다. 이를 통해 지원자가 면접에 임하는 태도와 특히 얼굴에서 드러나는 감정을 분석하는 데 주력했다. 둘째, 시각적 효과만으로 면접자의 태도를 파악하는 데 한계가 있기 때문에, 지원자 음성을 주파수로 환산해 특성을 추출하고, Bidirectional LSTM을 활용해 훈련해 지원자 음성에 따른 6가지 감정을 추출했다. 셋째, 지원자의 발언 내용과 관련해 맥락적 의미를 파악해 지원자의 상태를 파악하기 위해, 음성을 STT(Speech-to-Text) 기법을 이용하여 텍스트로 변환하고, 사용 단어의 빈도를 분석하여 지원자의 언어 습관을 파악했다. 이와 함께, 지원자의 발언 내용에 대한 감정 분석을 위해 KoBERT 모델을 적용했으며, 지원자의 성격, 태도, 직무에 대한 이해도를 파악하기 위해 객관적인 평가지표를 제작하여 적용했다. 논문의 분석 결과 AI 면접의 다면적 평가시스템의 적절성과 관련해, 시각화 부분에서는 상당 부분 정확도가 객관적으로 입증되었다고 판단된다. 음성에서 감정분석 분야는 면접자가 제한된 시간에 모든 유형의 감정을 드러내지 않고, 또 유사한 톤의 말이 진행되다 보니 특정 감정을 나타내는 주파수가 다소 집중되는 현상이 나타났다. 마지막으로 자연어처리 영역은 면접자의 발언에서 나오는 말투, 특정 단어의 빈도수를 넘어, 전체적인 맥락과 느낌을 이해할 수 있는 자연어처리 분석모델의 필요성이 더욱 커졌음을 판단했다.

  • PDF

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

Automated Lung Segmentation on Chest Computed Tomography Images with Extensive Lung Parenchymal Abnormalities Using a Deep Neural Network

  • Seung-Jin Yoo;Soon Ho Yoon;Jong Hyuk Lee;Ki Hwan Kim;Hyoung In Choi;Sang Joon Park;Jin Mo Goo
    • Korean Journal of Radiology
    • /
    • 제22권3호
    • /
    • pp.476-488
    • /
    • 2021
  • Objective: We aimed to develop a deep neural network for segmenting lung parenchyma with extensive pathological conditions on non-contrast chest computed tomography (CT) images. Materials and Methods: Thin-section non-contrast chest CT images from 203 patients (115 males, 88 females; age range, 31-89 years) between January 2017 and May 2017 were included in the study, of which 150 cases had extensive lung parenchymal disease involving more than 40% of the parenchymal area. Parenchymal diseases included interstitial lung disease (ILD), emphysema, nontuberculous mycobacterial lung disease, tuberculous destroyed lung, pneumonia, lung cancer, and other diseases. Five experienced radiologists manually drew the margin of the lungs, slice by slice, on CT images. The dataset used to develop the network consisted of 157 cases for training, 20 cases for development, and 26 cases for internal validation. Two-dimensional (2D) U-Net and three-dimensional (3D) U-Net models were used for the task. The network was trained to segment the lung parenchyma as a whole and segment the right and left lung separately. The University Hospitals of Geneva ILD dataset, which contained high-resolution CT images of ILD, was used for external validation. Results: The Dice similarity coefficients for internal validation were 99.6 ± 0.3% (2D U-Net whole lung model), 99.5 ± 0.3% (2D U-Net separate lung model), 99.4 ± 0.5% (3D U-Net whole lung model), and 99.4 ± 0.5% (3D U-Net separate lung model). The Dice similarity coefficients for the external validation dataset were 98.4 ± 1.0% (2D U-Net whole lung model) and 98.4 ± 1.0% (2D U-Net separate lung model). In 31 cases, where the extent of ILD was larger than 75% of the lung parenchymal area, the Dice similarity coefficients were 97.9 ± 1.3% (2D U-Net whole lung model) and 98.0 ± 1.2% (2D U-Net separate lung model). Conclusion: The deep neural network achieved excellent performance in automatically delineating the boundaries of lung parenchyma with extensive pathological conditions on non-contrast chest CT images.

UAV와 LiDAR를 활용한 토석채취지의 시계열 변화 분석 (Time-series Change Analysis of Quarry using UAV and Aerial LiDAR)

  • 박동환;심우담
    • 한국지리정보학회지
    • /
    • 제27권2호
    • /
    • pp.34-44
    • /
    • 2024
  • 최근 기후변화로 인한 이상기후로 인해 홍수, 산사태, 토사 유출과 같은 자연재난의 피해가 급증하고 있다. 우리나라는 국토의 63% 이상이 산지라는 지형적 특성 때문에 사면 재해에 취약하며, 특히, 토석채취지는 소단형성 과정에서 흙과 암석을 채굴하기 때문에 산사태가 발생할 확률이 높으며, 사업장 내부 뿐만 아니라, 외부까지 재해발생 위험이 높은 지역이다. 이에 따라, 본 연구는 토석채취지의 모니터링을 위해 UAV와 항공LiDAR를 활용하여 DEM을 구축하고 시계열 변화 분석을 수행하였으며, 토석채취지 모니터링을 위한 최적의 DEM 구축방법을 제안하였다. DEM 구축을 위해 UAV와 LiDAR 기반 Point Cloud 구축하고 Aggressive Classification(AC), Conservative Classification(CC), Standard Classification(SC) 등 세가지 알고리즘을 활용하여 지면부를 추출하였다. 알고리즘에 따라 구축한 UAV 및 LiDAR기반 DEM은 수치지형도 기반 DEM과의 비교를 통해 정확도를 평가하였다. 정확도 평가 결과, 알고리즘 방법간의 높이 차는 최대 1 m 내외로 차이가 거의 없었다. 또한, 음영기복도를 활용한 지면부의 질감을 시각적 비교해보았을 때 CC 알고리즘의 성능이 가장 우수하였으며, 산림지역에서 LiDAR 기반 DEM이 높은 정확도를 보였다. 구축한 최적의 DEM을 통해 토석채취지의 시계열 변화량을 비교한 결과, 토석채취지역, 소단 형성지역 등 시계열 변화에 따른 토석채취지의 변화지역 탐지가 가능하였다.

머신러닝 기법을 이용한 약물 분류 방법 연구 (A Study on the Drug Classification Using Machine Learning Techniques)

  • Anmol Kumar Singh;Ayush Kumar;Adya Singh;Akashika Anshum;Pradeep Kumar Mallick
    • 산업과 과학
    • /
    • 제3권2호
    • /
    • pp.8-16
    • /
    • 2024
  • 본 논문에서는 인구통계학적, 생리학적 특성을 기반으로 환자에게 가장 적합한 약물을 예측하는 것을 목표로 하는 약물 분류 시스템을 제시한다. 데이터 세트에는 적절한 약물을 결정하기 위한 목적으로 연령, 성별, 혈압(BP), 콜레스테롤 수치, 나트륨 대 칼륨 비율(Na_to_K)과 같은 속성들이 포함된다. 본 연구에 사용된 모델은 KNN(K-Nearest Neighbors), 로지스틱 회귀 분석 및 Random Forest이다. 하이퍼파라미터를 최적화하기 위해 5겹 교차 검증을 갖춘 GridSearchCV를 활용하였으며, 각 모델은 데이터 세트에서 훈련 및 테스트 되었다. 초매개변수 조정 유무에 관계없이 각 모델의 성능은 정확도, 혼동 행렬, 분류 보고서와 같은 지표를 사용하여 평가되었다. GridSearchCV를 적용하지 않은 모델의 정확도는 0.7, 0.875, 0.975인 반면, GridSearchCV를 적용한 모델의 정확도는 0.75, 1.0, 0.975로 나타났다. GridSearchCV는 로지스틱 회귀 분석을 세 가지 모델 중 약물 분류에 가장 효과적인 모델로 식별했으며, K-Nearest Neighbors가 그 뒤를 이었고 Na_to_K 비율은 결과를 예측하는 데 중요한 특징인 것으로 밝혀졌다.

TV 프로그램을 활용한 중학교 과학 진로교육 자료 개발 및 적용 (Development and Application of Science Career Education Materials Using TV Programs in Junior High School)

  • 윤혜경;김형석;정혁식;김정연;김명순
    • 한국과학교육학회지
    • /
    • 제26권4호
    • /
    • pp.518-526
    • /
    • 2006
  • 본 연구에서는 과학기술자와 관련된 TV 프로그램을 활용하여 과학 수업에서 활용할 수 있는 과학 진로교육 자료를 개발하고 이러한 영상 자료가 학생들의 과학 진로 지향도에 어떠한 영향을 미치는지 살펴보고자 하였다. 또한 단순히 영상 자료만을 시청한 경우와 영상 자료를 보다 적극적으로 교과 학습과 연관 시키기 위해 교사의 인지적 설명을 추가한 경우 그 효과가 어떻게 다른지 분석하여 과학 교과에서 바람직한 진로교육 방안을 탐색하고자 하였다. TV 프로그램을 활용한 과학 진로교육 자료를 개발하였으며(전자저울, 헬멧, 압력밥솥 관련) 이를 서울 소재 중학교 1학년 2학급에 적용하여 그 결과를 분석하였다. 프로그램의 실시 효과는 '과학 진로 지향도' 설문을 사전, 사후에 실시하여 분석하였으며 영상 자료와 관련된 인지적 설명을 한 것과 하지 않은 것의 차이를 알아보기 위해 과학 진로 지향도 각 범주별 사전 점수를 공변량으로 한 공분산분석을 실시하였다. 중학교 1학년을 대상으로 개발된 영상 자료를 적용한 결과, 영상 자료만 시청하게 하는 경우 과학 진로 지향도의 유의미한 증가를 보이지 않은 반면 영상 자료와 관련된 인지적 설명을 보충한 경우에는 유의미한 증가(p<0.05)를 보여 과학 학습과 과학 진로교육이 유기적으로 통합하는 것이 의미 있음을 시사하고있다. 이는 또한 비형식 교육인 TV 프로그램 등을 과학 진로교육에 활용할 수 있는 가능성을 보여준다.