• 제목/요약/키워드: Machine Learning

검색결과 5,415건 처리시간 0.031초

자연어 처리 모델을 활용한 블록 코드 생성 및 추천 모델 개발 (Development of Block-based Code Generation and Recommendation Model Using Natural Language Processing Model)

  • 전인성;송기상
    • 정보교육학회논문지
    • /
    • 제26권3호
    • /
    • pp.197-207
    • /
    • 2022
  • 본 논문에서는 코딩 학습 중 학습자의 인지 부하 감소를 목적으로 자연어 처리 모델을 이용하여 전이학습 및 미세조정을 통해 블록 프로그래밍 환경에서 이미 이루어진 학습자의 블록을 학습하여 학습자에게 다음 단계에서 선택 가능한 블록을 생성하고 추천해 주는 머신러닝 기반 블록 코드 생성 및 추천 모델을 개발하였다. 모델 개발을 위해 훈련용 데이터셋은 블록 프로그래밍 언어인 '엔트리' 사이트의 인기 프로젝트 50개의 블록 코드를 전처리하여 제작하였으며, 훈련 데이터셋과 검증 데이터셋 및 테스트 데이터셋으로 나누어 LSTM, Seq2Seq, GPT-2 모델을 기반으로 블록 코드를 생성하는 모델을 개발하였다. 개발된 모델의 성능 평가 결과, GPT-2가 LSTM과 Seq2Seq 모델보다 문장의 유사도를 측정하는 BLEU와 ROUGE 지표에서 더 높은 성능을 보였다. GPT-2 모델을 통해 실제 생성된 데이터를 확인한 결과 블록의 개수가 1개 또는 17개인 경우를 제외하면 BLEU와 ROUGE 점수에서 비교적 유사한 성능을 내는 것을 알 수 있었다.

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

랜덤포레스트 회귀모형을 적용한 도시지역에서의 실시간 침수 예측 (Real-time flood prediction applying random forest regression model in urban areas)

  • 김현일;이연수;김병현
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1119-1130
    • /
    • 2021
  • 불안정한 기후와 함께 나타나는 국지적 집중호우로 인한 도시 침수는 끊임없이 발생하고 있으나, 강우량을 포함한 기상정보 현황 또는 예보정보를 활용하여 공간적인 도시홍수 예측정보를 제공할 수 있는 체계는 아직 마련되지 못한 상황이다. 공간적인 홍수정보는 하천의 제방, 도시 하수관거의 통수능, 저류지, 펌프시설과 같은 구조물적 대책에 어려움이 있을 시 발생할 수 있는 최악의 홍수상황을 미리 파악함으로써 피해를 최소화하는데 직접적인 영향을 미칠 수 있다. 이에 본 연구에서는 기상청에서 제공되는 강수량, 도시 유역에 대한 2차원 침수해석 결과, 그리고 기계학습 모형 중 하나인 랜덤포레스트 회귀모형을 활용하여 실시간으로 도시유역에 대한 침수지도를 예측할 수 있는 방법론을 제시하고자 한다. 연구유역은 내수침수가 빈번하게 발생하는 울산시 우정태화지구로 선정하였다. 지속시간 6시간의 총강우량 50 mm, 80 mm 그리고 110 mm 대한 랜덤포레스트 회귀분석 예측 침수면적과 검보정된 2차원 물리모형의 침수해석 결과 비교시 각각 63%, 80%, 그리고 67%의 적합도를 보여주어, 빠른 시간안에 발생하는 도시 침수에 대한 대응, 대피를 위한 기초자료로 활용될 수 있을 것으로 판단된다.

IBN 기반: AI 기반 멀티 도메인 네트워크 슬라이싱 접근법 (IBN-based: AI-driven Multi-Domain e2e Network Orchestration Approach)

  • 칸 탈하 애흐마드;아팍 모하메드;기자르 아바쓰;송왕철
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.29-41
    • /
    • 2020
  • 네트워크는 빠르게 성장하여 다중 도메인 복잡성을 유발하고 있다. 네트워크 트래픽 및 서비스의 다양성, 다양성 및 동적 특성은 향상된 오케스트레이션 및 관리 접근 방식을 필요로한다. 많은 표준 오케스트레이터와 네트워크 운영자가 E2E 슬라이스 오케스트레이션을 처리하기 위한 복잡성이 증가하고 있다. 또한 액세스, 에지, 전송 및 코어 네트워크를 포함하여 E2E 슬라이스 오케스트레이션과 관련된 여러 도메인이 각각 특정 문제를 가지고 있다. 따라서 멀티 도메인, 멀티 플랫폼 및 멀티 오퍼레이터 기반 네트워킹 환경을 수동으로 처리하려면 특정 전문가가 필요하며 이 접근 방식을 사용하면 런타임에 네트워크의 동적 변경을 처리할 수 없다 또한 이러한 복잡성을 처리하기위한 수동 접근 방식은 항상 오류가 발생하기 쉽고 지루한 일이다. 따라서 본 연구에서는 의도 기반 접근법을 사용하여 E2E 슬라이스 오케스트레이션을 처리하기 위한 자동화되고 추상화된 솔루션을 제안한다. 운영자로부터 도메인을 추상화하고 높은 수준의 의도 형태로 오케스트레이션 의도를 제공 할 수 있다. 또한 조정 된 리소스를 적극적으로 모니터링하고 머신 러닝을 사용하여 현재 모니터링 통계를 기반으로 시스템 상태 업데이트를 위한 향후 리소스 활용도를 예측한다. Closed-loop 자동화 E2E 네트워크 오케스트레이션 및 관리 시스템이 생성된다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.

Zero-Shot 기반 기계번역 품질 예측 연구 (Study on Zero-shot based Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.35-43
    • /
    • 2021
  • 최근 다언어모델(Cross-lingual language model)을 활용하여 한 번도 보지 못한 특정 언어의 하위 태스크를 수행하는 제로샷 교차언어 전이(Zero-shot cross-lingual transfer)에 대한 관심이 증가하고 있다. 본 논문은 기계번역 품질 예측(Quality Estimation, QE)을 학습하기 위한 데이터 구축적 측면에서의 한계점을 지적하고, 데이터를 구축하기 어려운 상황에서도 QE를 수행할 수 있도록 제로샷 교차언어 전이를 수행한다. QE에서 제로샷을 다룬 연구는 드물며, 본 논문에서는 교차언어모델을 활용하여 영어-독일어 QE 데이터에 대해 미세조정을 실시한 후 다른 언어쌍으로의 제로샷 전이를 진행했고 이 과정에서 다양한 다언어모델을 활용하여 비교 연구를 수행했다. 또한 다양한 자원 크기로 구성된 언어쌍에 대해 제로샷 실험을 진행하고 실험 결과에 대해 언어별 언어학적 특성 관점으로의 분석을 수행하였다. 실험결과 multilingual BART와 multillingual BERT에서 가장 높은 성능을 보였으며, 특정 언어쌍에 대해 QE 학습을 전혀 진행하지 않은 상황에서도 QE를 수행할 수 있도록 유도하였다.

위성 정보를 활용한 도심 지역 기온자료 지도화를 위한 인공신경망 적용 연구 (A study of artificial neural network for in-situ air temperature mapping using satellite data in urban area)

  • 전현호;정재환;조성근;최민하
    • 한국수자원학회논문집
    • /
    • 제55권11호
    • /
    • pp.855-863
    • /
    • 2022
  • 본 연구에서는 서울시 기온 지상관측 자료의 지도화를 위해 Artificial Neural Network (ANN)을 사용하였다. 지도화를 위한 보조자료로는 MODerate resolution Imaging Spectroradiometer (MODIS) 자료를 사용하였다. ANN 모델 설계를 위해 입력자료와 출력자료 간의 산점도 및 통계분석을 수행하였으며, 기온과의 상관성이 비교적 높게 나타나는 입력자료인 지표면온도, Normalized Difference Vegetation Index (NDVI), Enhanced Vegetation Index (EVI)와 시간(위성관측시각, Day of year), 위치(위도, 경도), 데이터 품질(운량)과 관련된 데이터 종류를 분류 및 조합하여 학습을 진행하였다. 기온자료와 상관성이 높은 데이터만으로 학습을 진행하였을 때 상관계수(r)와 Root Mean Squared Error (RMSE)의 평균값이 0.9667, 2.708℃로 우수한 성능을 보였다. 학습에 사용된 데이터의 종류가 추가될수록 더 우수한 학습 결과를 보였으며, 모든 데이터가 활용될 때에는 r과 RMSE의 평균값이 0.9840, 1.883℃로 가장 우수한 성능을 보였다. ANN 모델으로 생성한 서울시 기온 지도에서는 픽셀별 지형적 특성에 적절하게 기온이 산정된 것으로 판단되며, 추후 연구지역 확대 및 위성자료의 다양화를 통해 시단위 및 전국단위 기온 분포 분석 연구가 가능할 것이다.

자본시장 IT시스템 효율적 용량계획 모델: 심리지수 활용을 중심으로 (Effective Capacity Planning of Capital Market IT System: Reflecting Sentiment Index)

  • 이국형;김미예;박재영;김범수
    • 지식경영연구
    • /
    • 제23권1호
    • /
    • pp.89-109
    • /
    • 2022
  • 최근 COVID-19, 동학개미운동 등 투자환경의 변화로 시스템 처리 허용 수준을 상회하는 트랜잭션이 발생하고 이로 인해 전산장애가 자본시장에서 빈번하게 나타나고 있다. 자본시장 IT시스템들은 장애 영향도가 매우 큰 시스템들로서, 2020년에 예측하지 못한 큰 규모의 트랜잭션이 상당한 기간 유입되어 전산장애가 급증하였다. 다수의 기업들이 높은 수준의 IT시스템 용량계획 정책을 유지하고 있던 상황임에도 불구하고, 이를 상회하는 트랜잭션이 유입된 것은 용량계획에 대한 새로운 접근 방법이 필요함을 시사하고 있다. 이에 본 연구는 다양한 머신러닝 기법을 활용하여 자본시장 IT시스템 용량계획 모델들을 개발하고 성능을 비교 분석한다. 또한, 동학개미운동과 같이 예측하기 힘든 투자자의 행동을 반영할 수 있는 심리지수를 예측에 활용함으로써 용량계획 모델의 성능을 높인다. COVID-19 기간을 포함한 실증데이터를 이용하여 본 연구에서 개발한 용량계획 모델은 실무에서 활용 가능한 수준의 높은 성능과 안정성을 가질 수 있다. 본 연구는 기업의 비용 효율성과 IT시스템 용량 변경에 수반되는 운영상의 제약을 모두 고려한 최적의 파라미터를 제시하였는데, 이것은 자본시장 도메인에서 유용하게 사용될 수 있다. 또한, 본 연구는 투자자의 심리를 반영하는 심리지수가 IT 시스템 용량계획에 중요한 예측요인이 될 수 있는 것을 입증함으로써, 심리지수가 다양한 수요예측에 적극적으로 활용될 수 있음을 보여준다.

다중목적함수 최적화에 기초한 광대역 유도분극 변수 예측 적용성 분석 (Applicability Analysis on Estimation of Spectral Induced Polarization Parameters Based on Multi-objective Optimization)

  • 김빛나래;정주연;민배현;남명진
    • 지구물리와물리탐사
    • /
    • 제25권3호
    • /
    • pp.99-108
    • /
    • 2022
  • 유도분극(induced polarization; IP) 탐사 중 광대역 혹은 빛띠(spectral) IP (SIP) 탐사법에서는 교류 전류를 송신원으로 하였을 때 나타나는 매질의 진동수에 따른 복소전기비저항의 크기와 위상을 측정하며, 진동수에 따라 값이 변화하는 복소전기비저항의 분산 혹은 이완 반응을 분석하게 된다. 이때 분산곡선은 등가회로 모델과 같은 이완 모델을 통해 설명할 수 있는데, 다중목적함수 최적화 기법을 적용하여 분산곡선에서 SIP 이완모델의 변수들을 예측해보았다. SIP 이완현상을 설명하기 위해 가장 많이 이용되는 Cole-Cole 모델 계열의 변수를 구하기 위해 크기 오차와 위상 오차를 최소화하는 두 가지 목적함수로 설정하고 다중목적함수를 최적화하기 위해 유전 알고리듬을 이용하였다. 다중목적함수 최적화 기법을 이용한 Cole-Cole 모델 변수 구하기는 수치 모델에 대해서는 잘 구해졌으나 기존에 보고된 SIP 실내실험 자료에 피팅할 경우, 주로 위상 크기가 작을 때(약 10 mrad 이하) 피팅이 맞지 않는 경우가 많았다. 이는 다중목적함수로 사용하는 크기와 위상의 자료 오차 사이에 스케일이 맞지 않아 발생하는 한계로 추정되며, 향후 복소전기비저항의 분산 곡선에서 SIP 변수를 예측하기 위해 이러한 한계를 극복할 수 있는 기계 학습 등 다양한 기법들에 대한 연구가 필요할 것으로 판단된다.