• 제목/요약/키워드: long short-term memory (LSTM)

검색결과 504건 처리시간 0.031초

A Study on Deep Learning Model for Discrimination of Illegal Financial Advertisements on the Internet

  • Kil-Sang Yoo; Jin-Hee Jang;Seong-Ju Kim;Kwang-Yong Gim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.21-30
    • /
    • 2023
  • 인터넷 불법금융광고는 인터넷 카페, 블로그 등을 통해 통장매매, 신용카드·휴대폰결제현금화 및 개인신용정보매매 등 불법금융행위를 목적으로 한다. 금융감독당국의 노력에도 불구하고 불법금융행위는 줄어들지 않고 있다. 본 연구는 인터넷 불법금융광고 게시글에 파이썬 딥러닝 기반 텍스트 분류기법을 적용해 불법여부를 탐지하는 모델을 제안한다. 텍스트 분류기법으로 주로 사용되는 합성곱 신경망(CNN: Convolutional Neural Network), 순환 신경망(RNN: Recurrent Neural Network), 장단기 메모리(LSTM: Long-Short Term Memory) 및 게이트 순환 유닛(GRU: Gated Recurrent Unit)을 활용한다. 그동안 수작업으로 심사한 불법확인 결과를 기초 데이터로 이용한다. 한국어 자연어처리와 딥러닝 모델의 하이퍼파라미터 조절을 통해 최적의 성능을 보이는 모델을 완성하였다. 본 연구는 그동안 이뤄지지 않았던 인터넷 불법금융광고 판별을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 딥러닝 모델에서 91.3~93.4% 수준의 정확도를 보임으로써 불법금융광고 탐지에 딥러닝 모델을 실제 적용하여 불법금융광고 근절에 기여할 수 있기를 기대해 본다.

역학적 모델과 딥러닝 모델을 융합한 대청호 수온 예측 (Water temperature prediction of Daecheong Reservoir by a process-guided deep learning model)

  • 김성진;박형석;이건호;정세웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.88-88
    • /
    • 2021
  • 최근 수자원과 수질관리 분야에 자료기반 머신러닝 모델과 딥러닝 모델의 활용이 급증하고 있다. 그러나 딥러닝 모델은 Blackbox 모델의 특성상 고전적인 질량, 운동량, 에너지 보존법칙을 고려하지 않고, 데이터에 내재된 패턴과 관계를 해석하기 때문에 물리적 법칙을 만족하지 않는 예측결과를 가져올 수 있다. 또한, 딥러닝 모델의 예측 성능은 학습데이터의 양과 변수 선정에 크게 영향을 받는 모델이기 때문에 양질의 데이터가 제공되지 않으면 모델의 bias와 variation이 클 수 있으며 정확도 높은 예측이 어렵다. 최근 이러한 자료기반 모델링 방법의 단점을 보완하기 위해 프로세스 기반 수치모델과 딥러닝 모델을 결합하여 두 모델링 방법의 장점을 활용하는 연구가 활발히 진행되고 있다(Read et al., 2019). Process-Guided Deep Learning (PGDL) 방법은 물리적 법칙을 반영하여 딥러닝 모델을 훈련시킴으로써 순수한 딥러닝 모델의 물리적 법칙 결여성 문제를 해결할 수 있는 대안으로 활용되고 있다. PGDL 모델은 딥러닝 모델에 물리적인 법칙을 해석할 수 있는 추가변수를 도입하며, 딥러닝 모델의 매개변수 최적화 과정에서 Cost 함수에 물리적 법칙을 위반하는 경우 Penalty를 추가하는 알고리즘을 도입하여 물리적 보존법칙을 만족하도록 모델을 훈련시킨다. 본 연구의 목적은 대청호의 수심별 수온을 예측하기 위해 역학적 모델과 딥러닝 모델을 융합한 PGDL 모델을 개발하고 적용성을 평가하는데 있다. 역학적 모델은 2차원 횡방향 평균 수리·수질 모델인 CE-QUAL-W2을 사용하였으며, 대청호를 대상으로 2017년부터 2018년까지 총 2년간 수온과 에너지 수지를 모의하였다. 기상(기온, 이슬점온도, 풍향, 풍속, 운량), 수문(저수위, 유입·유출 유량), 수온자료를 수집하여 CE-QUAL-W2 모델을 구축하고 보정하였으며, 모델은 저수위 변화, 수온의 수심별 시계열 변동 특성을 적절하게 재현하였다. 또한, 동일기간 대청호 수심별 수온 예측을 위한 순환 신경망 모델인 LSTM(Long Short-Term Memory)을 개발하였으며, 종속변수는 수온계 체인을 통해 수집한 수심별 고빈도 수온 자료를 사용하고 독립 변수는 기온, 풍속, 상대습도, 강수량, 단파복사에너지, 장파복사에너지를 사용하였다. LSTM 모델의 매개변수 최적화는 지도학습을 통해 예측값과 실측값의 RMSE가 최소화 되로록 훈련하였다. PGDL 모델은 동일 기간 LSTM 모델과 동일 입력 자료를 사용하여 구축하였으며, 역학적 모델에서 얻은 에너지 수지를 만족하지 않는 경우 Cost Function에 Penalty를 추가하여 물리적 보존법칙을 만족하도록 훈련하고 수심별 수온 예측결과를 비교·분석하였다.

  • PDF

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

강수-일유출량 추정 LSTM 모형의 구축을 위한 자료 수집 방안 (Data collection strategy for building rainfall-runoff LSTM model predicting daily runoff)

  • 김동균;강석구
    • 한국수자원학회논문집
    • /
    • 제54권10호
    • /
    • pp.795-805
    • /
    • 2021
  • 본 연구는 소양강댐 유역을 대상으로 LSTM 기반의 일유출량 추정 딥러닝 모형을 개발한 후, 모형구조 및 입력자료의 다양한 조합에 대한 모형의 정확도를 살폈다. 첫 12년(1997.1.1-2008.12.31) 동안의 유역평균 일강수량, 일기온, 일풍속 (이상 입력), 일평균 유량 (출력)으로 이루어진 데이터베이스를 기반으로 모형을 구축하였으며, 이후 12년(2009.1.1-2020.12.31) 동안의 자료를 사용하여 Nash-Sutcliffe Model Efficiency Coefficient (NSE)와 RMSE를 살폈다. 가장 높은 정확도를 보인 조합은 64개의 은닉유닛을 가진 LSTM 모형 구조에 가능한 모든 입력자료(12년치의 일강수량, 일기온, 일풍속)를 활용한 경우로서 검증기간의 NSE와 RMSE는 각각 0.862와 76.8 m3/s를 기록하였다. LSTM의 은닉유닛이500개를 초과하는 경우 과적합으로 인한 모형의 성능 저하가 나타나기 시작했으며, 1000개를 초과하는 경우 과적합 문제가 두드러졌다. 12년치의 일강수만 입력자료로 활용한 경우에도 매우 높은 성능(NSE=0.8~0.84)의 모형이 구축되었으며, 한 해의 자료만을 활용하여 학습한 경우에도 충분히 활용 가능한 정확도(NSE=0.63~0.85)를 가진 모형을 구축할 수 있었다. 특히 유량의 변동성이 큰 한 해의 자료만을 활용하여 모형을 학습한 경우 매우 높은 정확도(NSE=0.85)의 모형이 구축되었다. 학습자료가 중유량과 양극한의 유량을 모두 포함한 경우라면 5년 이상의 입력자료는 모형의 성능을 크게 개선시키지 못했다.

심층 신경망을 활용한 손상된 음성파일 복원 자동화 (Restoration of damaged speech files using deep neural networks)

  • 허희수;소병민;양일호;윤성현;유하진
    • 한국음향학회지
    • /
    • 제36권2호
    • /
    • pp.136-143
    • /
    • 2017
  • 본 논문에서는 심층 신경망을 이용하여 손상된 음성파일을 복원하는 방법을 제안한다. 본 논문에서 다루는 음성파일 복원은 기존의 파일 카빙(file carving) 기반의 복원과는 다른 개념으로, 기존 기법으로는 복원할 수 없었던 손실된 정보를 복원하는 것이 목적이다. 새로운 복원 기법을 수행하는 과정에서 필요한 작업이지만 사람이 직접 수행할 수 없거나 너무 많은 시간이 소요되는 작업을 심층 신경망을 활용해 자동화할 수 있는 방안을 제안하였으며 관련한 실험을 진행하였다. 실험 결과, 심층 신경망을 활용해 음성, 비음성 분류나 음성파일 부호화 방식의 식별이 가능해 기존 파일 카빙 기반 방법이 복원하지 못하는 파일을 복원할 수 있었다.

가속도 예측 기반 새로운 선박 이동 경로 예측 방법 (A New Vessel Path Prediction Method Based on Anticipation of Acceleration of Vessel)

  • 김종희;정찬호;강도근;이창진
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1176-1179
    • /
    • 2020
  • 선박의 이동 경로를 예측하는 기존의 방법들은 일반적으로 위도와 경도를 직접 예측한다. 하지만, 위도와 경도를 직접 예측할 경우, 예측 모델이 출력 가능한 범위가 상당히 넓어서 예측 오차가 매우 크게 발생할 수 있다. 또한, 순환 신경망 모델 기반의 예측에서는 이전 예측 위치도 다음 위치를 예측하기 위해 사용되기 때문에 오차가 누적되는 현상도 쉽게 발생할 수 있다. 이에 따라, 제안하는 방법에서는 위도와 경도를 직접 예측하지 않고, 선박의 가속도를 예측하여, 향후 속도와 방향을 결정하고, 그 결과로 위도와 경도가 예측되는 방법을 제안한다. 실험 결과에서는 같은 순환 신경망 모델을 사용했을 때, 제안하는 방법이 기존의 직접적으로 위도와 경도를 예측하는 방법에 비해 더 적은 오차를 발생시킴을 보인다.

머신러닝을 활용한 결측 부동산 매매 지수의 추정에 대한 연구 (A Study on the Index Estimation of Missing Real Estate Transaction Cases Using Machine Learning)

  • 김경민;김규석;남대식
    • 한국경제지리학회지
    • /
    • 제25권1호
    • /
    • pp.171-181
    • /
    • 2022
  • 부동산 시장 분석에 있어 기본이 되는 정량적 데이터는 부동산 가격 지수이다. OECD와 같은 국제기구에서는 국가별 부동산 가격 지수를 공표하고, 한국부동산원에서는 광역시 단위와 시군구 단위의 지수를 산출한다. 그런데 공간단위를 시군구보다 정교한 동단위, 아파트 단지 단위로 설정하는 경우, 여러 문제점을 맞이하게 된다. 대표적인 문제는 결측치이다. 공간적 범위를 좁힐수록 단위 기간에 따라 거래가 적거나 아예 존재하지 않는 경우가 존재하기에 이 경우에는 지수의 산출이 불가능한 결측치가 발생할 수 있다. 본 연구에서는 지도학습 기반의 머신러닝 기법을 활용하여 특정 범위와 기간에 거래가 존재하지 않아 발생할 수 있는 결측치를 보완하는 기법을 제안한다. 본 모형을 통해 부동산 매매 지수의 실제값이 존재하는 것들의 예측을 통해 그 정확도를 검증하고 결측치가 발생한 것들의 예측도 해 볼 수 있었다.

통계적 및 인공지능 모형 기반 태양광 발전량 예측모델 비교 및 재생에너지 발전량 예측제도 정산금 분석 (Comparison of solar power prediction model based on statistical and artificial intelligence model and analysis of revenue for forecasting policy)

  • 이정인;박완기;이일우;김상하
    • 전기전자학회논문지
    • /
    • 제26권3호
    • /
    • pp.355-363
    • /
    • 2022
  • 우리나라는 2050년 탄소중립을 목표로 신재생에너지 중심으로 에너지 공급원을 전환하고 확대하는 계획을 추진 중이다. 신재생에너지의 간헐적 특성으로 에너지 공급이 불안정성이 커짐에 따라 정확한 신재생에너지 발전량 예측의 중요성이 함께 커지고 있다. 이에 따라 정부는 신재생에너지를 집합화하여 관리하기 위한 소규모 전력중개시장을 개설하였고, 재생에너지 발전량 예측제도를 도입하여 예측정확도에 따라 정산금을 지급하는 제도를 시행 중이다. 본 논문에서는 우리나라 신재생에너지 전원의 대부분을 차지하는 태양광 발전에 대하여 통계적 및 인공지능 모형을 이용하여 예측모델을 구현하였으며, 각 모형의 예측정확도 결과를 비교 분석하였다. 비교 모델 중에서 CNN-LSTM(Convolutional Long Short-Term Memory Neural Networks) 모형이 가장 높은 성능을 가짐을 확인하였다. 예측정확도에 따른 예측제도 정산금 수익을 추정해보았고, 예측보유 기술 수준에 따라 수익 편차가 24% 정도 커질 수 있음을 확인하였다.

침수피해를 고려한 하천이용시설 유지관리의 경제성 분석 (Economic Analysis on the Maintenance Management of Riparian Facilities against Flood Damage)

  • 이승연;유형주;이상은;이승오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.198-198
    • /
    • 2021
  • 최근 자연적, 사회적, 정책적 관점에서 하천관리의 중요성이 증대되면서 국가하천 정비를 통한 하천시설 관리의 책임이 증대되고 있다. 국가하천 5대강 본류의 친수지구 이용도 변화를 살펴보면 2015년에 비해 2019년에 면적당 이용객 수가 630,813(명/km2)이 증가하였음을 알 수 있었고(국토교통부, 2020) 본 연구에서는 이용자 수 증가율이 높은 편인 한강 내 하천이용시설을 대상으로 선정하여 해당 지역을 기계학습 기반의 수위예측 알고리즘에 적용하였다. 하천이용시설은 하천이용자가 편리하게 하천을 이용하기 위하여 설치한 시설로 공원시설(강서, 난지, 양화, 망원, 여의도, 이촌, 반포, 잠원, 뚝섬, 잠실, 광나루, 구리)을 위주로 분석하였다. 해당 시설의 침수피해를 고려하기 위해 시계열 자료에 특화된 LSTM(Long Short-term Memory)기법을 활용하여 수위예측 알고리즘을 개발하였고 이를 통해 도출된 홍수 예보로 재난을 대비하고 시설물을 체계적으로 관리하는 유지관리의 효과를 분석하고자 하였다. 입력 자료(input data)는 수위 (EL.m), 팔당댐 방류량 (m3/s), 강화대교의 조위(EL.m)를 사용하였으며 수위예측 알고리즘을 통해 6시간 후 예측 수위값을 도출하여 기존 2단계(주의보, 경보)였던 홍수 예보 단계에서 4단계(관심, 보행자통제, 차량통제, 경계)로 구축하였다. 기존과 세분화된 홍수예보를 적용했을 경우의 유지관리 비용과 편익을 산정하여 하천이용시설의 경제성을 비교·분석한 결과, 유지관리 비용이 기존 대비 약 5% 이상 절감되었고 편익은 약 1.5배 이상 증가하였으며 관리등급은 평균 C등급(보통) 이상 달성하였다. 이는 수위예측 알고리즘의 적용으로 하천이용 활성화 및 투자의 효율성에 목적을 두었으며 향후 분석결과를 토대로 경제성모델을 개발하여 국가하천 내 관리그룹에 적용하면 효율적인 유지관리체계를 제시할 수 있을 것으로 기대된다.

  • PDF

도시홍수 위험도 실시간 표출을 위한 수치해석 모형과 기계학습의 연계 (Linkage of Numerical Analysis Model and Machine Learning for Real-time Flood Risk Prediction)

  • 김현일;한건연;김태형;최규현;조효섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.332-332
    • /
    • 2021
  • 도시화가 상당히 이뤄지고 기습적인 폭우의 발생이 불확실하게 나타나는 시점에서 재산 및 인명피해를 야기할 수 있는 내수침수에 대한 위험도가 증가하고 있다. 내수침수에 대한 예측을 위하여 실측강우 또는 확률강우량 시나리오를 참조하고 연구대상 지역에 대한 1차원 그리고 2차원 수리학적 해석을 실시하는 연구가 오랫동안 진행되어 왔으나, 수치해석 모형의 경우 다양한 수문-지형학적 자료 및 계측 자료를 요구하고 집약적인 계산과정을 통한 단기간 예측에 어려움이 있음이 언급되어 왔다. 본 연구에서는 위와 같은 문제점을 해결하기 위하여 단일 도시 배수분구를 대상으로 관측 강우 자료, 1, 2차원 수치해석 모형, 기계학습 및 딥러닝 기법을 적용한 실시간 홍수위험지도 예측 모형을 개발하였다. 강우자료에 대하여 실시간으로 홍수량을 예측할 수 있도록 LSTM(Long-Short Term Memory) 기법을 적용하였으며, 전국단위 강우에 대한 다양한 1차원 도시유출해석 결과를 학습시킴으로써 예측을 수행하였다. 침수심의 공간적 분포의 경우 로지스틱 회귀를 이용하여, 기준 침수심에 대한 예측을 각각 수행하였다. 홍수위험 등급의 경우 침수심, 유속 그리고 잔해인자를 고려한 홍수위험등급 공식을 적용하여 산정하였으며, 이 결과를 랜덤포레스트(Random Forest)에 학습함으로써 실시간 예측을 수행할 수 있도록 개발하였다. 침수범위 및 홍수위험등급에 대한 예측은 격자 단위로 이뤄졌으며, 검증 자료의 부족으로 침수 흔적도를 통하여 검증된 2차원 침수해석 결과와 비교함으로써 예측력을 평가하였다. 본 기법은 특정 관측강우 또는 예측강우 자료가 입력되었을 때에, 도시 유역 단위로 접근이 불가하여 통제해야 할 구간을 실시간으로 예측하여 관리할 수 있을 것으로 판단된다.

  • PDF