• 제목/요약/키워드: 기계학습(머신러닝)

검색결과 150건 처리시간 0.037초

인공지능(Artificial Intelligence)과 대학수학교육 (Artificial Intelligence and College Mathematics Education)

  • 이상구;이재화;함윤미
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제34권1호
    • /
    • pp.1-15
    • /
    • 2020
  • 첨단 정보통신기술(ICT)인 인공지능(AI), 사물인터넷(IoT), 빅데이터(Big Data) 등이 사회와 경제 전반에 융합돼 혁신적인 변화가 일어나는 요즘, 헬스케어, 지능형 로봇, 가정용 인공지능 시스템(스마트홈), 공유자동차 등은 이미 우리 생활에 깊이 영향을 미치고 있다. 이미 오래전부터 공장에서는 로봇이 사람 대신 일을 하고 있으며(FA, OA), 인공지능 의사도 병원에서 활동을 하고 있고(Dr. Watson), 인공지능 스피커(기가지니)와 인공지능 비서인 구글 어시스턴트가 자연어생성을 하며 우리를 돕고 있다. 이제 인공지능을 이해하는 것은 필수가 되었으며, 인공지능을 이해하기 위해서 수학의 지식은 선택이 아니라 필수가 되었다. 따라서 이런 일들을 가능하게 해주는 수학지식을 설명하는 역할이 수학자들에게 주어졌다. 이에 본 연구진은 인공지능과 머신러닝(Machine Learning, 기계학습)을 이해하기 위해 필요한 수학 개념을 우리의 실정에 맞게 한 학기(또는 두 학기) 분량으로 정리하여, 무료 전자교과서 "인공지능을 위한 기초수학"을 집필하고, 인공지능 분야에 관심이 있는 다양한 전공의 대학생과 대학원생을 대상으로 하는 강좌를 개설하였다. 본 논문에서는 그 개발과정과 운영사례를 공유한다. http://matrix.skku.ac.kr/math4ai/

Endpoint에 적용 가능한 정적 feature 기반 고속의 사이버 침투공격 분석기술 연구 (Study on High-speed Cyber Penetration Attack Analysis Technology based on Static Feature Base Applicable to Endpoints)

  • 황준호;황선빈;김수정;이태진
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.21-31
    • /
    • 2018
  • 사이버 침해공격은 사이버 공간에서만 피해를 입히는 것이 아니라 전기 가스 수도 원자력 등 인프라 시설 전체를 공격할 수 있기에 국민의 생활전반에 엄청난 피해를 줄 수 있다. 또한, 사이버공간은 이미 제5의 전장으로 규정되어 있는 등 전략적 대응이 매우 중요하다. 최근의 사이버 공격은 대부분 악성코드를 통해 발생하고 있으며, 그 숫자는 일평균 160만개를 넘어서고 있기 때문에 대량의 악성코드에 대응하기 위한 자동화된 분석기술은 매우 중요한 의미를 가지고 있다. 이에 자동으로 분석 가능한 기술이 다양하게 연구되어 왔으나 기존 악성코드 정적 분석기술은 악성코드 암호화와 난독화, 패킹 등에 대응하는데 어려움이 있고 동적 분석기술은 동적 분석의 성능요건 뿐 아니라 logic bomb 등을 포함한 가상환경 회피기술 등을 대응하는데 한계가 있다. 본 논문에서는 상용 환경의 Endpoint에 적용 가능한 수준의 가볍고 고속의 분석성능을 유지하면서 기존 분석기술의 탐지성능 단점을 개선한 머신러닝 기반 악성코드 분석기술을 제안한다. 본 연구 결과물은 상용 환경의 71,000개 정상파일과 악성코드를 대상으로 99.13%의 accuracy, 99.26%의 precision, 99.09%의 recall 분석 성능과, PC 환경에서의 분석시간도 초당 5개 이상 분석 가능한 것으로 측정 되었고 Endpoint 환경에서 독립적으로도 운영 가능하며 기존의 안티바이러스 기술 및 정적, 동적 분석 기술과 연계하여 동작 시에 상호 보완적인 형태로 동작할 것으로 판단된다. 또한, 악성코드 변종 분석 및 최근 화두 되고 있는 EDR 기술의 핵심요소로 활용 가능할 것으로 기대된다.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

일기 예보와 예측 일사 및 일조를 이용한 태양광 발전 예측 (Photovoltaic Generation Forecasting Using Weather Forecast and Predictive Sunshine and Radiation)

  • 신동하;박준호;김창복
    • 한국항행학회논문지
    • /
    • 제21권6호
    • /
    • pp.643-650
    • /
    • 2017
  • 무한한 에너지원을 가진 태양광 발전은 기상 에 의존하기 때문에 발전량이 매우 간헐적이다. 따라서 태양광 발전량의 불확실성을 줄이고 경제성을 향상시키기 위하여 정확한 발전량 예측기술이 필요하다. 기상청은 3일간 기상정보를 예보하지만 태양광 발전 예측에 높은 상관관계가 있는 일조량과 일사량은 예보하지 않는다. 본 연구에서는 기상청에서 3일간 예보하는 기상요소인 기온, 강수량, 풍향, 풍속, 습도, 운량 등을 이용하여, 일조 및 일사량을 예측하였으며, 예측된 일사 및 일조량을 이용하여, 실시간 태양광 발전량을 예측하는 딥러닝 모델을 제안하였다. 결과로서 예측된 기상요소로 발전량을 예측하는 모델보다 제안 모델이 MAE, RMSE, MAPE 등의 오차율 지표에서 더 좋은 결과를 보여주었다. 또한, 기계 학습의 한 종류인 서포트 벡터 머신을 사용하는 것보다 DNN을 사용하는 것이 더 낮은 오차율 지표를 보여주었다.

웨이블릿 변환과 기계 학습 접근법을 이용한 수위 데이터의 노이즈 제거 비교 분석 (Comparative analysis of wavelet transform and machine learning approaches for noise reduction in water level data)

  • 황유관;임경재;김종건;신민환;박윤식;신용철;지봉준
    • 한국수자원학회논문집
    • /
    • 제57권3호
    • /
    • pp.209-223
    • /
    • 2024
  • 4차 산업혁명 시대에 접어들어 데이터 기반의 의사결정이 보편화되고 있다. 하지만 데이터 품질이 확보되지 않은 채 수행되는 데이터 분석은 왜곡된 결과를 낳을 가능성이 존재한다. 수자원 관리의 기초가 되는 수위 데이터도 마찬가지로 결측, 스파이크, 잡음 등 다양한 품질 문제를 가진다. 본 연구에서는 잡음으로 인해 발생하는 데이터 품질 문제를 해결하고자 하였다. 잡음은 데이터의 트렌드 분석을 어렵게 하고 비정상적인 이상치를 생성할 가능성이 있다. 본 연구는 이러한 문제를 해결하기 위해 Wavelet Transform을 이용한 잡음 제거 접근 방안을 제안한다. Wavelet Transform은 신호처리에 주로 사용되는 방법으로 잡음 제거에 효과적인 것으로 알려져 있으며 수집된 데이터의 정답 데이터(True value) 수집을 요구하지 않으므로 시간과 비용을 줄일 수 있다는 점에서 적용이 용이한 편이다. 본 연구는 Wavelet Transform의 성능 평가를 위해 대표적인 머신러닝 기반 잡음 제거 방법인 Denoising Autoencoder와 성능 비교를 수행하였다. 그 결과 Wavelet Transform 중 Coiflets 함수는, Denoising Autoencoder에 비해 Mean Absolute Error, Mean Absolute Percentage Error, Mean Squared Error 등 모든 측면에서 우수한 성능을 보이는 것으로 나타났다. 이러한 결과는 환경에 맞는 적절한 웨이블릿 함수의 선택을 통한 잡음 문제를 효과적으로 해결할 수 있음을 시사한다. 본 연구는 수위 데이터의 품질을 향상시켜 수자원 관리 결정의 신뢰성에 기여하는 강력한 도구로서 Wavelet Transform의 잠재력을 확인한 의의가 있다.

영화 흥행에 영향을 미치는 새로운 변수 개발과 이를 이용한 머신러닝 기반의 주간 박스오피스 예측 (Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning)

  • 송정아;최근호;김건우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.67-83
    • /
    • 2018
  • 2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출 점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를 예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며, 새롭게 제시한 변수들을 포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수 있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.

인공지능의 사회적 수용도에 따른 키워드 검색량 기반 주가예측모형 비교연구 (Comparison of Models for Stock Price Prediction Based on Keyword Search Volume According to the Social Acceptance of Artificial Intelligence)

  • 조유정;손권상;권오병
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.103-128
    • /
    • 2021
  • 최근 주식의 수익률과 거래량을 설명하는 주요 요인으로서 투자자의 관심도와 주식 관련 정보 전파의 영향력이 부각되고 있다. 또한 인공지능과 같은 혁신 신기술을 개발보급하거나 활용하려는 기업의 경우 거시환경 및 시장 불확실성 때문에 기업의 미래 주식 수익률과 주식 변동성을 예측하기 어렵다는 문제를 가지고 있다. 이는 인공지능 활성화의 장애요인으로 인식되고 있다. 따라서 본 연구의 목적은 인공지능 관련 기술 키워드의 인터넷 검색량을 투자자의 관심 척도로 사용하여, 기업의 주가 변동성을 예측하는 기계학습 모형을 제안하는 것이다. 이를 위해 심층신경망 LSTM(Long Short-Term Memory)과 벡터자기회귀(Vector Autoregression)를 통해 주식시장을 예측하고, 기술의 사회적 수용 단계에 따라 키워드 검색량을 활용한 주가예측 성능 비교를 통해 기업의 투자수익 예측이나 투자자들의 투자전략 의사결정을 지원하는 주가 예측 모형을 구축하였다. 또한 인공지능 기술의 세부 하위 기술에 대한 분석도 실시하여 기술 수용 단계에 따른 세부 기술 키워드 검색량의 변화를 살펴보고 세부기술에 대한 관심도가 주식시장 예측에 미치는 영향을 살펴보았다. 이를 위해 본 연구에서는 인공지능, 딥러닝, 머신러닝 키워드를 선정하여, 2015년 1월 1일부터 2019년 12월 31일까지 5년간의 인터넷 주별 검색량 데이터와 코스닥 상장 기업의 주가 및 거래량 데이터를 수집하여 분석에 활용하였다. 분석 결과 인공지능 기술에 대한 키워드 검색량은 사회적 수용 단계가 진행될수록 증가하는 것으로 나타났고, 기술 키워드를 기반으로 주가예측을 하였을 경우 인식(Awareness)단계에서 가장 높은 정확도를 보였으며, 키워드별로 가장 좋은 예측 성능을 보이는 수용 단계가 다르게 나타남을 확인하였다. 따라서 기술 키워드를 활용한 주가 예측 모델 구축을 위해서는 해당 기술의 하위 기술 분류를 고려할 필요가 있다. 본 연구의 결과는 혁신기술을 기반으로 기업의 투자수익률을 예측하기 위해서는 기술에 대한 대중의 관심이 급증하는 인식 단계를 포착하는 것이 중요하다는 점을 시사한다. 또한 최근 금융권에서 선보이고 있는 빅데이터 기반 로보어드바이저(Robo-advisor) 등 투자 의사 결정 지원 시스템 개발 시 기술의 사회적 수용도를 세분화하여 키워드 검색량 변화를 통해 예측 모델의 정확도를 개선할 수 있다는 점을 시사하고 있다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

기계학습을 통한 주간 반투명 구름탐지 연구: GK-2A/AMI를 이용하여 (A Study on Daytime Transparent Cloud Detection through Machine Learning: Using GK-2A/AMI)

  • 변유경;진동현;성노훈;우종호;전우진;한경수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1181-1189
    • /
    • 2022
  • 구름은 대기 중에 떠 있는 작은 물방울이나 얼음 알갱이들 또는 혼합물 등으로 구성되며 지구 표면의 약 2/3를 덮고 있다. 위성영상내에서의 구름은 일부 다른 지상 물체 또는 지표면과 유사한 반사도 특성으로 인해 구름과 구름이 아닌 영역을 분리하는 구름탐지는 매우 어려운 작업이다. 특히 뚜렷한 특징을 가지는 두꺼운 구름과 달리 얇은 반투명 구름은 위성영상내에서 구름과 배경의 대비가 약하고 지표면과 혼합되어져 나타나기 때문에 대부분 구름탐지에서 쉽게 놓쳐지고 많은 어려움을 주는 대상으로 작용한다. 이러한 구름탐지의 반투명 구름의 한계점을 극복하기 위해, 본 연구에서는 머신러닝 기법(Random Forest [RF], Convolutional Neural Networks [CNN])을 활용하여 반투명 구름을 중점으로 한 구름탐지 연구를 수행하였다. Reference자료로는 MOderate Resolution Imaging Spectroradiometer (MODIS)에서 제공하는 MOD35자료에서 Cloud Mask와 Cirrus Mask를 활용하였으며 반투명 구름 픽셀을 고려한 모델 훈련을 위해 훈련 데이터의 픽셀 비율을 구름, 반투명 구름, 청천이 약 1:1:1이 되도록 구성하였다. 연구의 정성적 비교 결과, RF와 CNN 모두 반투명 구름을 포함한 다양한 형태의 구름 등을 잘 탐지하였고, RF 모델 결과와 CNN 모델 결과를 혼합한 RF+CNN경우에는 개별 모델의 한계점을 개선시키며 구름탐지가 잘 수행되어진 것을 확인하였다. 연구의 정량적 결과 RF의 전체 정확도(OA) 값은 92%, CNN은 94.11%를 보였고, RF+CNN은 94.29%의 정확도를 보였다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.