• 제목/요약/키워드: Machine learning algorithm

검색결과 1,480건 처리시간 0.025초

랜덤포레스트를 이용한 모기업의 하향 거래처 기업의 분류: 자동차 부품산업의 가치사슬을 중심으로 (Classification of Parent Company's Downward Business Clients Using Random Forest: Focused on Value Chain at the Industry of Automobile Parts)

  • 김태진;홍정식;전윤수;박종률;안태욱
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.1-22
    • /
    • 2018
  • 가치사슬은 경쟁우위 강화를 위한 전략적 도구로써 주로 기업수준, 산업수준에서 분석되어 왔다. 그런데 기업수준에서 가치사슬 분석을 수행하기 위해서는 분석 기업의 거래처 기업들이 그 기업의 가치 사슬에 속하는지의 여부에 따라 분류되어야 한다. 단일 기업에 대한 가치사슬 분류는 전문가들에 의해 원활히 수행될 수 있지만 다수의 기업을 대상으로 분류할 때는 많은 비용과 시간이 소요되는 등의 한계점이 따른다. 따라서 본 연구에서는 실거래 데이터를 기반으로 특정 기업의 거래처 기업들을 분류해서 가치사슬 기업을 자동적으로 도출해주는 모형을 제안하고자 한다. 총 19개의 거래 속성 변수를 실거래 데이터로부터 도출하여 기계학습의 입력 데이터의 형태로 가공하였고, 랜덤포레스트 알고리즘을 이용하여 가치사슬 분류 모형을 구축하였다. 자동차 부품 기업 사례에 본 연구 모형을 적용한 결과, 정확도 92%, F1-척도 76% 그리고 AUC 94%로 자동적 가치사슬 분류의 가능성을 확인하였다. 또한 거래집중도, 거래금액 그리고 거래처별 총 매출액 등과 같은 거래 속성들이 가치사슬에 속하는 기업들을 대표하는 주요 특성임을 확인하였다.

순환인공신경망(RNN)을 이용한 대도시 도심부 교통혼잡 예측 (Traffic Congestion Estimation by Adopting Recurrent Neural Network)

  • 정희진;윤진수;배상훈
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.67-78
    • /
    • 2017
  • 교통혼잡비용은 매해 증가하며, 교통혼잡비용의 63.8%에 해당되는 도심부 교통혼잡에 대한 대책 마련이 시급한 상태이다. 최근 빅데이터, 인공지능 등 4차 산업혁명을 선도하는 기술들의 발전으로 교통부문의 정보화에도 많은 변화가 초래되고 있다. 이러한 신개념 기술을 활용하여 소통상황 예측정보를 제공함으로써 교통혼잡비용을 저감할 수 있을 것으로 기대된다. 이에 본 연구에서는 순환 인공 신경망(RNN)을 활용하여 반복 및 비반복 정체 예측 모형을 개발하고자 하였다. 제안 모형은 실시간 소통정보, 이력정보, 유고상황정보 등을 활용하여 현재를 기점으로 15분 간격의 1시간 이후 소통 상황을 예측하는 모형이다. 33개 링크로 구성된 서울시 논현로에 대해 2개의 은닉층으로 구성된 RNN 모형을 구축하였다. 총 30개 모형을 계량활용변화역전파 알고리즘으로 학습하여, 이 중 평균오차제곱이 0.0834인 모형을 최적 모형으로 선정하였다. 모형 검증 결과 25개 링크에 대해 유의성 높은 예측을 하였다. 모형의 예측력을 열지도를 통해 검토한 결과 반복 정체뿐 아니라 비반복 정체까지 예측할 수 있는 것을 확인할 수 있었다. 따라서 실제 도로 상에서의 교통혼잡 예측을 위한 모형으로 활용할 수 있을 것이라 기대된다.

이종센서 위성영상과 머신 러닝을 활용한 광릉지역 주요 수종 분류 모델 개발 (The Development of Major Tree Species Classification Model using Different Satellite Images and Machine Learning in Gwangneung Area)

  • 임중빈;김경민;김명길
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1037-1052
    • /
    • 2019
  • 저자는 접근불능지역인 북한의 임상도 제작을 위한 첫 단계로 Hyperion과 Sentinel-2 위성영상과 질감정보와 지형정보를 활용하여 정확도 98% 이상의 잣나무 및 낙엽송 분류모델을 개발한 바 있다. 북한의 주요 수종 점유율을 고려해 볼 때, 낙엽송(점유율 17.5%), 잣나무(5.8%) 뿐만 아니라 소나무(12.7%), 전나무(8.2%), 참나무류(29.5%)의 점유율이 크므로 수종분류 모델의 확장이 필요하다. 따라서 본 연구에서는 기존의 2개 수종에서 주요 5개 수종으로 분류모델을 확장하기 위해 분광정보와 침엽수 및 활엽수의 수관특성을 고려한 질감정보 및 수종별 생육특성을 고려한 지형정보를 투입하여 방법론을 개선하였다. 연구대상지인 광릉지역의 임상도에서 수종별 위치정보를 취득하여 11,039개의 훈련자료와 2,330개의 검증자료를 구축하였다. 분광정보는 Sentinel-2 영상을 통해 획득하였으며 질감정보는 고해상도인 PlanetScope 영상을, 지형정보는 북한지역으로의 확장 가능성을 고려하여 SRTM DEM을 활용하였다. 머신 러닝 모델은 기존 연구에서 정확도가 검증된 Random Forest 알고리즘을 활용하였다. 분류 결과 전체 80%(Kappa지수 0.80) 정확도로 수종이 분류되었다. 향후 백두산 지역과 남북 고성지역을 대상으로 본 연구에서 개발된 수종분류모델의 확장성을 검토하여 한반도 지역의 수종 분류 모델을 개발하고자 한다.

LSTM 기법을 활용한 수위 예측 알고리즘 개발 시 비정형자료의 역할에 관한 연구: 잠수교 사례 (Role of unstructured data on water surface elevation prediction with LSTM: case study on Jamsu Bridge, Korea)

  • 이승연;유형주;이승오
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1195-1204
    • /
    • 2021
  • 최근 이상기후로 인한 국지성호우가 잦아져 하천변 사회기반시설을 포함한 인적·물적 피해가 급증하고 있다. 본 연구에서는 해당 시설들의 침수 피해를 예측·방지하고자 기계학습 중 시계열자료에 특화된 LSTM(Long Short- term Memory)기법을 활용하여 수위 예측 알고리즘을 개발하였다. 연구대상지는 잠수교로 연구기간은 총 6년(2015년~2020년)의 6, 7, 8월로 3시간 후의 잠수교 수위를 예측하였다. 입력자료(Input data)는 잠수교 수위(EL.m), 팔당댐 방류량(m3/s), 강화대교 조위(cm), 서울시 트윗의 개수로 기존 연구에 주로 사용된 정형자료뿐만 아니라 워드클라우드를 통해 구축된 비정형자료도 함께 사용하여 상호 보완형 자료를 구축하고, 비정형자료 활용 유무의 비교·분석을 통해 비정형자료의 역할도 제시하였다. 잠수교의 수위 예측 시 상호 보완형의 자료가 정형자료만을 사용한 경우에 비해 예측 정확도가 향상하였는 데, 이는 인명 피해를 감소시킬 수 있는 보수적인 예/경보가 가능함을 알 수 있었다. 본 연구에서는 하천변 사회기반시설의 이용자 안전 및 편의 제공에 상호 보완형 자료의 사용이 보다 효과적이라 판단하였다. 향후에는 비정형자료의 종류를 추가하거나 입력자료의 세밀한 전처리를 통하여 더욱 정확한 수위 예측을 기대해본다.

머신러닝 알고리즘을 이용한 온실 딸기 생산량 예측 (Prediction of Greenhouse Strawberry Production Using Machine Learning Algorithm)

  • 김나은;한희선;아룰모지엘렌체쟌;문병은;최영우;김현태
    • 생물환경조절학회지
    • /
    • 제31권1호
    • /
    • pp.1-7
    • /
    • 2022
  • 서부 경남 지역 중 딸기재배로 유명한 지역 40개 농가를 대상으로 한 조사에 따르면 국산품종 중에서 "설향"이 65.0%으로서 가장 선호하고 있는 것으로 나타났다. 그리고 현재의 농업은 4차 산업혁명으로 스마트팜(Smart Farm)의 기술이 더욱 발전하고 있는 실정이다. 그러나 각 생육단계가 어떤 상황일 때 딸기의 생산량이 최적에 달하는지 대한 기준이 없으며, 이러한 판단기준은 아직까지 스마트팜에 경험이 있는 농업인의 의사에 달려있다는 문제점이 있다. 따라서 본 연구에서는 딸기의 생육상황에 대한 생산량 예측을 통해 선진화된 스마트팜 시스템을 구축하고자 한다. 실험 장소는 경상남도 사천시의 딸기 농가에서 수행하였으며, 총 3곳을 대상으로 데이터 수집을 진행하였다. 실험 대상의 모든 온실 내에서 재배하는 딸기의 품종은 '설향'이다. 작물 데이터의 수집 항목은 작물의 엽수, 꽃수, 과실수, 초장, 잎의 길이, 엽록소 함량이며, 환경 데이터의 수집 항목은 온도, 습도, 조도이다. 기존의 농가 단위의 스마트팜의 문제점 보완 및 개선을 통하여 고품질의 작물 생장 상태를 유지하기 위해 K-fold 교차검증, Lasso 회귀분석, MAPE 검증을 통해 예측모델을 도출하였으며, MAPE 검증 결과 값으로 0.511(꽃 예측)과 0.488(과일 예측)의 값이 나타났다. 본 연구는 스마트팜 데이터 구축을 위해서는 AI를 통해 성장상태별 수확량을 예측하였으며, 이를 농가 및 농업 관련 기업에 활용해 농업 서비스가 편리할 것으로 판단된다.

Opcode와 API의 빈도수와 상관계수를 활용한 Cerber형 랜섬웨어 탐지모델에 관한 연구 (A Study on the Cerber-Type Ransomware Detection Model Using Opcode and API Frequency and Correlation Coefficient)

  • 이계혁;황민채;현동엽;구영인;유동영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권10호
    • /
    • pp.363-372
    • /
    • 2022
  • 최근 코로나 19 팬더믹 이후 원격근무의 확대와 더불어 랜섬웨어 팬더믹이 심화하고 있다. 현재 안티바이러스 백신 업체들이 랜섬웨어에 대응하고자 노력하고 있지만, 기존의 파일 시그니처 기반 정적 분석은 패킹의 다양화, 난독화, 변종 혹은 신종 랜섬웨어의 등장 앞에 무력화될 수 있다. 이러한 랜섬웨어 탐지를 위한 다양한 연구가 진행되고 있으며, 시그니처 기반 정적 분석의 탐지 방법과 행위기반의 동적 분석을 이용한 탐지 연구가 현재 주된 연구유형이라고 볼 수 있다. 본 논문에서는 단일 분석만을 이용하여 탐지모델에 적용하는 것이 아닌 ".text Section" Opcode와 실제 사용하는 Native API의 빈도수를 추출하고 K-means Clustering 알고리즘, 코사인 유사도, 피어슨 상관계수를 이용하여 선정한 특징정보들 사이의 연관성을 분석하였다. 또한, 타 악성코드 유형 중 웜과 Cerber형 랜섬웨어를 분류, 탐지하는 실험을 통해, 선정한 특징정보가 특정 랜섬웨어(Cerber)를 탐지하는 데 특화된 정보임을 검증하였다. 위와 같은 검증을 통해 최종 선정된 특징정보들을 결합하여 기계학습에 적용하여, 최적화 이후 정확도 93.3% 등의 탐지율을 나타내었다.

머신러닝을 이용한 기후변화에 따른 천궁 생리 활성 성분 예측 모델 연구 (A Study on the Prediction Model for Bioactive Components of Cnidium officinale Makino according to Climate Change using Machine Learning)

  • 이현조;구현정;이경철;주원균;채철주
    • 스마트미디어저널
    • /
    • 제12권10호
    • /
    • pp.93-101
    • /
    • 2023
  • 최근 기온 상승, 가뭄, 홍수 등 기후변화가 세계적인 문제로 대두되고 있으며, 농업분야에서는 작물의 특성과 생산성에 많은 영향을 미칠 것으로 예측하고 있다. 천궁은 전통적으로 사용되는 한약재뿐만 아니라 건강기능식품, 천연물의약품, 생활소재 등 다양한 산업적 원료로 활용되고 있으나, 연작장해, 기후변화 등 위협 요인으로 인한 생산성이 감소되고 있다. 그러므로 본 논문에서는 기후변화에 취약한 대표 약용 작물인 천궁의 기후변화 시나리오에 따른 생리 활성 성분 지표를 예측할 수 있는 모델을 제안한다. 먼저 기상 정보와 생리 반응, 생리 활성 성분 정보의 수집 데이터 불균형 문제를 해결하기 위해 CTGAN 알고리즘을 이용하여 데이터를 증강하였다. 증강 데이터 품질 측정을 위해 Column Shape, Column Pair Trends를 이용하였으며 평균 88% Overall Quality를 달성하였다. 증강 데이터를 이용하여 지상부와 지하부로 나누어 페놀과 플라보노이드 함량을 예측하기 위해 5가지 모델 RF, SVR, XGBoost, AdaBoost, LightBGM을 이용하여 평가하였다. 모델 성능 평가 결과 XGBoost 모델이 천궁 생리 활성 성분 예측에 가장 우수한 성능을 보였으며, SVR 모델 대비 약 2배 정도의 향상된 정확도를 확인할 수 있었다.

GK2A/AMI와 GK2B/GOCI-II 자료를 융합 활용한 주간 고해상도 안개 탐지 알고리즘 개발 (Development of High-Resolution Fog Detection Algorithm for Daytime by Fusing GK2A/AMI and GK2B/GOCI-II Data)

  • 유하영;서명석
    • 대한원격탐사학회지
    • /
    • 제39권6_3호
    • /
    • pp.1779-1790
    • /
    • 2023
  • 위성 자료의 성능이 크게 개선됨에 따라 최근에는 위성을 이용하여 광범위한 영역에 대한 실시간 안개 탐지 알고리즘들이 개발되고 있다. 한반도 주변을 관측하는 기상위성 중 관측주기가 10분으로 시간해상도가 가장 우수한 GEO-KOMPSAT-2A/Advanced Meteorological Imager (GK2A/AMI)는 공간해상도가 500 m이다. 반면 GEO-KOMPSAT-2B/Geostationary Ocean Color Imager-II (GK2B/GOCI-II)는 해상도가 250 m지만, 1시간 주기로 관측하고 가시채널만 보유하고 있다. 따라서 본 연구에서는 한반도 주변에서 발생하는 안개를 10분 및 250 m 해상도로 탐지하기 위해 GK2AB 융합 안개 탐지 알고리즘(Fog Detection Algorithm, FDA)인 GK2AB FDA를 개발하였다. GK2AB FDA는 세 파트로 구성된다. 첫 번째로 현업 운용중인 GK2A 안개 탐지 알고리즘(GK2A FDA)으로 10분 및 500 m 해상도로 안개를 탐지한다. 두 번째 단계에서는 두 위성 자료 간 시공간 일치, 태양천정각과 파장역 차이를 보정한 GK2A normalized visible (NVIS)의 10분 변화량을 이용하여 GK2B NVIS를 10분 간격으로 외삽한다. 마지막 단계에서는 외삽된 GK2B NVIS, 태양천정각, GK2A FDA 산출물 등을 입력자료로 기계학습(의사결정나무)을 이용하여 개발된 GK2AB FDA로 지리적위치에 따라 안개를 탐지(250 m, 10분)한다. GK2AB FDA의 훈련에는 6개 사례, 검증에는 4개 사례가 이용되었다. GK2AB FDA의 정량적 검증에는 지상관측 시정, 풍속 그리고 상대습도 자료를 이용하였다. GK2AB FDA는 GK2A FDA에 비해 공간해상도가 4배 증가함에 따라 안개 및 비안개 화소가 보다 자세히 구분되었다. 또한 검증방법에 관계없이 GK2A FDA에 비해 probability of detection (POD)은 높고 Hanssen-Kuiper Skill score (KSS)는 높거나 비슷함을 보여 안개 탐지 수준이 개선된 것으로 보인다. 하지만 일부 사례에서는 GK2AB FDA의 false alarm ratio (FAR)와 Bias가 크게 나타나 안개를 과대탐지하는 문제를 보이고 있다.

딥러닝 알고리즘을 활용한 천식 환자 발생 예측에 대한 연구 (A Study on Asthmatic Occurrence Using Deep Learning Algorithm)

  • 성태응
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.674-682
    • /
    • 2020
  • 최근 산업화 및 인구과밀화로 인해 대기오염에 대한 문제가 세계적 관심사로 대두되고 있다. 대기 오염은 인간의 건강에 다양한 악영향을 초래할 수 있는데, 그 중 본 연구에서 관심을 둔 천식과 같은 호흡계 질환은 직접적 영향을 받을 수 있다. 기존의 연구에서는 임상 데이터를 활용하여 상대적으로 적은 표본을 기반으로 천식과 같은 질환에 대기 오염 인자가 어떠한 영향을 미치는지를 파악하였다. 이는 수집 표본 별 일관성이 없는 결과를 초래할 소지가 다분하며, 의료계 종사자 이외에는 연구의 시도가 어렵다는 점에서 큰 한계를 가지고 있다. 본 연구에서는 정부에서 공개하는 대기 환경 데이터와 천식 발병 빈도 수에 대한 데이터를 기반으로, 실제 천식 발병 빈도를 예측하는 것에 연구의 주안점을 두었다. 본 연구는 시차를 적용한 피어슨 상관계수를 통해 각 대기오염 인자가 천식 발병에 어느 정도의 시차를 가지고 유의한 영향을 주는지를 검증하였다. 검증결과를 기반으로 구축된 학습데이터는 딥러닝 알고리즘에 활용되며, 천식 발병 빈도의 예측에 최적화 된 모델을 설계하였다. 모델의 평균 대비 오차율은 약 11.86%로 타 머신러닝 기반의 알고리즘 대비 우수한 성능을 나타냄을 확인하였다. 제안한 모델은 국가 보험 체계 및 보건 예산 관리에서의 효율화 및 병원에서의 의료 인력 배치 및 수급에의 효율성 또한 제공할 수 있다. 또한 만성 천식 질환자에 대한 대기 환경별 발병 위험에 대한 조기 경보를 통해 국민 건강 증진에 기여할 수 있다.

딥러닝을 이용한 의류 이미지의 텍스타일 소재 분류 (Textile material classification in clothing images using deep learning)

  • 이소영;정혜선;최윤성;이충권
    • 스마트미디어저널
    • /
    • 제12권7호
    • /
    • pp.43-51
    • /
    • 2023
  • 온라인 거래가 증가하면서 의류 이미지는 소비자의 구매 결정에 큰 영향을 미치게 되었다. 의류 소재에 대한 이미지 정보의 중요성이 강조되고 있으며, 의류 이미지를 분석하여 사용된 소재를 파악하는 것은 패션 산업에 있어서 중요하다. 의류에 사용된 텍스타일의 소재는 육안으로 식별하기 어렵고, 분류 작업에도 많은 시간과 비용이 소모된다. 본 연구는 딥러닝 알고리즘을 기반으로 의류 이미지로부터 텍스타일의 소재를 분류하고자 하였다. 소재를 분류함으로써 의류 생산 비용을 절감하고, 제조공정의 효율성을 증대하는데 도움이 되며 소비자에게 특정 소재의 제품을 추천하는 AI 서비스에 기여할 수 있다. 의류 이미지를 분류하기 위해 머신비전 기반의 딥러닝 알고리즘 ResNet과 Vision Transformer를 이용하였다. 760,949장의 이미지를 수집하였고, 비정상 이미지를 검출하는 전처리 과정을 거쳤다. 최종적으로 총 167,299장의 의류 이미지와 섬유라벨 19개, 직물라벨 20개를 사용하였다. ResNet과 Vision Transformer를 사용해서 의류 텍스타일의 소재를 분류하였으며 알고리즘 성능을 Top-k Accuracy Score 지표를 통해 비교하였다. 성능을 비교한 결과, ResNet 보다 Vision Transformer 알고리즘이 더 우수하였다.