• 제목/요약/키워드: machine-learning method

검색결과 2,058건 처리시간 0.028초

CART알고리즘과 Landsat-8 위성영상 분석을 통한 계절별 지하수함양량 변화 (Variation of Seasonal Groundwater Recharge Analyzed Using Landsat-8 OLI Data and a CART Algorithm)

  • 박승혁;정교철
    • 지질공학
    • /
    • 제31권3호
    • /
    • pp.395-432
    • /
    • 2021
  • 지하수함양은 시공간적으로 다양하여 직접적으로 측정하기 어렵기 때문에 함양추정을 위해 수치모델이 널리 사용되고 있다. 이 연구에서는 지하수함양을 추정하기 위한 방법으로 기계학습법의 하나인 분류회귀트리(CART)모형을 적용하기 위해 수정된 수직식생지수(mPVI), 정규식생지수(NDVI), 정규경작지수(NDTI), 정규나지지수(NDRI) 같은 토양-식생관련 지수와 강우, 지형인자(고도, 경사, 경사방향)를 입력하고 김천지역 SWAT-MODFLOW의 함양량 결과를 추출 및 학습하여 함양량을 예측하였다. SWAT-MODFLOW의 함양량 분포에 대한 CART모형의 예측값의 전반적인 정확도는 0.5~0.7, 카파계수는 0.3~0.6으로 나타나 위성영상자료를 통해 토양-식생에 따른 함양량 변화를 합리적으로 예측할 수 있었다.

K-means clustering analysis and differential protection policy according to 3D NAND flash memory error rate to improve SSD reliability

  • Son, Seung-Woo;Kim, Jae-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.1-9
    • /
    • 2021
  • 3D-NAND 플래시 메모리는 평면적 구조인 2D-NAND 셀을 적층하는 방식으로 단위 면적당 고용량을 제공한다. 하지만 적층 공정의 특성상 각 레이어별 또는 물리적인 셀 위치에 따라 오류 발생 빈도가 달라질 수 있는 문제가 있다. 이와 같은 현상은 플래시 메모리의 쓰기/지우기(P/E) 횟수가 증가할수록 두드러진다. SSD와 같은 대부분의 플래시 기반 저장장치는 오류 교정을 위하여 ECC를 사용한다. 이 방법은 모든 플래시 메모리 페이지에 대하여 고정된 데이터 보호 강도를 제공하므로 물리적 위치에 따라 오류 발생률이 각기 다르게 나타나는 3D NAND 플래시 메모리에서는 한계를 보인다. 따라서 본 논문에서는 오류 발생률 차이를 보이는 페이지와 레이어를 K-means 머신러닝 알고리즘을 통해 군집으로 분류하고, 각 군집마다 차별화된 데이터 보호강도를 적용한다. 본 논문에서는 페이지와 레이어별로 오류 발생률이 현저하게 달라지는 내구성 테스트가 끝난 시점에서 측정된 오류 발생 횟수를 바탕으로 페이지와 레이어를 분류하고 오류에 취약한 영역에 대해서는 스트라이프에 패리티 데이터를 추가하여 차별화된 데이터 보호 강도 제공을 예시로 보인다. 본 논문에서는 기존의 ECC 또는 RAID 방식의 데이터 보호 구조와 비교하여 제안하는 차별화된 데이터 보호정책이 3D NAND 플래시 메모리의 신뢰성과 수명향상에 기여할 수 있음을 보인다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

Evidential Belief Function, Weight of Evidence 및 Artificial Neural Network 모델을 이용한 산사태 공간 취약성 예측 연구 (Landslide Susceptibility Prediction using Evidential Belief Function, Weight of Evidence and Artificial Neural Network Models)

  • 이사로;오현주
    • 대한원격탐사학회지
    • /
    • 제35권2호
    • /
    • pp.299-316
    • /
    • 2019
  • 본 연구는 지리정보시스템(GIS) 환경에서 확률 모델인 Weight Of Evidence (WOE)와 Evidential Belief Function (EBF), 기계학습 모델인 Artificial Neural Networks (ANN) 모델을 이용하여 평창지역의 산사태 취약성도를 공간적으로 분석하고 예측하였다. 본 연구지역은 2006년 태풍 에위니아에 의한 집중호우로 산사태가 많이 발생하여 많은 재산 및 인명피해가 발생하였다. 산사태 취약성도를 작성하기 위해 항공사진을 이용하여 3,955개의 방대한 산사태 발생 위치를 탐지하였고, 환경공간정보인 지형, 지질, 토양, 산림 및 토지이용 등의 공간 데이터를 수집하여 공간데이터베이스에 구축하였다. 이러한 공간데이터베이스를 이용하여 산사태에 영향을 줄 수 있는 인자 17개를 추출하여 입력 인자와 EBF, WOE, ANN 모델을 이용하여 산사태 취약성도를 작성하고 검증하였다. 작성 및 검증을 위해 산사태 자료는 각각 50%씩 나누어서 훈련 및 검증을 실시하였고, 검증결과 WOE 모델의 경우는 74.73%, EBF 모델의 경우는 75.03%, ANN 모델의 경우는 70.87%의 예측 정확도를 나타내었다. 본 연구에 사용된 모델 중 EBF 모델이 가장 높은 정확도를 나타냈으며, 모든 모델에서 70% 이상의 예측 정확도를 보여 본 연구에서 사용된 기법이 산사태 취약성도 작성에 유효함을 나타내었다. 본 연구에서 제안된 WOE, EBF, ANN 모델과 산사태 취약성도는 이전에 산사태가 발생하지 않은 지역의 산사태를 예측하는 데 사용될 수 있다. 이러한 취약성도는 산사태 위험 감소를 촉진하고, 토지 이용 정책 및 개발을 위한 기초자료 역할을 할 수 있으며, 궁극적으로 산사태 재해 예방을 위한 시간과 비용을 절약할 수 있다. 향후 보다 많은 지역에서 산사태 취약성도 작성 방법을 적용하여 산사태 위험 예측을 위한 일반화된 모델을 이끌어 내야 한다.

H.264 압축과 SVDD를 이용한 영상 감시 시스템에서의 비정상 집단행동 탐지 (Abnormal Crowd Behavior Detection via H.264 Compression and SVDD in Video Surveillance System)

  • 오승근;이종욱;정용화;박대희
    • 정보보호학회논문지
    • /
    • 제21권6호
    • /
    • pp.183-190
    • /
    • 2011
  • 감시카메라 환경에서 군중의 비정상 집단행동 탐지란 감시카메라로부터 유입되는 영상에서 다중 객체가 위험에 처한 상황을 신속하고 정확하게 탐지하는 분야를 말한다. 본 논문에서는 CCTV 등과 같은 감시카메라 환경에서 움직임 벡터와 SVDD를 이용하여 집단내의 비정상 상황을 탐지하는 프로토타입 시스템을 제안한다. 제안된 시스템은 H.264 압축과정에서의 움직임 벡터 정보를 이용하여 영상내의 움직임 정보를 추출 표현하였으며, 비정상 집단행동의 판별 문제를 실용적 차원의 단일 클래스 분류 문제로 재해석하여 단일 클래스 SVM의 대표적 모델인 SVDD를 탐지기로 설계하였다. 제안된 시스템은 H.264 압축 과정에서 얻어지는 움직임 벡터를 이용함으로써, 실시간성을 보장하며 SVDD의 점증적 갱신 학습 능력으로 인하여 비정상 집단행동 데이터베이스의 변화에도 능동적으로 적응할 수 있다. 공개적으로 사용 가능한 벤치마크 데이터 셋인 PETS 2009와 UMN을 이용하여 본 논문에서 제안한 비정상 집단행동 탐지 시스템의 성능을 실험적으로 검증한다.

배깅과 부스팅 알고리즘을 이용한 핸드볼 결과 예측 비교 (Comparison of Handball Result Predictions Using Bagging and Boosting Algorithms)

  • 김지응;박종철;김태규;이희화;안지환
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.279-286
    • /
    • 2021
  • 본 연구는 여자핸드볼 경기에서 발생되는 움직임 정보를 바탕으로 앙상블 기법의 배깅과 부스팅 알고리즘의 예측력을 비교하고, 움직임 정보의 활용가능성을 분석하는데 목적이 있다. 연구의 목적을 달성하기 위하여 15번의 연습경기에서 관성센서를 활용해 수집한 움직임 정보를 활용한 경기 결과예측을 랜덤포레스트와 Adaboost 알고리즘을 활용해 비교·분석하였다. 연구결과 첫째, 랜덤포레스트 알고리즘의 예측률은 66.9 ± 0.1%로 나타났으며, Adaboost 알고리즘의 예측률은 65.6 ± 1.6%로 나타났다. 둘째, 랜덤포레스트는 승리 결과는 모두 예측하였고, 패배의 결과는 하나도 예측하지 못하였다. 반면, Adaboost 알고리즘은 승리 예측 91.4%, 패배예측 10.4%라고 나타났다. 셋째, 알고리즘의 적합성 여부에서 랜덤포레스트는 과적합의 오류가 없었지만, Adaboost는 과적합의 오류가 나타났다. 본 연구결과를 바탕으로 스포츠경기를 예측할 때 움직임 정보도 활용 가능성을 확인하였으며, 랜덤포레스트 알고리즘이 보다 우수함을 확인하였다.

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

A Ship-Wake Joint Detection Using Sentinel-2 Imagery

  • Woojin, Jeon;Donghyun, Jin;Noh-hun, Seong;Daeseong, Jung;Suyoung, Sim;Jongho, Woo;Yugyeong, Byeon;Nayeon, Kim;Kyung-Soo, Han
    • 대한원격탐사학회지
    • /
    • 제39권1호
    • /
    • pp.77-86
    • /
    • 2023
  • Ship detection is widely used in areas such as maritime security, maritime traffic, fisheries management, illegal fishing, and border control, and ship detection is important for rapid response and damage minimization as ship accident rates increase due to recent increases in international maritime traffic. Currently, according to a number of global and national regulations, ships must be equipped with automatic identification system (AIS), which provide information such as the location and speed of the ship periodically at regular intervals. However, most small vessels (less than 300 tons) are not obligated to install the transponder and may not be transmitted intentionally or accidentally. There is even a case of misuse of the ship'slocation information. Therefore, in this study, ship detection was performed using high-resolution optical satellite images that can periodically remotely detect a wide range and detectsmallships. However, optical images can cause false-alarm due to noise on the surface of the sea, such as waves, or factors indicating ship-like brightness, such as clouds and wakes. So, it is important to remove these factors to improve the accuracy of ship detection. In this study, false alarm wasreduced, and the accuracy ofship detection wasimproved by removing wake.As a ship detection method, ship detection was performed using machine learning-based random forest (RF), and convolutional neural network (CNN) techniquesthat have been widely used in object detection fieldsrecently, and ship detection results by the model were compared and analyzed. In addition, in this study, the results of RF and CNN were combined to improve the phenomenon of ship disconnection and the phenomenon of small detection. The ship detection results of thisstudy are significant in that they improved the limitations of each model while maintaining accuracy. In addition, if satellite images with improved spatial resolution are utilized in the future, it is expected that ship and wake simultaneous detection with higher accuracy will be performed.

다변수 Bidirectional RNN을 이용한 표층수온 결측 데이터 보간 (Imputation of Missing SST Observation Data Using Multivariate Bidirectional RNN)

  • 신용탁;김동훈;김현재;임채욱;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제34권4호
    • /
    • pp.109-118
    • /
    • 2022
  • 정점 표층 수온 관측 데이터 중 결측 구간의 데이터를 양방향 순환신경망(Bidirectional Recurrent Neural Network, BiRNN) 기법을 이용하여 보간하였다. 인공지능 기법 중 시계열 데이터에 일반적으로 활용되는 Recurrent Neural Networks(RNNs)은 결측 추정 위치까지의 시간 흐름 방향 또는 역방향으로만 추정하기 때문에 장기 결측 구간에는 추정 성능이 떨어진다. 반면, 본 연구에서는 결측 구간 전후의 양방향으로 추정을 하여 장기 결측 데이터에 대해서도 추정 성능을 높일 수 있다. 또한 관측점 주위의 가용한 모든 데이터(수온, 기온, 바람장, 기압, 습도)를 사용함으로써, 이들 상관관계로부터 보간 데이터를 함께 추정하도록 하여 보간 성능을 더욱 높이고자 하였다. 성능 검증을 위하여 통계 기반 모델인 Multivariate Imputation by Chained Equations(MICE)와 기계학습 기반의 Random Forest 모델, 그리고 Long Short-Term Memory(LSTM)을 이용한 RNN 모델과 비교하였다. 7일간의 장기 결측에 대한 보간에 대해서 BiRNN/통계 모델들의 평균 정확도가 각각 70.8%/61.2%이며 평균 오차가 각각 0.28도/0.44도로 BiRNN 모델이 다른 모델보다 좋은 성능을 보인다. 결측 패턴을 나타내는 temporal decay factor를 적용함으로써 BiRNN 기법이 결측 구간이 길어질수록 보간 성능이 기존 방법보다 우수한 것으로 판단된다.