• 제목/요약/키워드: 앙상블 접근법

검색결과 17건 처리시간 0.026초

앙상블 기반의 위조 탐지 알고리즘 (Ensemble-based Counterfeit Detection Algorithm)

  • 타히예프 일킨;조영복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.101-102
    • /
    • 2023
  • 본 연구에서는 인터넷 상에서 발생되는 부정행위를 탐지할수 있는 신뢰 모델을 생성하고 개인의 프라이버시를 보장할수 있는 모델을 제시하였다. 인터넷 상에 게시판에 올려진 부정해위를 탐지하기 위해 앙상블 접근 방식 기반의 분류 모델을 제시하고 자동화된 도구를 제안하였다. 본 연구는 데이터에 대한 탐색적 데이터 분석을 수행하고 얻은 통찰력을 사용해 자연어처리 가반 텍스트를 기반으로 앙상블 기반의 위조 탐지 알고리즘을 제안하였다. 제안 알고리즘의 정확도는 99%로 자연어 처리에 높은 탐지율을 보였다.

  • PDF

부도예측을 위한 확신 기반의 선택 접근법에서 앙상블 멤버 사이즈의 영향에 관한 연구 (Impact of Ensemble Member Size on Confidence-based Selection in Bankruptcy Prediction)

  • 김나라;신경식;안현철
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.55-71
    • /
    • 2013
  • 부도예측을 위한 지식기반시스템에서 모델은 실적에 영향을 끼치는 주요한 요인이다. 예측 모형의 개발에 있어 초기 연구들은 통계기법 및 인공지능기법들을 이용하여 최고 실적을 가지는 단일 모델을 만드는데 주력하였다. 1980년대 중반 이후에는 다수 기술의 통합(하이브리드), 더 나아가, 다수 모델의 결과의 결합(앙상블) 기법이 수많은 실험에서 개별 모델들보다 더 나은 결과를 보여왔다. 다수 모델들의 출력값들을 결합하여 한 개의 최종 예측값을 산출하는 앙상블 모델링에서 결합기법은 앙상블의 예측 정확도에 영향을 끼치는 중요한 이슈이다. 본 논문은 부도예측을 위한 앙상블 결합기법으로서 앙상블 멤버들이 다른 유형의 연속형 수치 출력값들을 산출하더라도 통일된 확신을 측정할 수 있는 확신 기반의 선택 접근법을 제안하고 이에 대한 앙상블 멤버 사이즈의 영향을 연구하였다. 실험 결과는 앙상블 멤버들의 생성 타입에 따라 결합하는 모델 개수를 변화시켰을 때 가장 많은 기본 모델들을 가지는 앙상블에서의 제안 결합기법이 부도예측에 가장 자주 사용되는 다른 방법들에 비해서도 가장 높은 실적을 가진다는 것을 보였다.

앙상블 접근법을 이용한 반감독 차원 감소 방법 (A Semi-supervised Dimension Reduction Method Using Ensemble Approach)

  • 박정희
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.147-150
    • /
    • 2012
  • 클래스들 간의 거리를 최대화시키는 사영 방향을 구하는 감독차원감소 방법인 선형판별분석법(LDA)은 클래스 정보를 가진 데이터의 수가 매우 적을 때 성능이 급격히 저하되는 경향이 있다. 이러한 경우 상대적으로 저렴한 비용으로 얻을 수 있는 클래스 라벨 정보가 없는 데이터를 활용할 수 있는 반감독 차원 감소법이 사용될 수 있다. 그러나 통계적 차원 감소법에서 흔히 사용되는 행렬연산은 많은 양의 데이터를 사용하는데 메모리와 처리시간에서 한계가 있고, 적은 수의 라벨드 데이터(labeled data)에 비해 너무나 많은 언라벨드 데이터(unlabeled data)의 사용은 처리 시간의 증가에 비해 오히려 성능감소를 가져올 수 있다. 이러한 문제들을 극복하기 위해 앙상블 접근법을 이용한 반감독 차원 감소 방법을 제안한다. 문서분류 문제에서의 실험결과를 통해 제안한 방법의 성능을 입증한다.

신용카드 불법현금융통 적발을 위한 축소된 앙상블 모형 (Illegal Cash Accommodation Detection Modeling Using Ensemble Size Reduction)

  • 이화경;한상범;지원철
    • 지능정보연구
    • /
    • 제16권1호
    • /
    • pp.93-116
    • /
    • 2010
  • 불법현금융통 적발모형 개발에 앙상블 접근방법을 사용하였다. 불법현금융통은 국내 신용카드사의 손익에 영향을 미치며 최근 국제화되고 있음에도 불구하고 학문적인 접근이 이루어지지 않았다. 부정행위 적발모형(Fraud Detection Model, FDM)은 데이터 불균형 문제로 인하여 좋은 성능을 얻기 어려운데, 다수의 모형을 결합하는 앙상블이 대안으로 제시되어 왔다. 앙상블에 포함된 모형들의 다양성이 보장된다면 단일모형에 비해 더 좋은 성능을 보인다는 점은 이미 인정되고 있으며, 최근 연구 결과는 학습된 모든 기본모형들을 사용하는 것보다 적절한 기본모형들만 선택하여 앙상블에 포함시키는 것이 바람직하다는 것이다. 본 논문에서는 효과적인 불법현금융통 적발을 위하여 축소된 앙상블 기법을 사용하는데, 정확성과 다양성 척도를 사용하여 앙상블에 참여할 기본모형을 선택하는 것이다. 다양성은 앙상블을 구성하는 기본모형들 사이의 불일치 (Disagreement or Ambiguity)를 의미하는데, FDM에 내재된 데이터 불균형문제를 고려하여 두 가지 측면에 중점을 두었다. 첫째, 학습 자료의 추출 과정에서 다양성을 확보하기 위한 소수 범주의 과잉추출 방법과 적절한 훈련 방법에 대해 설명하였다. 둘째, 소수범주에 초점을 맞추어 기존의 다양성 척도를 효과적인 척도로 변형시키고, 전진추가법과 후진소거법의 동적 다양성 계산법을 도입하여 앙상블에 참여할 기본모형을 평가하였다. 실험에 사용된 학습 알고리즘은 신경망, 의사결정수와 로짓 회귀분석이었으며, 동질적 앙상블과 이질적 앙상블을 구성하여 성능평가를 하였다. 실험결과 불법현금융통 적발모형에 있어 축소된 앙상블은 모든 기본모형이 포함된 앙상블과 성능 차이가 없었다. 축소된 앙상블은 앙상블 구성의 복잡성을 감소시키고 구현을 용이하게 한다는 점에서 FDM에서도 유력한 모형 수립 접근방법이 될 수 있음을 보였다.

확률강우량 산정을 위한 대규모 기후 앙상블 모의자료의 적용 (Application of a large-scale climate ensemble simulation database for estimating the extreme rainfall)

  • 김영규;손민우
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.333-333
    • /
    • 2022
  • 본 연구는 저빈도·고강도의 확률강우량 산정을 위해, 대규모 기후 앙상블 모의실험 기반으로 생성된 d4PDF(Data for Policy Decision Making for Future Change)를 적용하는 것을 목적으로 수행되었다. 또한, d4PDF 를 이용하여 산정된 확률강우량과 관측자료 및 빈도해석을 통해서 산정된 확률강우량을 비교함으로써 빈도해석의 적용에 따라 발생하는 불확실성을 분석하였다. 이와 같은 연구는 용담댐에 위치한 금산, 임실, 전주, 장수 관측소를 대상으로 수행되었다. d4PDF 자료는 총 50 개의 앙상블로 구성되어 있으며, 하나의 앙상블은 60 년 동안의 기상자료를 제공하기 때문에 한 지점에서 3,000 개의 연 최대 일 강우량을 수집 및 활용하는 것이 가능했다. 이와 같은 d4PDF 의 특징을 토대로 본 연구는 빈도해석 방법을 적용하지 않고, 3000 개의 연 최대 일 강수량을 비모수적 접근법(Non-parametric approach)에 따라 규모별로 나열하여, 10 년부터 1000 년의 재현기간을 갖는 확률강우량을 산정했다. 그 후, 관측 자료와 Gumbel 및 GEV(General extreme value) 분포를 토대로 산정된 확률강우량과의 편차를 산정하였다. 그 결과, 재현기간과 관측 기간의 차이가 증가할수록 이 편차가 증가하였으며, 이 결과는 짧은 관측 기간과 빈도해석의 적용은 재현기간이 증가할수록 신뢰하기 어려운 확률강우량을 제시한다는 것을 의미한다. 반면에, d4PDF 는 대규모 표본을 이용함으로써 이와 같은 불확실성을 최소화시켜 합리적인 저빈도·고강도의 확률강우량을 제시하였다.

  • PDF

머신 러닝 접근 방식을 통한 가짜 채용 탐지 (Detecting Fake Job Recruitment with a Machine Learning Approach)

  • 일킨 타히예프;이재흥
    • 스마트미디어저널
    • /
    • 제12권2호
    • /
    • pp.36-41
    • /
    • 2023
  • 지원자 추적 시스템의 등장으로 온라인 채용이 활성화되면서 채용 사기가 심각한 문제로 대두되고 있다. 이 연구는 온라인 채용 환경에서 채용 사기를 탐지할 수 있는 신뢰할 수 있는 모델을 개발하여 비용 손실을 줄이고 개인 사생활 보호를 강화하고자 한다. 이 연구의 주요 기여는 데이터를 탐색적으로 분석하여 얻은 통찰력을 활용하여 어떤 채용 정보가 사기인지, 아니면 합법적인지를 구분할 수 있는 자동화된 방법론을 제공하는데 있다. 캐글에서 제공하는 채용 사기 데이터 집합인 EMSCAD를 사용하여 다양한 단일 분류기 및 앙상블 분류기 기반 머신러닝 모델을 훈련하고 평가하였으며, 그 결과로 앙상블 분류기인 랜덤 포레스트 분류기가 정확도 98.67%, F1 점수 0.81로 가장 좋은 결과를 보이는 것을 알 수 있었다.

Path Loss Prediction Using an Ensemble Learning Approach

  • Beom Kwon;Eonsu Noh
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.1-12
    • /
    • 2024
  • 경로 손실(Path Loss)을 예측하는 것은 셀룰러 네트워크(Cellular Network)에서 기지국(Base Station) 의 설치 위치 선정 등 무선망 설계에 중요한 요인 중 하나다. 기존에는 기지국의 최적 설치 위치를 결정하기 위해 수많은 현장 테스트(Field Tests)를 통해 경로 손실 값을 측정했다. 따라서 측정에 많은 시간이 소요된다는 단점이 있었다. 이러한 문제를 해결하기 위해 본 연구에서는 머신러닝(Machine Learning, ML) 기반의 경로 손실 예측 방법을 제안한다. 특히, 경로 손실 예측 성능을 향상시키기 위해서 앙상블 학습(Ensemble Learning) 접근법을 적용하였다. 부트스트랩 데이터 세트(Bootstrap Dataset)을 활용하여 서로 다른 하이퍼파라미터(Hyperparameter) 구성을 갖는 모델들을 얻고, 이 모델들을 앙상블하여 최종 모델을 구축했다. 인터넷상에 공개된 경로 손실 데이터 세트를 활용하여 제안하는 앙상블 기반 경로 손실 예측 방법과 다양한 ML 기반 방법들의 성능을 평가 및 비교했다. 실험 결과, 제안하는 방법이 기존 방법들보다 우수한 성능을 달성하였으며, 경로 손실 값을 가장 정확하게 예측할 수 있다는 것을 입증하였다.

극한강우량 산정을 위한 대규모 기후 앙상블 모의자료의 적용 (Application of a large-scale ensemble climate simulation database for estimating the extreme rainfall)

  • 김영규;손민우
    • 한국수자원학회논문집
    • /
    • 제55권3호
    • /
    • pp.177-189
    • /
    • 2022
  • 본 연구는 저빈도·고강도의 확률강우량 산정을 위해, 대규모 기후 앙상블 모의실험으로 생성된 d4PDF (Data for Policy Decision Making for Future Change)를 적용하는 것을 목적으로 수행되었다. 또한, d4PDF를 이용하여 산정된 확률강우량과 관측 자료 및 빈도해석을 통해서 산정된 확률강우량을 비교함으로써 빈도해석 과정의 적용에 따라 발생하는 불확실성을 분석하였다. 이와 같은 연구는 금산, 임실, 전주, 장수 관측소를 대상으로 수행되었다. d4PDF 자료는 총 50개의 앙상블로 구성되어있으며, 하나의 앙상블은 60년동안의 기상자료를 제공하기 때문에 한 지점에서 3,000개의 연 최대 일 강우량을 수집하는 것이 가능했다. 이와 같은 d4PDF의 특징을 토대로 본 연구는 빈도해석 방법을 적용하지 않고, 3000개의 연 최대 일강수량을 비모수적 접근법(Non-parametric approach)에 따라 규모별로 나열하여, 10년부터 1000년의 재현기간을 갖는 확률강우량을 산정했다. 그 후, 관측 자료와 Gumbel 및 GEV (General extreme value) 분포를 토대로 산정된 확률강우량과의 편차를 산정하였다. 그 결과, 재현기간과 관측 기간의 차이가 증가할수록 이 편차가 증가하였으며, 이 결과는 짧은 관측 기간과 빈도해석의 적용은 재현기간이 증가할수록 신뢰하기 어려운 확률강우량을 제시한다는 것을 의미한다. 반면에, d4PDF는 대규모 표본을 이용함으로써 이와 같은 불확실성을 최소화시켜 합리적인 저빈도·고강도의 확률강우량을 제시하였다.

앙상블 경험적 모드 분해법을 이용한 도시부 단기 통행속도 예측 (Short-term Prediction of Travel Speed in Urban Areas Using an Ensemble Empirical Mode Decomposition)

  • 김의진;김동규
    • 대한토목학회논문집
    • /
    • 제38권4호
    • /
    • pp.579-586
    • /
    • 2018
  • 단기 통행속도 예측을 위해 데이터 기반 비모수적 기법들을 활용한 다양한 연구들이 수행되고 있다. 그럼에도 교통신호 및 교차로로 인한 복잡한 동적 특성을 가지는 도시부의 예측 연구는 상대적으로 부족한 실정이다. 본 연구는 도시부 통행 속도를 예측하기 위해 앙상블 경험적 모드 분해법(EEMD)과 인공신경망(ANN)을 이용한 하이브리드 접근법을 제안하는 것을 목적으로 한다. EEMD는 통행속도의 시계열 자료를 고유모드함수(IMF)와 오차항으로 분해한다. 분해된 IMF는 시간단위의 국지적 특성을 반영하며, ANN을 통해 개별적으로 예측된다. IMF는 원본데이터가 가진 비선형성, 비정상성, 진동 등의 복잡성을 완화하기 때문에, 원래의 통행속도에 비하여 더 정확하게 예측될 수 있다. 예측된 IMF들은 합산되어 예측 통행속도를 표현한다. 본 연구에서 제시된 방법을 검증하기 위하여 대구시의 DSRC로부터 구득된 통행속도 데이터가 활용된다. 성능평가는 도시부 링크 중 특히 예측이 어려운 지점에 대해 수행되었으며, 분석 결과 제시된 모형은 15분 후 예측에 대해 각각 평상시 10.41%, 와해상태시 25.35%의 오차율을 가지며, 단순 ANN 기법에 비하여 우수한 성능을 보이는 것으로 확인된다. 본 연구에서 개발된 모형은 도시교통관리체계의 신뢰성 있는 교통정보를 제공하는 데에 기여할 수 있을 것으로 기대된다.

인공신경망 모델을 이용한 지천유입이 있는 대하천의 수질예측 (Prediction of Water Quality in Large Rivers with Tributary Input using Artificial Neural Network Model)

  • 서일원;윤세훈;정성현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.45-45
    • /
    • 2018
  • 오염물의 혼합거동을 해석하기 위해 물리기반 모델을 이용하는 경우 모델을 구축하고 운용하는데 많은 시간과 재정이 소요되며 현장검증을 통한 검증이 반드시 필요하다. 하지만 데이터 기반 모델의 경우 축적된 데이터만으로도 예측을 수행할 수 있으며 물리기반모델에 비해 결정해야할 입력인자가 적어 모델운용이 용이하다는 장점이 있다. 다양한 데이터 모델 중 인공신경망(ANN) 모델은 데이터가 가지는 불확실성 및 비정상성, 복잡한 상호관련성에 효과적으로 대응할 수 있는 모델로 수자원 및 환경 분야에서 자주 사용되고 있다. 본 연구에서는 인공신경망 모델을 이용하여 지천유입이 있는 대하천의 수질인자 (pH, 전기전도도, DO, chl-a)를 예측하였다. 다른 데이터기반 모델과 같이 인공신경망 모델 또한 수집된 데이터 질에 크게 영향을 받으며, 내부 입력인자의 선택이 모델의 예측 결과에 큰 영향을 미친다. 이러한 인공신경망 모델의 특성을 바탕으로 예측모형의 정확도를 향상하기 위해서는 크게 데이터 처리부분과 모델구축 부분에서의 접근이 필요하다. 본 연구에서는 데이터 처리 과정에서 연구대상지점의 각각의 수질인자가 가지는 분포 특성을 유지하기 위해 층화표츨추출법을 이용하여 데이터를 구성하였다. 모델의 구축 과정에서는 초기가중치 값의 영향을 줄이기 위해 앙상블기법을 사용하였으며, 좀 더 견고하고 정확한 결과를 예측하기 위해 탄력적 역전파알고리즘을 추가하였다. 추가적으로 합류 후 본류의 미 계측지역 수질 예측 정확도 향상을 위해 본류의 수질인자뿐만 아니라 지류의 수질인자를 입력자료로 사용하여 모의를 수행하였다. 또한 동일 구간에서 수행한 현장추적자실험 자료를 이용하여 수질인자의 분포특성을 비교, 검증하였다. 개발된 모델을 이용하여 낙동강과 금호강 합류부 하류의 수질인자를 예측한 결과 지류의 수질인자를 입력자료로 추가한 경우 예측의 정확도가 증가하였으며, 현장실험 자료를 통해 밝혀진 오염물의 거동현상을 인공신경망 모델로도 동일하게 재현하는 것으로 나타났다. 본 연구에서 제안한 인공신경모델을 이용한다면 물리기반 수치모델을 대체하여 지천으로 유입된 오염물의 거동을 정확하고 효율적으로 파악할 수 있을 것이다.

  • PDF