• 제목/요약/키워드: imbalanced data

검색결과 162건 처리시간 0.03초

동북아시아 국가의 석유정제설비의 상대적 효율성 분석 (A Study on the Analysis of the Relative Efficiency of Northeast Asian Country's oil Refinery Facilities)

  • 이충배;김정환;강효원
    • 통상정보연구
    • /
    • 제14권3호
    • /
    • pp.209-227
    • /
    • 2012
  • 글로벌 금융위기의 진원지인 동북아시아 지역은 전통적으로 석유의 생산 및 소비 불균형이 심화된 지역이며, 최근에는 급증하는 석유거래로 인해 저장 및 수송설비의 부족현상까지 겪고 있어 안정적 석유 공급을 위협하고 있다. 따라서 동북아시아 지역 내 독립적인 석유물류허브 기능을 갖춘 시설과 석유거래의 기능까지 담당할 수 있는 시장의 형성이 요구되고 있다. 본 연구에서는 동북아 지역의 석유물류허브 구축 후보 국가를 대상으로 한 석유산업 관련 설비인 정제시설의 정태적 및 동태적 효율성 분석을 통해 시사점을 도출하였다. 동북아 역내 주요 국가들의 석유정제설비의 효율성은 우리나라가 가장 높은 것으로 나타났으며 우리나라가 동북아시아 지역의 석유물류거점의 역할을 수행하기 위해서는 정부의 적극적인 정책지원이 필요하다.

  • PDF

다중분광밴드 위성영상의 작물재배지역 추출을 위한 Attention Gated FC-DenseNet (Attention Gated FC-DenseNet for Extracting Crop Cultivation Area by Multispectral Satellite Imagery)

  • 성선경;모준상;나상일;최재완
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.1061-1070
    • /
    • 2021
  • 본 연구에서는 국내 농업지역에 대한 작물재배지역의 분류를 위하여 FC-DenseNet 모델에 attention gate를 적용하여 딥러닝 모델의 성능을 향상시키고자 하였다. Attention gate는 특징맵의 공간/분광적 중요도에 따른 가중치를 추가적으로 학습하여 딥러닝 모델의 학습을 용이하게 하고, 모델의 성능을 향상시킬 수 있다. Attention gate를 FC-DenseNet의 스킵 연결 부분에 추가한 딥러닝 모델을 이용하여 양파 및 마늘 지역의 작물분류를 수행하였다. PlanetScope 위성영상을 이용하여 훈련자료를 제작하였으며, 훈련자료의 불균형 문제를 해결하기 위하여 전처리 과정을 적용하였다. 다양한 평가자료를 이용하여 작물재배분류 결과를 평가한 결과, 제안된 딥러닝 모델은 기존의 FC-DenseNet과 비교하여 효과적으로 양파 및 마늘 지역을 분류할 수 있는 것을 확인하였다.

고학력 인적 자본의 공간적 분포에 미치는 요인분석 - 석·박사 집단을 중심으로 - (Analysis of Factors Affecting the Spatial Distribution of Highly Educated Human Capital: Focusing on Master's and Doctorate Group)

  • 김소영;김동현
    • 한국지리정보학회지
    • /
    • 제24권2호
    • /
    • pp.64-77
    • /
    • 2021
  • 본 연구의 목적은 고학력 인적 자본 집단의 공간적 분포를 살펴보고 공간적 분포에 미치는 영향요인을 파악하는 것이다. 본 연구는 지니계수와 탐색적 공간자료분석을 통해 불균형과 공간적 집중정도를 살펴보았으며 공간회귀모형을 통해 고학력 인적 자본 집단의 분포에 미치는 경제적 요인과 어메너티 요인의 영향 정도를 확인하였다. 분석결과, 석·박사 집단 고학력 인적 자본은 불균등하게 분포하고 있으며 수도권을 중심으로 충남 및 강원 일부지역에서 군집을 형성하고 있는 것으로 나타났다. 석·박사 집단 고학력 인적 자본의 분포에 영향을 미치는 영향요인은 경제적 요인이 강하게 작용하고 있었다. 어메너티 요인은 석·박사 집단 고학력 인적 자본의 분포의 영향요인으로서 큰 역할을 하지 못하는 것으로 나타났다. 본 연구의 결과는 인적 자본을 유입하고자 하는 지역경제개발 정책에 있어 시사점이 있다.

높은 정확도를 위한 이미지 전처리와 앙상블 기법을 결합한 이미지 기반 악성코드 분류 시스템에 관한 연구 (A Study on the Image-Based Malware Classification System that Combines Image Preprocessing and Ensemble Techniques for High Accuracy)

  • 김해수;김미희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권7호
    • /
    • pp.225-232
    • /
    • 2022
  • 최근 정보통신 기술의 발전이 많은 이에게 이점이 되고 있지만, 그와 동시에 새로운 프로그램의 취약점을 통해 악의적 공격 시도 또한 증가하고 있다. 악의적 공격 중 악성코드는 다양한 방식으로 동작하며 매번 새로운 방식으로 사람들에게 유포되고 이러한 악성코드들을 해결하기 위해 발견된 악성코드를 빠르게 분석하여 방어기법을 제공해야 한다. 새로운 악성코드를 기존 악성코드와 동일한 종류로 분류할 수 있다면 동작의 유사성을 가진 악성코드들의 분석된 특징을 이용해 새로운 악성코드의 방어기법을 제공할 수 있다. 따라서 악성코드를 정확하고 빠르게 분류하는 방법이 있어야 한다. 또한, 분석된 악성코드들의 패밀리 마다 데이터의 개수가 균일하지 않을 수 있으므로 이에 대한 해결방안이 필요하다. 본 논문에서는 이미지 전처리 기법과 앙상블 기법을 결합하여 개수가 균일하지 않은 데이터에서 정확도를 높이는 시스템을 제안한다.

제2형 당뇨병 환자의 영양섭취와 당뇨 합병증 위험도 (Nutritional Intake Status according to the Risk of Diabetic Complications in Type 2 Diabetes Patients)

  • 이상은;이해정;박가은;이대은;이민진;강아름
    • Journal of Korean Biological Nursing Science
    • /
    • 제24권3호
    • /
    • pp.171-180
    • /
    • 2022
  • Purpose: The purpose of this study was to investigate the nutritional intake status, according to the risk of diabetic complications in Type 2 diabetes patients. Methods: This was a secondary data analysis study that included 83 patients. The nutritional intake was assessed, using 24-hour dietary recall. The risk of diabetic complications was measured, using the Framingham Risk Score (FRS) and Michigan Neuropathy Screening Instrument Questionnaire (MNSIQ). The nutritional intake was analyzed using the CAN-pro 4.0 program. Data were analyzed using descriptive statistics, Chi-square test, and Independent t-test, using the SPSS WIN 26.0 program. Results: The mean FRS and MNSIQ scores for the participants was 14.46± 4.09 and 2.30± 2.22, respectively. Thirty two participants (38.6%) were in the high-risk groups for cardiovascular disease and peripheral neuropathy. The participants consumed high amounts of grain and low amounts of vegetables, fruits, and dairy products when compared to the recommended intake. However, the nutritional intake did not differ according to FRS or MNSIQ levels. Consumption of vegetables and fruits were significantly different between high and low risk groups of MNSIQ. Conclusion: It is necessary to consider the composition of dietary intake to improve the imbalanced diet in Type 2 diabetes patients and prevent diabetic complications. Type 2 diabetes patients should reduce the intake of grains and sodium, and increase vegetable intake. More deliberate future studies are needed, to investigate the relationship between food intake and the risk status for diabetic complication.

혼합샘플링 기법을 사용한 랜섬웨어탐지 성능향상에 관한 연구 (A study on the improvement ransomware detection performance using combine sampling methods)

  • 김수철;이형동;변경근;신용태
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.69-77
    • /
    • 2023
  • 최근 아일랜드 보건당국, 미(美) 송유관 등 전(全) 세계적으로 랜섬웨어 피해가 급증하고 있으며, 사회 모든 분야에 피해를 입히고 있다. 특히, 랜섬웨어 탐지 및 대응에 기존의 탐지방법뿐 아니라 머신러닝 등을 이용한 연구가 늘어 나고 있다. 하지만, 전통적인 머신러닝은 모델이 데이터가 많은 쪽으로 예측하는 경향이 강해 정확한 예측값을 추출하기 어려운 문제점이 있다. 이에 다수(Majority)의 Non-Ransomware(정상코드 또는 멀웨어)와 소수의(Minority) Ransomware로 구성된 불균형(Imbalance) 클래스에서 샘플링 기법을 통해 불균형을 해소하고 랜섬웨어탐지 성능을 향상시키는 기법을 제안하였다. 본 실험에서는 두가지 시나리오(Binary, Multi Classification)을 사용하여 샘플링 기법이 다수 클래스의 탐지 성능을 유지하면서 소수 클래스의 탐지 성능을 개선함을 확인하였다. 특히, 제안된 혼합샘플링 기법(SMOTE+ENN)이 10% 이상의 성능(G-mean, F1-score) 향상을 도출했다.

대용량 LiDAR 데이터 보간을 위한 MPI 격자처리 과정의 작업량 발란싱 기법 (Task Balancing Scheme of MPI Gridding for Large-scale LiDAR Data Interpolation)

  • 김선영;이희진;박승규;오상윤
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.1-10
    • /
    • 2014
  • 본 논문은 MPI를 이용하여 LiDAR 데이터를 처리하는 방식에서 각 코어간의 통신을 최소화하고 작업량 발란싱을 위해 격자크기를 다양하게 하여 LiDAR 데이터의 보간 처리 성능을 향상시키는 기법을 제안한다. 항공기 등을 통해 얻어진 LiDAR 데이터는 3차원 공간정보로서 정밀한 관측 성능과 거리 정보를 포함하여 지리정보, 기상관측 등 다양한 분야에 활용되고 있다. 하지만 필요보다 높은 해상도의 데이터를 사용하거나, 비지표정보를 포함하는 경우를 위해 획득된 LiDAR 데이터를 필터링 하여 사용하게 되며, 필터링된 데이터를 사용하기 위해서는 주변을 탐색할 수 있는 자료구조를 이용해서 보간법을 수행하여야만 데이터가 재구성된다. 데이터의 규모에 비례하여 처리시간도 증가하기 때문에 이를 해결하기 위해 MPI를 이용한 고성능 병렬 처리 방식 연구가 활발히 진행되고 있다. 그러나 기존에 병렬 처리를 사용한 기존의 방식은 각 노드에 할당된 데이터의 밀도가 달라 성능 저하가 생길 수 있으며, 경계값 불일치를 해결하기 위해 노드간의 통신이 많아지는 단점을 가진다. 제안한 방법의 효과를 검증하기 위해 기존 연구에서 제안된 방식들과 처리 성능을 비교하였으며, 데이터에 따라 최대 4.2배의 실행시간 단축되는 것을 확인하였다.

오토인코더 기반의 외부망 적대적 사이버 활동 징후 감지 (Detection of Signs of Hostile Cyber Activity against External Networks based on Autoencoder)

  • 박한솔;김국진;정재영;장지수;윤재필;신동규
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.39-48
    • /
    • 2022
  • 전 세계적으로 사이버 공격은 계속 증가해 왔으며 그 피해는 정부 시설을 넘어 민간인들에게 영향을 미치고 있다. 이러한 문제로 사이버 이상징후를 조기에 식별하여 탐지할 수 있는 시스템 개발의 중요성이 강조되었다. 위와 같이, 사이버 이상징후를 효과적으로 식별하기 위해 BGP(Border Gateway Protocol) 데이터를 머신러닝 모델을 통해 학습하고, 이를 이상징후로 식별하는 여러 연구가 진행되었다. 그러나 BGP 데이터는 이상 데이터가 정상 데이터보다 적은 불균형 데이터(Imbalanced data)이다. 이는, 모델에 학습이 편향된 결과를 가지게 되어 결과에 대한 신뢰성을 감소시킨다. 또한, 실제 사이버 상황에서 보안 담당자들이 머신러닝의 정형적인 결과로 사이버 상황을 인식시킬 수 없는 한계도 존재한다. 따라서 본 논문에서는 전 세계 네트워크 기록을 보관하는 BGP(Border Gateway Protocol)를 조사하고, SMOTE(Synthetic Minority Over-sampling Technique) 활용해 불균형 데이터 문제를 해결한다. 그 후, 사이버 공방(Cyber Range) 상황을 가정하여, 오토인코더를 통해 사이버 이상징후 분류하고 분류된 데이터를 가시화한다. 머신러닝 모델인 오토인코더는 정상 데이터의 패턴을 학습시켜 이상 데이터를 분류하는 성능을 92.4%의 정확도를 도출했고 보조 지표도 90%의 성능을 보여 결과에 대한 신뢰성을 확보한다. 또한, 혼잡한 사이버 공간을 가시화하여 효율적으로 상황을 인식할 수 있기에 사이버 공격에 효과적으로 방어할 수 있다고 전망된다.

부도 예측 모형 연구: 부도 데이터의 불균형 문제를 중심으로 (A Study on Default Prediction Model: Focusing on The Imbalance Problem of Default Data)

  • 박진수;이강배;조용복
    • 경영정보학연구
    • /
    • 제26권2호
    • /
    • pp.169-183
    • /
    • 2024
  • 본 연구는 부도 예측 모형을 구축할 때 반드시 고려해야 하는 관측된 부도 데이터의 불균형 문제에 대한 개선 방안을 정리하고, 데이터 리샘플링 기법과 부도 임계치 조정에 따른 모형의 성능 개선 효과를 비교 분석한다. 실증분석 결과 데이터의 불균형 해소 수준이 높을수록, 그리고 모형의 부도 임계치가 낮을수록 모형의 민감도가 개선되는 것을 발견하였으며, 데이터의 불균형 해소 수준이 낮을수록, 그리고 모형의 부도 임계치가 높을수록 모형의 정밀도가 개선되는 것을 발견하였다. 또한 민감도 또는 정밀도 중 한 가지 지표만을 중심으로 불균형 문제를 개선할 경우, 상충 관계로 인해 나머지 성능 평가 지표가 지나치게 낮아지는 현상을 확인하였다. 본 연구는 기존 선행 연구와는 달리 부도 데이터의 불균형 문제 개선 방안과 부도 예측 모형의 성능 개선 효과의 관계에 초점을 두고 있다는 점에서 시사점을 찾을 수 있다. 또한 부도 예측 모형의 실무적 활용도 제고를 위해 모형의 활용 목적에 따라 불균형 문제 개선 방안을 달리 적용하는 것이 바람직하며, 모형의 주된 성능 평가 지표로는 Fβ Score를 활용해야 할 필요가 있음을 확인하였다.

효과적인 기업부도 예측모형을 위한 ROSE 표본추출기법의 적용 (Application of Random Over Sampling Examples(ROSE) for an Effective Bankruptcy Prediction Model)

  • 안철휘;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.525-535
    • /
    • 2018
  • 분류 문제에서 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 경우, 왜곡된 기계 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 기업부도 예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 이러한 데이터 불균형 문제를 해결하기 위해서는 적절한 표본추출 기법이 적용될 필요가 있으며, 지금껏 소수 범주 데이터를 복원 추출함으로써 다수 범주 데이터와 비율을 맞추어 데이터 불균형을 해결하는 오버 샘플링(oversampling) 기법이 주로 활용되어 왔다. 그러나 전통적인 오버 샘플링은 과적합화(overfitting)가 발생할 위험이 높아질 수 있는 단점이 있다. 이러한 배경에서 본 연구는 효과적인 기업부도 예측 모형 학습을 위한 표본추출 기법으로 2014년에 Menardi와 Torelli가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 학습에 사용될 사례를 반복적으로 새롭게 합성하여 생성(synthetic generation)하는 기법으로, 과적합화 문제를 회피하면서도 분류 예측 정확도 개선에 도움을 줄 수 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 이분류기로 알려진 SVM(support vector machine)과 결합하여 국내 한 대형 은행의 기업부도 예측에 적용해 보고, 다른 표본추출 기법들과의 비교연구를 수행하였다. 실험 결과, ROSE 기법이 다른 기법에 비해 통계적으로 유의한 수준으로 SVM의 예측정확도 개선에 기여할 수 있음을 확인하였다. 이러한 본 연구의 결과는 부도예측 외에 다른 사회과학 분야 예측문제의 데이터 불균형 문제 해결에도 ROSE가 우수한 대안이 될 수 있다는 사실을 시사한다.