• Title/Summary/Keyword: 불균형데이터 처리

Search Result 115, Processing Time 0.029 seconds

Comprehensive analysis of deep learning-based target classifiers in small and imbalanced active sonar datasets (소량 및 불균형 능동소나 데이터세트에 대한 딥러닝 기반 표적식별기의 종합적인 분석)

  • Geunhwan Kim;Youngsang Hwang;Sungjin Shin;Juho Kim;Soobok Hwang;Youngmin Choo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.42 no.4
    • /
    • pp.329-344
    • /
    • 2023
  • In this study, we comprehensively analyze the generalization performance of various deep learning-based active sonar target classifiers when applied to small and imbalanced active sonar datasets. To generate the active sonar datasets, we use data from two different oceanic experiments conducted at different times and ocean. Each sample in the active sonar datasets is a time-frequency domain image, which is extracted from audio signal of contact after the detection process. For the comprehensive analysis, we utilize 22 Convolutional Neural Networks (CNN) models. Two datasets are used as train/validation datasets and test datasets, alternatively. To calculate the variance in the output of the target classifiers, the train/validation/test datasets are repeated 10 times. Hyperparameters for training are optimized using Bayesian optimization. The results demonstrate that shallow CNN models show superior robustness and generalization performance compared to most of deep CNN models. The results from this paper can serve as a valuable reference for future research directions in deep learning-based active sonar target classification.

Cache Management Method for Query Forwarding Optimization in the Grid Database (그리드 데이터베이스에서 질의 전달 최적화를 위한 캐쉬 관리 기법)

  • Shin, Soong-Sun;Jang, Yong-Il;Lee, Soon-Jo;Bae, Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.1
    • /
    • pp.13-25
    • /
    • 2007
  • A cache is used for optimization of query forwarding in the Grid database. To decrease network transmission cost, frequently used data is cached from meta database. Existing cache management method has a unbalanced resource problem, because it doesn't manage replicated data in each node. Also, it increases network cost by cache misses. In the case of data modification, if cache is not updated, queries can be transferred to wrong nodes and it can be occurred others nodes which have same cache. Therefore, it is necessary to solve the problems of existing method that are using unbalanced resource of replica and increasing network cost by cache misses. In this paper, cache management method for query forwarding optimization is proposed. The proposed method manages caches through cache manager. To optimize query forwarding, the cache manager makes caching data from lower loaded replicated node. The query processing cost and the network cost will decrease for the reducing of wrong query forwarding. The performance evaluation shows that proposed method performs better than the existing method.

  • PDF

Prediction of Protein-Protein Interaction Sites Based on 3D Surface Patches Using SVM (SVM 모델을 이용한 3차원 패치 기반 단백질 상호작용 사이트 예측기법)

  • Park, Sung-Hee;Hansen, Bjorn
    • The KIPS Transactions:PartD
    • /
    • v.19D no.1
    • /
    • pp.21-28
    • /
    • 2012
  • Predication of protein interaction sites for monomer structures can reduce the search space for protein docking and has been regarded as very significant for predicting unknown functions of proteins from their interacting proteins whose functions are known. In the other hand, the prediction of interaction sites has been limited in crystallizing weakly interacting complexes which are transient and do not form the complexes stable enough for obtaining experimental structures by crystallization or even NMR for the most important protein-protein interactions. This work reports the calculation of 3D surface patches of complex structures and their properties and a machine learning approach to build a predictive model for the 3D surface patches in interaction and non-interaction sites using support vector machine. To overcome classification problems for class imbalanced data, we employed an under-sampling technique. 9 properties of the patches were calculated from amino acid compositions and secondary structure elements. With 10 fold cross validation, the predictive model built from SVM achieved an accuracy of 92.7% for classification of 3D patches in interaction and non-interaction sites from 147 complexes.

A Study on Optimizing Disk Utilization of Software-Defined Storage (소프트웨어 정의 스토리지의 디스크 이용을 최적화하는 방법에 관한 연구)

  • Lee Jung Il;Choi YoonA;Park Ju Eun;Jang, Minyoung
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.12 no.4
    • /
    • pp.135-142
    • /
    • 2023
  • Recently, many companies are using public cloud services or building their own data center because digital transformation is expanding. The software-defined storage is a key solution for storing data on the cloud platform and its use is expanding worldwide. Software-defined storage has the advantage of being able to virtualize and use all storage resources as a single storage device and supporting flexible scale-out. On the other hand, since the size of an object is variable, an imbalance occurs in the use of the disk and may cause a failure. In this study, a method of redistributing objects by optimizing disk weights based on storage state information was proposed to solve the imbalance problem of disk use, and the experimental results were presented. As a result of the experiment, it was confirmed that the maximum utilization rate of the disk decreased by 10% from 89% to 79%. Failures can be prevented, and more data can be stored by optimizing the use of disk.

A Data Fusion Algorithm for Link Travel Time Estimation (링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발)

  • 최기수;정연식
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.2
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

A Study on Cluster Head Scheduling Scheme in Wireless Sensor Network (무선 센서 네트워크에서의 클러스터 헤드 스케줄링 기법에 관한 연구)

  • Lee, Jun-Ho;Kang, Dong-Min;Kim, Seung-Hwan;Park, Seon-Ho;Chung, Tai-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.139-142
    • /
    • 2010
  • 클러스터 기반의 무선 센서 네트워크는 데이터를 병합하여 전송함으로써 에너지를 효율적으로 사용할 수 있다. 하지만 데이터를 병합하는 클러스터 헤드에 집중된 부하로 인해 센서노드 간 에너지 불균형이 발생하게 된다. 에너지가 고갈되어 가는 센서노드는 클러스터 헤드 선출기간에 필요한 메시지 전송에 따른 에너지 소모가 부담이 된다. 본 논문에서는 센서노드의 에너지가 고갈되어 갈 때 클러스터 선출에 발생하는 에너지 소모를 감소시키기 위해 클러스터 헤드 스케줄링 기법(Cluster Head Scheduling Scheme:CHSS)을 제안한다.

Extracting English-Korean Named-Entity Word-pairs using Wikipedia (위키피디아를 이용한 영-한 개체명 대역어 쌍 구축)

  • Kim, Eun-Kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

An Efficient Cluster Management Scheme Using Wireless Power Transfer for Solar-powered Wireless Sensor Networks with a Mobile Sink (모바일 싱크 기반의 태양 에너지 수집형 무선 센서 네트워크에서 무선 전력 전송을 이용한 효율적인 클러스터 관리 기법)

  • Son, Youngjae;Kang, Minjae;Go, Junghyun;Noh, Dong Kun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.370-371
    • /
    • 2019
  • 태양 에너지 수집형 무선 센서 네트워크는 지속해서 에너지를 수집할 수 있어 배터리 기반 센서 네트워크의 에너지 제약 문제를 완화할 수 있지만, 고정된 싱크의 사용으로 싱크 주변에 존재하는 노드들이 상대적으로 에너지 소비가 증가하는 문제, 즉 에너지 사용 불균형 문제는 해결하지 못한다. 최근의 연구에서는 클러스터링을 기반으로 한 모바일 싱크를 도입하여 이를 해결하고자 했지만, 클러스터 헤드 및 그 주변 노드들의 에너지 부담은 여전히 존재한다. 한편, 무선 전력 전송 기술 발전에 따라 무선 센서 네트워크에서 모바일 싱크를 이용한 무선 전력 전송의 연구가 활발히 이루어지고 있다. 따라서 본 논문에서는 무선 전력 전송이 가능한 모바일 싱크와 효율적인 클러스터링 기법(클러스터 헤드 선출 포함)을 이용하여 에너지 불균형 문제를 최소화하는 기법을 제안한다. 제안 기법은 클러스터 헤드 및 헤드 주변 노드의 에너지 핫 스팟이 완화됨으로, 전체 네트워크의 정전 노드들이 감소하고 수집된 데이터양이 증가한 것을 성능평가를 통해 확인할 수 있다.

Consensus-Based Distributed Algorithm for Optimal Resource Allocation of Power Network under Supply-Demand Imbalance (수급 불균형을 고려한 전력망의 최적 자원 할당을 위한 일치 기반의 분산 알고리즘)

  • Young-Hun, Lim
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.15 no.6
    • /
    • pp.440-448
    • /
    • 2022
  • Recently, due to the introduction of distributed energy resources, the optimal resource allocation problem of the power network is more and more important, and the distributed resource allocation method is required to process huge amount of data in large-scale power networks. In the optimal resource allocation problem, many studies have been conducted on the case when the supply-demand balance is satisfied due to the limitation of the generation capacity of each generator, but the studies considering the supply-demand imbalance, that total demand exceeds the maximum generation capacity, have rarely been considered. In this paper, we propose the consensus-based distributed algorithm for the optimal resource allocation of power network considering the supply-demand imbalance condition as well as the supply-demand balance condition. The proposed distributed algorithm is designed to allocate the optimal resources when the supply-demand balance condition is satisfied, and to measure the amount of required resources when the supply-demand is imbalanced. Finally, we conduct the simulations to verify the performance of the proposed algorithm.

Gender Prediction and Precision Inference Method based on the naive Bayesian (나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법)

  • Kwon, TaeWon;Lee, Euijong;Baik, Doo-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.