• 제목/요약/키워드: 불균형데이터 처리

검색결과 115건 처리시간 0.033초

소량 및 불균형 능동소나 데이터세트에 대한 딥러닝 기반 표적식별기의 종합적인 분석 (Comprehensive analysis of deep learning-based target classifiers in small and imbalanced active sonar datasets)

  • 김근환;황용상;신성진;김주호;황수복;추영민
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.329-344
    • /
    • 2023
  • 본 논문에서는 소량 및 불균형 능동소나 데이터세트에 적용된 다양한 딥러닝 기반 표적식별기의 일반화 성능을 종합적으로 분석하였다. 서로 다른 시간과 해역에서 수집된 능동소나 실험 데이터를 이용하여 두 가지 능동소나 데이터세트를 생성하였다. 데이터세트의 각 샘플은 탐지 처리 이후 탐지된 오디오 신호로부터 추출된 시간-주파수 영역 이미지이다. 표적식별기의 신경망 모델은 다양한 구조를 가지는 22개의 Convolutional Neural Networks(CNN) 모델을 사용하였다. 실험에서 두 가지 데이터세트는 학습/검증 데이터세트와 테스트 데이터세트로 번갈아 가며 사용되었으며, 표적식별기 출력의 변동성을 계산하기 위해 학습/검증/테스트를 10번 반복하고 표적식별 성능을 분석하였다. 이때 학습을 위한 초매개변수는 베이지안 최적화를 이용하여 최적화하였다. 실험 결과 본 논문에서 설계한 얕은 층을 가지는 CNN 모델이 대부분의 깊은 층을 가지는 CNN 모델보다 견실하면서 우수한 일반화 성능을 가지는 것을 확인하였다. 본 논문은 향후 딥러닝 기반 능동소나 표적식별 연구에 대한 방향성을 설정할 때 유용하게 사용될 수 있다.

그리드 데이터베이스에서 질의 전달 최적화를 위한 캐쉬 관리 기법 (Cache Management Method for Query Forwarding Optimization in the Grid Database)

  • 신숭선;장용일;이순조;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.13-25
    • /
    • 2007
  • 그리드 데이터베이스에서는 질의 전달 최적화를 위해 캐쉬를 사용한다. 캐쉬에 빈번히 사용되는 데이터의 메타 정보를 메타 데이터베이스에서 가져와 캐싱하며, 캐싱된 정보를 통하여 질의 전달의 비용을 감소시킨다. 기존의 캐쉬 관리 기법은 질의 전달 시 복제본의 사용빈도를 고려하지 않은 데이터의 임의의 메타 정보를 캐싱하기 때문에 사용이 불균형적인 문제가 있다. 그리고, 원본 데이터가 변경되었을 경우에 기존의 메타정보를 가진 캐쉬를 통하여 질의가 타 노드로 잘못 전달되며 이러한 과정은 여러 노드에서 반복 수행되어 네트워크 비용을 증가시킨다. 따라서 기존의 캐쉬 관리 기법은 복제본의 사용비율 불균형과 타 노드로의 잘못된 질의 전달로 인한 네트워크 비용 증가 문제의 해결이 필요하다. 본 논문에서는 질의 전달 최적화를 위한 캐쉬 관리 기법을 제안한다. 제안 기법은 캐쉬 매니저라는 관리 프로세서를 사용하여 캐쉬를 관리한다. 캐쉬 매니저는 자주 사용되는 복제본이 저장된 노드의 사용빈도를 비교하여 적게 사용된 노드의 복제본 메타 정보를 캐싱함으로써 질의 전달을 최적화한다. 또한 캐쉬 매니저를 통해 타 노드로 잘못 전달되는 질의를 줄여 질의 처리 시간을 단축하고 네트워크 비용을 줄인다. 제안 기법은 성능평가를 통해 네트워크 비용과 처리시간이 감소되어 기존의 방식에 비하여 향상된 성능을 보인다.

  • PDF

SVM 모델을 이용한 3차원 패치 기반 단백질 상호작용 사이트 예측기법 (Prediction of Protein-Protein Interaction Sites Based on 3D Surface Patches Using SVM)

  • 박성희
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.21-28
    • /
    • 2012
  • 모노머 단백질의 상호작용 사이트 예측은 기능을 알지 못하는 단백질에 대해서 이것과 상호작용하는 단백질로부터 기능을 예측하거나 단백질 도킹을 위한 검색 공간의 감소에 중요한 역할을 한다. 그러나 상호작용사이트 예측은 대부분 단백질 상호작용이 세포 내에서 순간적 반응에 일어나는 약한 상호작용으로 실험에 의한 3차원 결정 구조 식별의 어려움이 따르며 이로 인해 3차원의 복합체 데이터가 제한적으로 양산된다. 이 논문에서는 모노머 단백질의 3차원 패치 계산을 통하여 구조가 알려진 복합체의 상호작용사이트와 비상호작용사이트에 대한 패치 속성을 추출하고 이를 기반으로 Support Vector Machine (SVM) 분류기법을 이용한 예측 모델 개발을 제시한다. 타겟 클래스의 데이터 불균형 문제 해결을 위해 under-sampling 기법을 이용한다. 사용된 패치속성은 2차 구조 요소와 아미노산 구성으로부터 총 9개가 추출된다. 147개의 단백질 복합체에 대해서 10 fold cross validation을 통해서 다양한 분류모델의 성능 평가를 하였다. 평가한 분류 모델 중 SVM은 92.7%의 높은 정확성을 보이고 이를 이용하여 분류 모델을 개발하였다.

소프트웨어 정의 스토리지의 디스크 이용을 최적화하는 방법에 관한 연구 (A Study on Optimizing Disk Utilization of Software-Defined Storage)

  • 이정일;최윤아;박주은;장민영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권4호
    • /
    • pp.135-142
    • /
    • 2023
  • 최근에는 디지털 변환이 확대됨에 따라 많은 기업들이 퍼블릭 클라우드 서비스를 이용하거나 자체 데이터센터를 구축하고 있다. 소프트웨어 정의 스토리지는 클라우드 플랫폼에서 데이터를 저장하기 위한 핵심적인 솔루션으로 전세계적으로 이용이 확대되고 있다. 소프트웨어 정의 스토리지는 전체 스토리지 자원을 하나의 저장장치와 같이 가상화하여 사용할 수 있고 유연한 Scale-out을 지원하는 장점이 있는 반면에, 가변 크기의 오브젝트 방식으로 인한 디스크의 이용에 불균형이 발생하고, 장애를 유발할 수 있다. 본 연구에서는 디스크 이용의 불균형 문제를 해결하기 위하여 스토리지의 상태정보를 바탕으로 디스크의 가중치를 최적화하여 오브젝트를 재분배하는 방법에 대하여 제안하고, 그 실험 결과를 제시하였다. 실험을 수행한 결과, 디스크의 최대 이용률이 89%에서 79%로 10%만큼 감소한 것을 확인하였다. 디스크의 이용률을 최적화함으로써 장애를 예방하고, 더 많은 데이터를 균등하게 저장할 수 있어 효율적인 스토리지 이용이 가능할 것으로 기대된다.

링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발 (A Data Fusion Algorithm for Link Travel Time Estimation)

  • 최기수;정연식
    • 대한교통학회지
    • /
    • 제16권2호
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

무선 센서 네트워크에서의 클러스터 헤드 스케줄링 기법에 관한 연구 (A Study on Cluster Head Scheduling Scheme in Wireless Sensor Network)

  • 이준호;강동민;김승환;박선호;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.139-142
    • /
    • 2010
  • 클러스터 기반의 무선 센서 네트워크는 데이터를 병합하여 전송함으로써 에너지를 효율적으로 사용할 수 있다. 하지만 데이터를 병합하는 클러스터 헤드에 집중된 부하로 인해 센서노드 간 에너지 불균형이 발생하게 된다. 에너지가 고갈되어 가는 센서노드는 클러스터 헤드 선출기간에 필요한 메시지 전송에 따른 에너지 소모가 부담이 된다. 본 논문에서는 센서노드의 에너지가 고갈되어 갈 때 클러스터 선출에 발생하는 에너지 소모를 감소시키기 위해 클러스터 헤드 스케줄링 기법(Cluster Head Scheduling Scheme:CHSS)을 제안한다.

위키피디아를 이용한 영-한 개체명 대역어 쌍 구축 (Extracting English-Korean Named-Entity Word-pairs using Wikipedia)

  • 김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

모바일 싱크 기반의 태양 에너지 수집형 무선 센서 네트워크에서 무선 전력 전송을 이용한 효율적인 클러스터 관리 기법 (An Efficient Cluster Management Scheme Using Wireless Power Transfer for Solar-powered Wireless Sensor Networks with a Mobile Sink)

  • 손영재;강민재;고정현;노동건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.370-371
    • /
    • 2019
  • 태양 에너지 수집형 무선 센서 네트워크는 지속해서 에너지를 수집할 수 있어 배터리 기반 센서 네트워크의 에너지 제약 문제를 완화할 수 있지만, 고정된 싱크의 사용으로 싱크 주변에 존재하는 노드들이 상대적으로 에너지 소비가 증가하는 문제, 즉 에너지 사용 불균형 문제는 해결하지 못한다. 최근의 연구에서는 클러스터링을 기반으로 한 모바일 싱크를 도입하여 이를 해결하고자 했지만, 클러스터 헤드 및 그 주변 노드들의 에너지 부담은 여전히 존재한다. 한편, 무선 전력 전송 기술 발전에 따라 무선 센서 네트워크에서 모바일 싱크를 이용한 무선 전력 전송의 연구가 활발히 이루어지고 있다. 따라서 본 논문에서는 무선 전력 전송이 가능한 모바일 싱크와 효율적인 클러스터링 기법(클러스터 헤드 선출 포함)을 이용하여 에너지 불균형 문제를 최소화하는 기법을 제안한다. 제안 기법은 클러스터 헤드 및 헤드 주변 노드의 에너지 핫 스팟이 완화됨으로, 전체 네트워크의 정전 노드들이 감소하고 수집된 데이터양이 증가한 것을 성능평가를 통해 확인할 수 있다.

수급 불균형을 고려한 전력망의 최적 자원 할당을 위한 일치 기반의 분산 알고리즘 (Consensus-Based Distributed Algorithm for Optimal Resource Allocation of Power Network under Supply-Demand Imbalance)

  • 임영훈
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권6호
    • /
    • pp.440-448
    • /
    • 2022
  • 최근 분산 에너지 자원들의 도입으로 전력망의 최적 자원 할당 문제의 중요성이 강조되고 있고, 대규모 전력망의 방대한 양의 데이터를 처리하기 위해 분산 자원 할당 기법이 요구되고 있다. 최적 자원 할당 문제에서 각 발전기의 발전 용량의 한계로 인하여 수급의 균형이 만족하는 경우를 고려한 연구는 많이 진행되고 있지만, 총 요구량이 최대 발전 용량을 초과하는 경우인 수급 불균형을 고려한 연구는 아직 미미한 실정이다. 본 논문에서는 수급 균형인 상황뿐만 아니라 수급 불균형 상황을 고려하여 전력망의 최적 자원 할당을 위한 일치 기반의 분산 알고리즘을 제안한다. 제안하는 분산 알고리즘은 수급 균형을 만족하는 경우에는 최적의 자원을 할당하고, 수급이 불균형한 경우에는 부족한 자원의 양을 계측할 수 있도록 설계하였다. 마지막으로 모의실험을 통하여 제안된 알고리즘의 성능을 검증하였다.

나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법 (Gender Prediction and Precision Inference Method based on the naive Bayesian)

  • 권태원;이의종;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.