• 제목/요약/키워드: 집중샘플링

검색결과 20건 처리시간 0.02초

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

데이터 샘플링을 통한 각 기반 공간 분할 병렬 스카이라인 질의처리 기법 (Data Sampling-based Angular Space Partitioning for Parallel Skyline Query Processing)

  • 정재화
    • 컴퓨터교육학회논문지
    • /
    • 제18권5호
    • /
    • pp.63-70
    • /
    • 2015
  • 상호 연관되는 복잡한 데이터 조건이 존재하는 환경에서 스카이라인 질의는 의사결정 시스템 등 폭넓은 애플리케이션 활용 가능성으로 다양한 분야에서 연구되어 왔다. 중앙집중식 환경에서 스카이라인 질의처리 기법이 초기에 제안되었으며 최근 대량의 다차원 데이터에 대해 데이터 공간을 분할하여 맵/리듀스 플랫폼 상에서 병렬적으로 처리하는 기법이 제안되었다. 그러나 현재까지의 기법이 비균등적 실행과 높은 중복 작업으로 효율성이 저하된다는 문제점을 배경으로 본 논문에서는 랜덤 샘플링을 통해 데이터 분포를 추정하여 비균등 분할 문제를 해결하고 각 기반의 데이터 공간을 분할하여 스카이라인 처리 과정에서 중복 작업을 최소화한 새로운 기법 MR-DEAP를 제안한다. 마지막으로 다양한 환경에서의 실험결과 제안된 기법이 다른 각 기반 분할과 그리드 분할 기법보다 우수한 것을 입증하였다.

SDN을 위한 샘플링 기반 네트워크 플러딩 공격 탐지/방어 시스템 (Sampling based Network Flooding Attack Detection/Prevention System for SDN)

  • 이윤기;김승욱;부 둑 티엡;김경백
    • 스마트미디어저널
    • /
    • 제4권4호
    • /
    • pp.24-32
    • /
    • 2015
  • 최근 SDN은 데이터센터 네트워크로 활발히 사용되고 있으며, 그 사용범위를 점진적으로 늘려나가고 있다. 이러한 새로운 네트워크 환경 변화와 함께, 네트워크 보안시스템을 SDN 환경 상에서 구축하는 연구들이 진행되고 있다. 특히 OpenFlow Switch의 포트를 통과하는 패킷들을 지속적으로 관찰함으로써 네트워크 플러딩 공격 등을 탐지하기 위한 시스템들이 제안되었다. 하지만 다수의 스위치를 중앙집중형 컨트롤러에서 관리하는 SDN의 특성상 지속적인 네트워크 트래픽 관찰은 상당한 오버헤드로 작용할 수 있다. 이 논문에서는 이러한 지속적인 네트워크 트래픽 관찰에 따른 오버헤드를 줄이면서도 네트워크 플러딩 공격을 효과적으로 탐지 및 방어 할 수 있는, 샘플링 기반 네트워크 플러딩 공격 탐지 및 방어 시스템을 제안한다. 제안된 시스템은 네트워크 트래픽을 주어진 샘플링 조건에 맞추어 주기적으로 관찰하고, 샘플링 패킷들을 분석하여 네트워크 플러딩 공격을 탐지하며, 탐지된 공격을 OpenFlow Switch의 플로우 엔트리관리를 통해 능동적으로 차단하다. 네트워크 트래픽 샘플링을 위해 sFlow agent를 활용하고, 샘플링된 패킷 정보를 소프트웨어적으로 분석하여 공격을 탐지하기 위해 오픈소스 기반 IDS인 snort을 사용하였다. 탐지된 공격의 자동화된 방어 기작의 구현을 위해 OpenDaylight SDN 컨트롤러용 어플리케이션을 개발하여 적용하였다. 제안된 시스템은 OVS (Open Virtual Switch)를 활용한 로컬 테스트베드 상에서 그 동작을 검증하였고, 다양한 샘플링 조건에 따른 제안된 시스템의 성능 및 오버헤드를 분석하였다.

토지이용이 다변화된 산림 유역의 수질에 미치는 몬순 강우의 영향 (Effects of Monsoon Rainfalls on Surface Water Quality in a Mountainous Watershed under Mixed Land Use)

  • 조경원;이현주;박지형
    • 한국농림기상학회지
    • /
    • 제12권3호
    • /
    • pp.197-206
    • /
    • 2010
  • 토지 이용이 다변화된 산지 유역에서 몬순 강우에 의한 환경 영향을 평가하는데 필수적인 기초 자료를 확보하기 위해 수질의 계절간 비교와 강우사상 집중샘플링의 방법을 활용하여 지표수 수질의 시공간적 변이 특성을 조사하였다. 유역 내 토지 이용을 반영하는 지표수 9개 지점을 대상으로 건 우기 수질의 계절적 차이를 비교하고, 2회의 강우사상에 대해 산림과 농경지 하천 2개 지점에서 집중 샘플링을 실시하였다. 대부분의 지점에서 건기보다 우기에 전기전도도와 $Cl^-$ 농도는 더 낮았으나, 총 금속 농도는 우기에 훨씬 더 높았다. 이는 우기에 늘어난 유량에 의해 용존 이온은 희석되고, 토양 침식량은 증가됐기 때문인 것으로 보인다. 한편 18mm의 적은 강우 시에 산림 하천의 수질에서는 거의 변화가 보이지 않은 데 반해, 농경지 하천에서는 부유토사와 용존 물질 농도가 모두 가파른 변화를 보였으며, 452mm의 많은 강우에 대해서는 농경지 하천은 물론 산림 하천에서도 큰 수질 변화를 관찰할 수 있었다. 농경지 하천의 Pb 농도는 부유토사 농도와 높은 양의 상관관계를 보였다. 제한된 샘플링 횟수와 조사지점으로 인해 결과 해석에 신중을 기해야 하겠지만, 전체 결과는 가파른 산지 유역에 농경지가 무분별하게 확장되면 강우의 변동폭과 극단화가 심해질 경우 토양 침식과 그에 따른 환경 영향의 취약도가 증가할 것임을 시사한다.

안구운동추적 정보기반 능동적 샘플링을 반영한 시각 하이퍼네트워크 모델 (A Visual Hypernetwork Model Using Eye-Gaze-Information-Based Active Sampling)

  • 김은솔;김지섭;;;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.324-326
    • /
    • 2012
  • 기계 학습에서 입력 데이터의 차원을 줄이는 문제(dimension reduction)는 매우 중요한 문제 중의 하나이다. 입력 변수의 차원이 늘어남에 따라 처리해야하는 연산의 수와 계산 복잡도가 급격히 늘어나기 때문이다. 이를 해결하기 위하여 다수의 기계 학습 알고리즘은 명시적으로 차원을 줄이거나(feature selection), 데이터에 약간의 연산을 가하여 차원이 작은 새로운 입력 데이터를 만든다(feature extraction). 반면 사람이 여러 종류의 고차원 센서 데이터를 입력받아 빠른 시간 안에 정확하게 정보를 처리할 수 있는 가장 큰 이유 중 하나는 실시간으로 판단하여 가장 필요한 정보에 집중하기 때문이다. 본 연구는 사람의 정보 처리 과정을 기계 학습 알고리즘에 반영하여, 집중도를 이용하여 효율적으로 데이터를 처리하는 방법을 제시한다. 이 성질을 시각 하이퍼네트워크 모델에 반영하여, 효율적으로 고차원 입력 데이터를 다루는 방법을 제안한다. 실험에서는 시각 하이퍼네트워크를 이용하여 고차원의 이미지 데이터에서 행동을 분류하였다.

복수카메라 및 Ray-based Importance Sampling을 이용한 실시간 비행체 추적 (Real-Time Quad-Copter Tracking With Multi-Cameras and Ray-based Importance Sampling)

  • 김룡해;정문호;이기서
    • 한국전자통신학회논문지
    • /
    • 제8권6호
    • /
    • pp.899-905
    • /
    • 2013
  • 본 논문은 복수카메라 기반 실시간 비행체 검출 및 추적하는 방법에 대해서 설명한다. 정밀하게 가공된 보정체를 필요로 하지 않는 복수카메라 자기보정 기법에 스케일을 추가하여, 간편하게 각 카메라 내부변수와 카메라 사이의 상대위치 관계를 구하는 복수카메라 보정기법을 제시한다. 비행체 검출 및 추적은 파티컬 필터링 기법을 적용하여 수행하는데, 적은수의 샘플로도 비행체 검출을 빠르고 정확하게 할 수 있도록 하는 Ray-based Importance Sampling을 고안했다. 3차원 공간을 일정한 크기의 격자구조로 나누고, 영상 특징점과 사영기하학을 이용하여 이 격자구조 위에 비행체의 이산적인 분포를 구한다. 이 분포에 따라 격자를 샘플링하고, 또 다시, 격자의 중심을 평균으로 하는 가우시안 분포로부터 비행체의 위치를 샘플링 한다. 이 두 단계의 샘플링을 통해 비행체가 있을 가능성이 높은 영역에 샘플을 집중적으로 분포시킬 수가 있다. 그리고, 복수의 카메라 영상으로부터 실시간으로 동기화된 영상 특징점을 검출하기 위하여 GPGPU를 이용한 병렬 영상처리 시스템을 구현하였다. 실험을 통해 제안한 방법의 유효성을 확인할 수 있었다.

불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법 (Kernel Perceptron Boosting for Effective Learning of Imbalanced Data)

  • 오장민;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

양자 계산을 이용한 haloalkane의 halogen 제거 반응 메커니즘 연구

  • 차용준;김연준;김우연
    • EDISON SW 활용 경진대회 논문집
    • /
    • 제6회(2017년)
    • /
    • pp.172-174
    • /
    • 2017
  • 메탄올 용매 내에서 1,2-dichloroethane ($C_2H_4Cl_2$)의 photo-induced halogen elimination 과정을 계산화학적 방법으로 분석하였다. 특히 실험적 방법으로 분석이 까다로운 중간체 및 반응 메커니즘 분석에 집중하였다. DFT(${\omega}B97XD$ / aug-cc-pVTZ) 계산을 기반으로 진행하였으며, 추가적인 분석을 위해 중간체 샘플링 프로그램이 사용되었다. 그 결과 $C_2H_4Cl_2$ 반응계와 유사하게 bridged 형태의 중간체가 생성되는 것을 확인하였다. 또한 반응물, 생성물, 중간체 2개 및 transition states 2개로 구성된 반응 메커니즘을 밝혀내었다.

  • PDF

OFDM 무선 멀티미디어 통신 시스템의 오율성능 향상을 위한 효율적인 샘플링 클럭 동기방식 (Efficient Clock Synchronization Schemes for Enhancing Error Performance of OFDM Wireless Multimedia Communication Systems)

  • 김동옥;윤종호
    • 한국정보통신학회논문지
    • /
    • 제7권1호
    • /
    • pp.69-74
    • /
    • 2003
  • 본 논문에서는 OFDM 신호방식을 사용하는 무선채널 환경에서 무선 멀티미디어에 적합한 클럭 동기복원 알고리즘을 제안한다. 제안된 클럭 동기복원 알고리즘의 기본적인 접근은 수신기의 채널 추정기로부터 추정된 채널의 주파수 응답을 획득하여 IFFT를 통해 채널의 충격 응답 또는 다중 경로 강도 프로 파일을 구하고 시간 영역에서 채널의 에너지가 집중된 일정 범위의 위치를 추적하는 것이다. 또한, 샘플링 클럭 오프셋이 ${\pm}$1∼3 샘플 있는 경우 64-QAM, 16-QAM의 성좌점을 분석하고, BER 성능을 확인한 결과 최적 샘플 지점에서의 성좌점과 BER 성능에 비하여 2 샘플 이상의 오프셋이 발생했을 경우에는 심한 성능 열화가 나타나는 것을 확인하였고, 시뮬레이션 결과로부터, 제안된 알고리즘이 주파수 선택적 페이딩 채널 하에서도 우수한 동기특성을 제공함을 알 수 있다.

CARDB를 이용한 반복적인 업-다운 샘플링 네트워크 기반의 단일 영상 초해상도 복원 (Single Image Super-Resolution Using CARDB Based on Iterative Up-Down Sampling Architecture)

  • 김인구;유송현;정제창
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.242-251
    • /
    • 2020
  • 최근 단일 영상 초해상도에 깊은 합성 곱 신경망을 적용한 알고리듬이 많이 연구되었다. 현존하는 딥러닝 기반 초해상도 기법들은 네트워크의 후반부에 해상도를 업샘플링 하는 구조를 가진다. 이러한 구조는 저해상도에서 고해상도로 한 번에 매핑을 하기에 많은 정보를 예측하는 높은 확대율에서 비효율적인 구조를 가진다. 본 논문에서는 반복적인 업-다운 샘플링 구조를 기반으로 하여 채널 집중 잔여 밀집 블록을 이용한 단일 영상 초해상도 기법을 제안한다. 제안한 알고리듬은 저해상도와 고해상도의 매핑 관계를 효율적으로 예측하여 높은 확대율에서 기존의 알고리듬에 비해 최대 0.14dB 성능 향상과 개선된 주관적 화질을 보여준다.