• 제목/요약/키워드: 한 클래스 분류

검색결과 110건 처리시간 0.026초

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

Multimodal 데이터에 대한 분류 에러 예측 기법 (Error Estimation Based on the Bhattacharyya Distance for Classifying Multimodal Data)

  • 최의선;김재희;이철희
    • 대한전자공학회논문지SP
    • /
    • 제39권2호
    • /
    • pp.147-154
    • /
    • 2002
  • 본 논문에서는 multimodal 특성을 갖는 데이터에 대하여 패턴 분류 시 Bhattacharyya distance에 기반한 에러 예측 기법을 제안한다. 제안한 방법은 multimodal 데이터에 대하여 분류 에러와 Bhattacharyya distance를 각각 실험적으로 구하고 이 둘 사이의 관계를 유추하여 에러의 예측 가능성을 조사한다. 본 논문에서는 분류 에러 및 Bhattacharyya distance를 구하기 위하여 multimodal 데이터의 확률 밀도 함수를 정규 분포 특성을 갖는 부클래스들의 조합으로 추정한다. 원격 탐사 데이터를 이용하여 실험한 결과, multimodal 데이터의 분류 에러와 Bhattacharyya distance 사이에 밀접한 관련이 있음이 확인되었으며, Bhattacharyya distance를 이용한 에러 예측 가능성을 보여주었다.

조건(암, 정상)에 따라 특이적 관계를 나타내는 유전자 쌍으로 구성된 유전자 모듈을 이용한 독립샘플의 클래스예측 (Class prediction of an independent sample using a set of gene modules consisting of gene-pairs which were condition(Tumor, Normal) specific)

  • 정현이;윤영미
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권12호
    • /
    • pp.197-207
    • /
    • 2010
  • 대용량(High-throughput) 형태로 얻어진 cDNA 마이크로어레이 데이터에 다양한 데이터 마이닝 기법을 적용하면 서로 다른 조직에서 추출한 유전자의 발현정도를 비교할 수 있고 정상세포와 암세포에서 발현량의 차이를 보이는 DEG(Differently Expression Gene) 유전자를 추출할 수 있다. 이들을 이용하여 병을 진단할 수 있을 뿐만 아니라, 암의 진행 단계(Cancer Stage)에 따른 치료 방법을 결정할 수 있다. 마이크로어레이를 기반으로 한 대부분의 암 분류자는 기계학습 기법을 이용하여 암 관련 유전자를 추출하여, 이들 유전자를 총체적으로 이용하여 독립 샘플의 클래스(암, 정상)를 판정한다. 하지만 유전자의 발현량의 차이뿐만 아니라 유전자와 유전자의 상관관계의 변화가 질병 진단에 활용될 수 있다. 대부분의 질병은 단독 유전자의 변이에 의한 것이 아니라 유전자의 모듈로 이루어진 유전자조절네트워크의 변이에 의한 것이기 때문이다. 본 논문에서는 조건에 따라 특이적 관계를 나타내는 유전자 쌍을 식별하여, 이들 유전자 쌍을 이용한 유전자 분류 모듈을 생성한다. 분류 모듈을 이용한 암 분류 방법이 기존의 암 분류 방법보다 높은 정확도로 암과정상 샘플을 분류함을 보여주고 있다. 분류 모듈을 구성하는 유전자의 수가 상대적으로 적으므로 임상키트로의 개발도 고려할 수 있다. 향후 분류 모듈에 속하는 유전자의 기능적 검증을, GO(Gene Ontology)를 활용함으로서, 밝혀지지 않은 새로운 암 관련 유전자를 식별하고, 분류 모듈을 확대하여 암 특이적 유전자조절네트워크 구성에 활용할 계획이다.

딥러닝 기반 이미지 인식 기술을 활용한 동전 자동분류 스마트 저금통 (Implementation of Automatic Coin Sorting Smart Piggy Bank using Deep Learning based Image Recognition Technology)

  • 유연승;장영진;심현정;이슬비;김정길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.320-322
    • /
    • 2020
  • 기계학습은 인공지능의 한 클래스로 최근 이미지 및 음성인식, 지능적 웹 검색, 자율 주행 자동차 등의 영역에서 성공적 발전을 바탕으로 우리의 일상에 폭넓게 이용되고 있다. 본 논문에서는 Keras 오픈소스 라이브러리를 이용해 딥러닝을 이용한 기계학습 기반의 동전 인식 소프트웨어를 구현하였고, 이를 이용해 동전 자동분류 스마트 저금통을 설계하였다. 동작 검증을 위하여 스마트 저금통의 모든 발생 이벤트는 Parse-server와 mongoDB를 이용하여 시각화 및 어플리케이션 및 웹사이트를 연결하였다.

다중 클래스 SVM을 이용한 계층적 인터넷 애플리케이션 트래픽의 분류 (Hierarchical Internet Application Traffic Classification using a Multi-class SVM)

  • 유재학;이한성;임영희;김명섭;박대희
    • 한국지능시스템학회논문지
    • /
    • 제20권1호
    • /
    • pp.7-14
    • /
    • 2010
  • 본 논문에서는 인터넷 애플리케이션 트래픽 분류방법으로 대표되는 포트 번호 및 페이로드 정보를 이용하는 방법론의 한계점을 극복하는 대안으로서, SVM을 기반으로 한 계층적 인터넷 애플리케이션 트래픽 분류 시스템을 제안한다. 제안된 시스템은 이진 분류기인 SVM과 단일클래스 SVM의 대표적 모델인 SVDD를 계층적으로 결합한 새로운 트래픽 분류 모델로서, 학내에서 수집된 양방향 트래픽 플로우 데이터에 대한 최적의 속성 부분집합을 선택한 후, P2P 트래픽과 non-P2P 트래픽을 빠르게 분류하는 첫 번째 계층, P2P 트래픽들을 파일공유, 메신저, TV로 분류하는 두 번째 계층, 그리고 전체 16가지 애플리케이션 트래픽별로 세분화 분류하는 세 번째 계층으로 구성된다. 제안된 시스템은 인터넷 애플리케이션 트래픽을 coarse 혹은 fine하게 분류함으로써 효율적인 시스템의 자원 관리, 안정적인 네트워크 환경의 지원, 원활한 대역폭의 사용, 그리고 적절한 QoS를 보장할 수 있다. 또한, 새로운 애플리케이션 트래픽이 추가되더라도 전체 시스템을 재학습시킬 필요 없이 새로운 애플리케이션 트래픽만을 추가 학습함으로써 시스템의 점증적 갱신 및 확장성도 가능하다. 실험을 통하여 제안된 시스템의 성능을 검증한다.

고정익 UAV를 이용한 고해상도 영상의 토지피복분류 (Land Cover Classification of High-Spatial Resolution Imagery using Fixed-Wing UAV)

  • 양승룡;이학술
    • 한국재난정보학회 논문집
    • /
    • 제14권4호
    • /
    • pp.501-509
    • /
    • 2018
  • 연구목적: UAV기반의 사진측량은 기존 항공촬영에 비해 비용이 절감될 뿐만 아니라 원하는 시간과 장소에 대한 고해상도의 데이터를 취득하기 용이하기 때문에, 공간정보 분야에서도 UAV를 활용한 연구가 진행되고 있다. 본 연구에서는 UAV 기반의 고해상도 영상을 활용하여 토지피복 분류를 수행하고자 하였다. 연구방법: 고해상도 영상의 획득을 위하여 RGB카메라를 사용하였으며, 추가적으로 식생지역을 정확하게 분류하기 위해서 다중분광 카메라를 사용하여 동일 지역을 추가 촬영하였다. 최종적으로 RGB 및 다중분광 카메라를 이용하여 생성된 정사영상, DSM(Digital Surface Model), NDVI(Normalized Difference Vegetation Index), GLCM(Gray-Level Co-occurrence Matrix)을 이용하여 대표적인 감독분류기법인 RF(Random Forest)방법을 이용해 총 7개 클래스에 대해 토지피복분류를 수행하였다. 연구결과: 분류정확도 평가를 위해 오차행렬을 기반으로 한 정확도 평가를 실시하였으며, 정확도 평가 결과 RGB 영상만을 이용한 감독분류결과와 비교하여 제안 방법이 해당 지역의 클래스를 효과적으로 분류할 수 있음을 확인하였다. 결론: 본 연구에서 제안한 정사영상, 다중분광영상, NDVI, GLCM을 모두 추가한 경우 기존의 정사영상만을 이용하였을 때 보다 높은 정확도를 나타냈다. 추후 연구로는 추가적인 입력자료의 개발을 통해 분류 정확도를 향상시키고자 한다.

음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘 (New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification)

  • 최택성;문선국;박영철;윤대희;이석필
    • 한국음향학회지
    • /
    • 제27권3호
    • /
    • pp.111-118
    • /
    • 2008
  • 본 논문에서는 음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘을 제안한다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된 분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는 것이다. 제안된 알고리즘에서의 분류 확률 예측은 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용함으로써 이루어진다. 제안된 알고리즘을 기반으로 한 분류 성능 측정은 2 클래스로 이루어진 각각의 노드에 2개 범주 분류에 효과적인 support vector machine을 적용함으로써 이루어진다. 제안된 알고리즘의 성능 검증을 위해 음색, 리듬, 피치 등 오디오 신호의 특징을 나타내는 다양한 파라미터를 오디오 신호로부터 추출하여 제안된 알고리즘과 기존의 다중 범주 분류기들을 이용하여 분류성능을 평가하였다. 다양한 실험결과 제안된 알고리즘은 기존의 알고리즘에 비하여 5%에서 25%정도의 분류 성능이 향상된 것을 확인할 수 있었고 특히 낮은 차원의 특징벡터를 이용한 분류 실험에서는 10% 에서 25% 향상된 좋은 성능을 보였다.

자기구성 지도를 이용한 인터넷 FAQ의 자동응답 및 개념적 브라우징 (Automatic Response and Conceptual Browsing of Internet FAQs Using Self-Organizing Maps)

  • 안준현;류중원;조성배
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.432-441
    • /
    • 2002
  • 최근 인터넷상의 정보를 가공하여 사용자에게 효율적으로 제공하는 서비스들이 많아지고 있지만, 컴퓨터에 익숙하지 않은 사용자들은 이러한 서비스를 쉽게 이용하지 못하기 때문에 사용자들을 돕는 시스템이 필요하다. 예를 들어, 웹사이트의 경우 전자우편을 통한 사용자들의 질문에 대해 관리자가 직접 답을 해줘야 하는데, 사용자의 증가로 질의응답 업무의 양이 커지고 있다. 본 논문에서는 이를 해결하기 위하여 사용자의 질의를 자동으로 분류하여 응답하고 사용자가 FAQ를 개념적으로 브라우징할 수 있도록 하는 시스템을 제안한다. 이 시스템은 다양한 크기의 질의 메일을 정형화된 크기로 만들기 위한 키워드 클러스터링 자기구성 지도(SOM)와 이를 실제 해당 답변 클래스로 분류하는 전자 우편 분류 SOM의 이단계 구조로 구성되어 사용자의 질의에 해당하는 답변을 자동으로 전송할 수 있으며, 사용자가 이차원상에 표현된 문서 지도를 이용하여 쉽게 전체 자료의 분포를 파악하여 검색할 수 있다. 실제 한 달간 수집한 2,206개의 한메일넷 질의 데이터에 대한 실험 결과, 95%의 분류율을 보여 그 유용성을 볼 수 있었으며, 단계별 검색이 가능하여 사용자가 효율적으로 검색할 수 있음을 확인할 수 있었다.

RGB 영상 데이터 기반 손동작 인식 (Hand gesture recognition based on RGB image data)

  • 김기덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.15-16
    • /
    • 2021
  • 본 논문에서는 RGB 영상 데이터를 입력으로 하여 mediapipe의 손 포즈 추정 알고리즘을 적용해 손가락 관절 및 주요 부위의 위치를 얻고 이를 기반으로 딥러닝 모델에 학습 후 손동작 인식 방법을 제안한다. 연속된 프레임에서 한 손의 손가락 주요 부위 간 좌표를 얻고 차분 벡터의 x, y좌표를 저장한 후 Conv1D, Bidirectional GRU, Transformer를 결합한 딥러닝 모델에 학습 후 손동작 인식 분류를 하였다. IC4You Gesture Dataset 의 한 손 동적 데이터 9개 클래스에 적용한 결과 99.63%의 손동작 인식 정확도를 얻었다.

  • PDF

효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘 (A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering)

  • 김성은;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF