• 제목/요약/키워드: 이진 분류

검색결과 605건 처리시간 0.036초

원격탐사 데이터의 이차계획법에 의한 토지피복분류에 관한 연구 (A Study for the Land-cover Classification of Remote Sensed Data Using Quadratic Programming)

  • 전형섭;조기성
    • 한국측량학회지
    • /
    • 제19권2호
    • /
    • pp.163-172
    • /
    • 2001
  • 본 연구에서는 원격탐사 데이터의 분류방법으로서 이차계획법을 토지피복 추출에 적용하였으며, 주제도 추출에 일반적으로 사용되는 최대우도와 신경망의 분류결과와 정확도를 비교하여 그 적용성을 검토하였다. 그 결과, 이차계획법에 의한 분류방법이 최대우도법에 비하여 평균 6%정도의 향상된 분류결과를 도출할 수 있어서 원격탐사 데이터의 분류에 이차계획법을 적용할 수 있으리라 판단되었다. 또한 이차계획법에 의한 분류에서는 클래스 구성비가 클래스 결정에 직접적인 영향을 주어 기존의 이진적인 분류방법에서 무시되었던 결과 값들을 명확하게 나타낼 수 있었다.

  • PDF

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

  • 김종수
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.15-30
    • /
    • 2023
  • 근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.

동적 output neuron을 이용한 LVQ 기반 물체 분류 (Object Classification Based on LVQ with Dynamic output neuron)

  • 김헌기;조성원;김재민;이진형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.427-430
    • /
    • 2007
  • 기존의 LVQ(Learning Vector Quantization) 방법을 이용하여 물체를 분류하면 데이터의 학습이 빠르고 연산량이 적어 실시간으로 물체를 분류할 수 있는 장점이 있다. 하지만 데이터의 훈련시 output neuron의 개수를 정확히 예측할 수 없고 output neuron의 개수에 따라 물체를 분류하는 정확도가 매우 달라질 수 있다. 그러므로 본 논문에서는 output neuron의 개수를 데이터의 특성에 맞게 결정해주는 알고리즘을 제시한다. DLVQ(Dynamic Learning Vector Quantization) 알고리즘은 승자로 결정된 가중치 벡터의 부류가 샘플 데이터의 부류와 같으면 업데이트하고 다르면 새로운 가중치 벡터로 생성한다. 제한한 알고리즘의 가장 다른 부분은 미리 output neuron의 개수를 정하는 것이 아니라 훈련 과정에서 동적으로 output neuron의 개수를 생성하는 것이다. 그리고 클러터의 구분 방법을 제시하여 사람, 차, 클러터를 구분할 수 있다.

  • PDF

지문 영상 분류를 위한 특이점 추출 알고리즘에 관한 연구 (A Study On Singular Points Extraction Algorithm for Finger Classification)

  • 오창섭;최경삼;조성원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.319-322
    • /
    • 2000
  • 본 논문에서는 지문영상으로부터 제안한 알고리즘을 이용하여 특이점(Core, Delta)을 추출한 후 특이점의 개수와 종류에 따라서 5가지 부류(arch, tented arch, left loop, right loop, whorl)로 지문영상을 분류하였다. 지문영상을 8*8블록과 16*16블록으로 분할한 후 3*3 Sobel 마스크를 씌워서 대표 방향을 구하였다. 또한 블록으로 분할한 영상으로부터 분산을 구하여 전경과 배경을 분리(segmentation)시켜 수행속도를 향상시켰다. 전처리 과정으로는 일정한 블록마다 임계값을 다르게 적용시키는 블록 이진화 기법을 사용하였으며 특이점을 추출하기 위해서 서로 크기가 다른 2개의 블록으로 영상을 분할하였다. 우선 8*8블록으로 영역을 분할한 후 방향 성분을 구하고 특이점들을 추출하였다. 이 경우 잡영 때문에 특이점이 너무 많이 추출되는 문제점이 있으므로 이러한 해결책으로 16*16블록으로 영역을 분할하여 방향 성분을 구하고 특이점을 추출하였다. 이렇게 다른 두 영역에서 동시에 나타나는 특이점을 후보 특이점으로 잡아서 그 후보 특이점 주변으로 Poincare 지수를 적용하여 확실한 특이점을 선택한 후 5가지의 지문 형태로 분류하였다. 실험결과 대부분의 지문영상에 대하여 강건한 분류 특성을 보이고 있음을 확인하였다.

  • PDF

음성을 이용한 사상체질 분류 보조 알고리즘 (Voice Classification Algorithm for Sasang Constitution)

  • 강재환;이혜정
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1982_1983
    • /
    • 2009
  • 본 연구에서는 기존의 특정 음성 변수에 대한 모수적 통계 접근 방법을 탈피하고 새로운 음성을 이용한 사상체질 분류 알고리즘을 개발하고자 먼저 5개의 모음과 2개의 문장으로 이루어진 총 120명의 여성 음성 데이터 수집하였다. 이후 다양한 음성 신호 분석 방법과 툴을 이용하여 총 134개의 음성 변수를 추출하였다. 각 변수에서는 체질별 최대값들의 최소값, 최소값들의 최대값을 이용해 4개의 조건 변수를 새로 생성하고 이를 관리하기 위한 메모리와 체질 점수 개념을 도입하여 비모수적인 통계 방법을 기반으로 한 분류 알고리즘을 개발하였다. 알고리즘 성능 테스트를 위해 10-fold cross 검정테스트를 실시하였으며 본 알고리즘은 최종적으로 이진 분류에서 진단률 41.5%와 정확률 79.5%를 가지는 것으로 확인되었다.

  • PDF

전문용어 및 정보추출에 기반한 문서분류시스템 (Text Categorization Based on Terminology and Information Extraction)

  • 이경순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

기업 자원의 전략적 활용을 위한 정보 관리 모델의 설계와 활용 방안에 관한 연구 (Information Management Model for Strategic Use of Enterprise Resources)

  • 노주연;윤용기;이진하;황이현;임춘성
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2002년도 춘계공동학술대회
    • /
    • pp.42-48
    • /
    • 2002
  • 기존 연구에서 정보화전략계획(Information Strategy Planning)과 계획의 실현을 위한 절차와 산출물, 기법을 정형화하는 정보화전략계획 방법론(Methodology)에 관한 논의가 존재해 왔다. 그런데 이들은 기업 모델 도출을 위한 절차와 산출물 기법의 기술과 정형화에 그칠 뿐 그 하위 구성 요소인 데이터의 관리나 입출력 관계, 업무 지식, 경험에 대한 효과적인 관리에 관한 접근은 부족했던 실정이다. 게다가. 비 정형화된 지식이나 경험, 업무 성과 데이터 등의 정형화와 분류체계에 대한 전략적인 접근은 미비하다. 본 연구에서는 기업 자원을 프로세스. 조직. 환경. 정보시스템의 네 관점으로 분류한 기업 정보 분류 체계를 제시하고 그 구성, 내용, 범위를 살펴본다. 이렇게 분류된 데이터간 연관관계의 정의와 그 타당성 검증을 거쳐, 기업 자원의 전략적 관리를 위한 기업 모형 수립 방안을 제시하게 된다. 본 연구의 정보 관리 모델을 통해, 정형화된 데이터 뿐 아니라 비 정형화된 지식과 경험, 선진 업무 지식, 성과 지표를 효과적으로 활용하여 기업의 전략적 방향을 보여줄 수 있다.

  • PDF

텍스쳐 분석 방법을 이용한 필름 결함 검사 시스템 (A Film Inspection System based on Texture Analysis Techniqe)

  • 한종우;손형관;노재현;최영규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.277-278
    • /
    • 2011
  • 본 논문에서는 공압출 다층 필름 제조공정에서 수지의 품질에 영향을 주는 외관상의 결함을 검사하는 비젼 시스템을 제안한다. 필름 생산 과정에서는 흑점이나 주름 등을 포함한 다양한 결함이 발생할 수 있는데, 명암이 명확히 구별되는 결함도 있지만 그렇지 않은 결함들은 필름의 특성에 의해 검출 및 분류가 어려운 경우가 많다. 제안된 논문에서는 전체 검사시스템의 소개와 함께 결함의 종류 분류와 검출 및 분류 방법을 제안하는데, 특히 애매한 결함의 구분을 위해 지역적 이진패턴(LBP)에 기반한 텍스쳐 분석 방법을 이용한다. 실험을 통해 제안된 시스템 및 방법이 필름 생산과정의 다양한 결함들을 잘 검출하고 분류하는 것을 알 수 있었다.

포섭구조 일대다 지지벡터기계와 Naive Bayes 분류기를 이용한 효과적인 지문분류 (Effective Fingerprint Classification using Subsumed One-Vs-All Support Vector Machines and Naive Bayes Classifiers)

  • 홍진혁;민준기;조웅근;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권10호
    • /
    • pp.886-895
    • /
    • 2006
  • 지문분류는 사전에 정의된 클래스로 입력된 지문을 분류하여 자동지문인식 시스템에서 비교해야할 지문의 수를 줄여준다. 지지벡터기계(support vector machine; SVM)는 패턴인식 분야에서 널리 사용되고 있을 뿐만 아니라 지문분류에서도 높은 성능을 보이고 있다. SVM은 이진클래스 분류기이기 때문에 다중클래스 문제인 지문분류를 위해서 적절한 분류기 생성과 결합 기법이 필요하며, 본 논문에서는 일대다(one-vs-all; OVA) 방식으로 구성된 SVM을 naive Bayes(NB) 분류기를 이용하여 동적으로 구성하는 분류방법을 제안한다. 지문분류에서 대표적으로 사용되는 특징인 FingerCode와 지문의 구조적 특징인 특이점과 의사융선을 사용하여 OVA SVM과 NB 분류기를 학습하고, 포섭구조의 분류기를 구성하여 효과적인 지문분류를 수행한다. NIST-4 데이타베이스에 제안하는 방법을 적용하여 5클래스 분류에 대해서 90.8%의 높은 분류율을 획득하였으며, OVA 전략의 SVM을 다중클래스 분류문제에 적용할 때 발생하는 동점문제를 효과적으로 처리하였다.

오즈 곡선과 최적분류점 (Odds curve and optimal threshold)

  • 홍종선;오태규;오세현
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.807-822
    • /
    • 2021
  • 오즈 곡선으로 설명이 가능한 정확도 측도들을 살펴보고, 오즈 곡선의 성질을 바탕으로 대안적인 최대 사각형 정확도 측도를 제안한다. 다양한 확률분포함수와 실증예제를 고려하여 정확도 측도들에 대응하는 분류점을 구하고, 분류점을 측정하는 통계량들을 비교하면서 특징을 토론한다. 그러므로 ROC 곡선 등과 유사하게 오즈 곡선으로부터도 최적분류점들을 발견하고 설명할 수 있으며, 최대사각형 측도는 이진 분류모형의 성능을 향상시킬 수 있는 정확도 측도로 활용할 수 있다.