• 제목/요약/키워드: Multi-label classification

검색결과 60건 처리시간 0.023초

HANDWRITTEN HANGUL RECOGNITION MODEL USING MULTI-LABEL CLASSIFICATION

  • HANA CHOI
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제27권2호
    • /
    • pp.135-145
    • /
    • 2023
  • Recently, as deep learning technology has developed, various deep learning technologies have been introduced in handwritten recognition, greatly contributing to performance improvement. The recognition accuracy of handwritten Hangeul recognition has also improved significantly, but prior research has focused on recognizing 520 Hangul characters or 2,350 Hangul characters using SERI95 data or PE92 data. In the past, most of the expressions were possible with 2,350 Hangul characters, but as globalization progresses and information and communication technology develops, there are many cases where various foreign words need to be expressed in Hangul. In this paper, we propose a model that recognizes and combines the consonants, medial vowels, and final consonants of a Korean syllable using a multi-label classification model, and achieves a high recognition accuracy of 98.38% as a result of learning with the public data of Korean handwritten characters, PE92. In addition, this model learned only 2,350 Hangul characters, but can recognize the characters which is not included in the 2,350 Hangul characters

레이블 멱집합 분류와 다중클래스 확률추정을 사용한 단백질 세포내 위치 예측 (Prediction of Protein Subcellular Localization using Label Power-set Classification and Multi-class Probability Estimates)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.2562-2570
    • /
    • 2014
  • 단백질의 기능을 유추할 수 있는 중요한 정보중의 하나는 단백질이 존재하는 세포내 위치이다. 최근에는 하나의 단백질이 동시에 존재하는 여러 세포내 위치를 예측하는 연구가 활발하다. 본 논문에서는 단백질이 존재하는 세포내의 다중위치를 예측하기 위해서 레이블 멱집합 방법을 개선한다. 레이블 멱집합 방법으로 분류한 다중위치들을 예측 확률에 따라 결합하여 최종적인 다중레이블로 분류한다. 각 다중위치에 대한 정확한 확률적 기여를 구하기 위하여 쌍별 비교와 오류정정 출력코드를 사용한 다중클래스 확률추정 방법을 적용하였다. 단백질 세포내 위치 예측 실험에 제안한 방법을 적용하여 성능이 향상됨을 보였다.

다중 레이블 분류 작업에서의 Coarse-to-Fine Curriculum Learning 메카니즘 적용 방안 (Applying Coarse-to-Fine Curriculum Learning Mechanism to the multi-label classification task)

  • 공희산;박재훈;김광수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.29-30
    • /
    • 2022
  • Curriculum learning은 딥러닝의 성능을 향상시키기 위해 사람의 학습 과정과 유사하게 일종의 'curriculum'을 도입해 모델을 학습시키는 방법이다. 대부분의 연구는 학습 데이터 중 개별 샘플의 난이도를 기반으로 점진적으로 모델을 학습시키는 방안에 중점을 두고 있다. 그러나, coarse-to-fine 메카니즘은 데이터의 난이도보다 학습에 사용되는 class의 유사도가 더욱 중요하다고 주장하며, 여러 난이도의 auxiliary task를 차례로 학습하는 방법을 제안했다. 그러나, 이 방법은 혼동행렬 기반으로 class의 유사성을 판단해 auxiliary task를 생성함으로 다중 레이블 분류에는 적용하기 어렵다는 한계점이 있다. 따라서, 본 논문에서는 multi-label 환경에서 multi-class와 binary task를 생성하는 방법을 제안해 coarse-to-fine 메카니즘 적용을 위한 방안을 제시하고, 그 결과를 분석한다.

  • PDF

효과적인 애스팩트 마이닝을 위한 다중 레이블 분류접근법 (Multi-Label Classification Approach to Effective Aspect-Mining)

  • 원종윤;이건창
    • 경영정보학연구
    • /
    • 제22권3호
    • /
    • pp.81-97
    • /
    • 2020
  • 최근의 감성분류 연구는 출력변수가 하나인 단일레이블 분류방법을 사용한 연구가 많다. 특히, 이러한 연구는 하나의 극성 값(긍정, 부정)만을 찾는 연구가 많다. 그러나 한 문장 안에는 다중적인 의미가 내포되어 있다. 그 중에서도 감정과 오피니언이 이러한 특징을 갖는다. 본 논문은 두 가지 연구목적을 제시한다. 첫째, 한 문장 안에 다양한 토픽(주제 또는 애스팩트)이 있다는 사실을 기반으로, 해당 문장을 각 애스팩트 별로 감성을 분류하는 애스팩트 마이닝을 수행한다. 둘째, 두개 이상의 종속변수(출력 값)를 한 번에 분석하는 다중레이블 분류방법을 적용한다. 이에 본 연구는 감성분류의 연구가 단일분류기에 의해서만 이루어진 연구를 개선하고자 다중레이블 분류방법에 의한 애스팩트 마이닝을 수행하고자 한다. 이와 같은 연구목적을 달성하기 위해 국내 뮤지컬 데이터를 수집하였다. 분석결과 문장 안에 있는 다양한 애스팩트별 감성을 추출하였고, 유의한 결과를 얻었다.

Sparse and low-rank feature selection for multi-label learning

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다.

다중 레이블 나이브 베이지안 분류기의 정확도 개선 연구 (Improving Accuracy of Multi-label Naive Bayes Classifier)

  • 김해천;이재성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.147-148
    • /
    • 2018
  • 다중 레이블 분류 문제는 다중 레이블 데이터를 입력받았을 때 연관된 다수의 레이블을 추측하는 문제이다. 본 논문에서는 다중 레이블 분류 문제의 기법 중 하나인 나이브 베이지안 분류기에 레이블 의존성을 계산하여 결과에 반영한 결과 다중 레이블 분류 문제의 성능이 개선됨을 확인하였다.

  • PDF

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

다중 레이블 분류를 활용한 안면 피부 질환 인식에 관한 연구 (A Study on Facial Skin Disease Recognition Using Multi-Label Classification)

  • 임채현;손민지;김명호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권12호
    • /
    • pp.555-560
    • /
    • 2021
  • 최근 안면 피부 미용에 대한 사람들의 관심이 높아짐에 따라 딥 러닝을 활용한 안면 피부 미용을 위한 피부 질환 인식 연구가 진행되고 있다. 이러한 연구들은 여드름을 비롯한 다양한 피부 질환을 인식한다. 기존의 연구들은 단일 피부 질환만을 인식하지만, 안면에 발생하는 피부 질환은 더 다양하고 복합적으로 발생할 수 있다. 따라서 본 논문에서는 Inception-ResNet V2 모델을 활용하여 다중 레이블 분류 방법으로 여드름, 블랙헤드, 주근깨, 검버섯, 일반 피부, 화이트헤드에 관한 복합적인 피부 질환을 인식한다. 사용한 평가 지표 중 정확도는 98.8%, 해밍 손실은 0.003을 달성하였고, 단일 클래스별 정밀도, 재현율, F1-점수는 모두 96.6% 이상을 달성하였다.

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류 (IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents)

  • 임소라;권용진
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-88
    • /
    • 2017
  • 최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.

전이학습과 그래프 합성곱 신경망 기반의 다중 패션 스타일 인식 (Recognition of Multi Label Fashion Styles based on Transfer Learning and Graph Convolution Network)

  • 김성훈;최예림;박종혁
    • 한국전자거래학회지
    • /
    • 제26권1호
    • /
    • pp.29-41
    • /
    • 2021
  • 최근 패션업계에서는 급속도로 발전하는 딥러닝 방법론을 활용하려는 시도가 늘고 있다. 이에 따라 다양한 패션 관련 문제들을 다루는 연구들이 제안되었고, 우수한 성능을 달성하였다. 하지만 패션 스타일 분류 문제의 경우, 기존 연구들은 한 옷차림이 여러 스타일을 동시에 포함할 수 있다는 패션 스타일의 특성을 반영하지 못하였다. 따라서 본 연구에서는 동시에 존재하는 레이블 간의 종속성을 모델링하고, 이를 반영하여 패션 스타일의 다중 분류 문제를 해결하고자 한다. 패션 스타일 사이의 종속성을 포착하고 탐색하기 위해 GCN(graph convolution network) 기반의 다중 레이블 인식 모델을 적용하였다. 또한 전이학습을 통해 모델의 학습 속도 및 성능을 향상시켰다. 제안하는 모델은 웹 크롤링을 통해 수집한 SNS 이미지 데이터를 이용하여 검증하였으며, 비교 모델 대비 우수한 성능을 기록하였다.