• 제목/요약/키워드: 다중레이블 분류

검색결과 40건 처리시간 0.021초

다중 패턴 분류를 위한 Import Vector Voting 모델 (Import Vector Voting Model for Multi-pattern Classification)

  • 최준혁;김대수;임기욱
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.655-660
    • /
    • 2003
  • 일반적으로 Support Vector Machine은 이진 분류 모형에 있어 우수한 성능을 보이지만 모델의 한계로 인하여 다중 패턴의 분류 문제에는 쉽게 적용하기가 어렵다. 본 논문에서는 이진 분류를 포함한 다중 레이블을 갖는 데이터의 정확한 패턴 분류를 위하여 Zhu가 제안한 Import Vector Machine에 커널 Bagging 전략을 적용하여 분류의 정확성을 향상시키기 위한 Import Vector Voting 모형을 제안한다. 이러한 Import Vector Voting 모형은 다수의 커널함수를 적용한 결과 중에서 가장 성능이 우수한 커널함수를 이용하여 최종 분류를 수행하기 위한 voting 전략으로 사용한다. 본 논문에서 제안하는 Import Vector Voting 모형은 이진 분류를 포함한 3개 이상의 다중 패턴 데이터에 대한 분류 문제에 있어 매우 정확한 분류 성능을 보임을 실험을 통해 입증한다.

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선 (Improving a CNN-based Image Annotation System Using Multi-Labeled Images)

  • 김택수;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-103
    • /
    • 2015
  • 최근 딥러닝 기술의 발전에 힘입어 이미지로부터 자동으로 관련된 단어 혹은 문장을 생성하는 연구들이 진행되고 있는데, 많은 연구들은 이미지와 단어가 1:1로 대응된 잘 정련된 학습 집합을 필요로 한다. 한편 스마트폰 보급의 확산으로 인스타그램, 폴라 등의 이미지 기반 SNS가 급속하게 성장함에 따라 인터넷에는 한 이미지의 복수개의 단어(태그)가 부착되어있는 데이터들이 폭증하고 있는 것이 현실이다. 본 논문에서는 소규모의 잘 정련된 학습 집합뿐 아니라 이러한 대규모의 다중 레이블 데이터를 같이 활용하여 이미지로부터 태그를 생성하는 개선된 CNN구조 및 학습알고리즘을 제안한다. 기존의 분류 기반 모델에 은닉층을 추가하고 새로운 학습 방법을 도입한 결과, 어노테이션 성능이 기존 모델보다 11% 이상 향상되었다.

  • PDF

기술문서 분류를 위한 통계기반 기계학습 모델 성능비교 및 한계 연구 (Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents)

  • 김진구;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.393-396
    • /
    • 2022
  • 본 연구는 국방과학기술 분야의 특허 및 논문 실적을 이용하여 통계기반 기계학습 모델 4 종을 학습하고, 실제 분석 대상기관의 데이터 입력결과를 분석하여 실용성에 대한 한계점 분석을 목적으로 한다. 기존 연구에서는 특허분류코드를 기준으로 분류하여 특수 목적으로 활용하거나 세부 연구 범위 내 연구 주제탐색 및 특징연구 등 미시적인 관점에서의 상세연구 활용 목적인 반면, 본 연구는 거시적인 관점에서 연구의 전체적인 흐름과 경향성 파악을 목적으로 한다. 이에 ICT 기술 138 종의 특허 및 논문 30,965 건과 국방과학기술 192 종의 특허 및 논문 23,406 건을 학습데이터로 각 모델을 학습하였다. 비교한 통계기반 학습모델은 Support Vector Machines, Decision Tree, Naive Bayes, XGBoost 모델이다. 학습데이터에 대한 학습검증 단계에서는 최대 99.4%의 성능을 보였다. 다만, 실제 분석대상기관의 특허 및 논문 12,824 건으로 입력분석한 결과, 모델별 편향성 문제, 데이터 전처리 이슈, 다중클래스 및 다중레이블 문제를 확인, 도출한 문제에 대한 해결방안을 제시하고 추가 연구의 방향성을 제시한다.

MPLS 망에서 복수 연결해제 타이머를 이용한 레이블 공간의 효율적 사용방법 (An Algorithm for Efficient use of Label Space over MPLS Network with Multiple Disconnent Timers)

  • 이선우;변태영;한기준;정연쾌
    • 한국정보과학회논문지:정보통신
    • /
    • 제29권1호
    • /
    • pp.24-30
    • /
    • 2002
  • 레이블 스위칭 기술은 격증하는 인터넷 서비스의 요구 대역폭을 만족시키기 위해 개발된 기술이다. 이중 multiprotocol label switching(MPLS)은 기존의 레이블 스위칭 기술을 통합하고 여러 장비제조 업체들간의 호환성을 보장하기 위해 IETF(Internet engineering task force)를 중심으로 표준화가 진행중이다. MPLS에서 레이블은 패킷의 스위칭에 사용되는 기본적인 단위이므로 이러한 레이블 공간이 각 레이블 스위칭 라우터를 어떻게 관리되고 효율적으로 사용되는가에 따라 MPLS망의 성능에 큰 영향을 미친다. 본 논문에서는 이러한 레이블 공간을 효율적으로 사용하기 위해 다중 도메인에서 레이블 스위칭 라우터의 연결 해제 타이머의 복수 사용을 제안한다. 이 방법은 패킷 분류기를 통해 트래픽의 특성에 따라 등급이 높은 트래픽에 대해서는 상대적으로 긴 연결 해제 타이머를 할당하여 새로운 연결에 걸리는 지연시간을 줄이고 3계층으로 라우팅 되는 패킷의 양을 줄이는 것이다. 제안된 방법을 실제 인터넷 망에서 수집된 트래픽 자료를 이용하여 시뮬레이션을 수행하였고 그 결과 MPLS망의 동작에 필요한 레이블 공간이 기존의 방법보다 감소하였음을 확인하였다.

CNN과 Grad-CAM 기반의 실시간 화재 감지 (Real-Time Fire Detection based on CNN and Grad-CAM)

  • 김영진;김은경
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1596-1603
    • /
    • 2018
  • 화재에 대한 신속한 예측과 경고는 인명 및 재산피해를 최소화시킬 수 있는 필수적인 요소이다. 일반적으로 화재가 발생하면 연기와 화염이 함께 발생하기 때문에 화재 감지 시스템은 연기와 화염을 모두 감지할 필요가 있다. 그러나 대부분의 화재 감지 시스템은 화염 혹은 연기만 감지하며, 화재 감지를 위한 전처리 작업을 추가함에 따라 처리 속도가 느려지는 단점이 있다. 본 연구에서는 다중 레이블 분류(Multi-labeled Classification)를 지원하는 CNN 모델을 구성해서 화염과 연기를 동시에 예측하고, CNN의 특징을 기반으로 클래스에 대한 위치를 시각화하는 Grad-CAM을 이용해서 실시간으로 화재 상태를 모니터링 할 수 있는 화재 감지 시스템을 구현하였다. 또한, 13개의 화재 동영상을 사용해서 테스트한 결과, 화염과 연기에 대해 각각 98.73%와 95.77%의 정확도를 보였다.

A Text Sentiment Classification Method Based on LSTM-CNN

  • Wang, Guangxing;Shin, Seong-Yoon;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.1-7
    • /
    • 2019
  • 머신 러닝의 심층 개발로 딥 러닝 방법은 특히 CNN(Convolution Neural Network)에서 큰 진전을 이루었다. 전통적인 텍스트 정서 분류 방법과 비교할 때 딥 러닝 기반 CNN은 복잡한 다중 레이블 및 다중 분류 실험의 텍스트 분류 및 처리에서 크게 발전하였다. 그러나 텍스트 정서 분류를 위한 신경망에도 문제가 있다. 이 논문에서는 LSTM (Long-Short Term Memory network) 및 CNN 딥 러닝 방법에 기반 한 융합 모델을 제안하고, 다중 카테고리 뉴스 데이터 세트에 적용하여 좋은 결과를 얻었다. 실험에 따르면 딥 러닝을 기반으로 한 융합 모델이 텍스트 정서 분류의 예측성과 정확성을 크게 개선하였다. 본 논문에서 제안한 방법은 모델을 최적화하고 그 모델의 성능을 개선하는 중요한 방법이 될 것이다.

국가별 행정체계 특성을 반영한 인공지능 활용 해외 주소데이터 품질검증 기법 (Overseas Address Data Quality Verification Technique using Artificial Intelligence Reflecting the Characteristics of Administrative System)

  • 김진실;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.1-9
    • /
    • 2022
  • 글로벌 시대에 들어서면서 수입식품 안전관리에 대한 중요성이 증가하고 있다. 해외 식품업체 주소정보는 수입식품 안전관리를 위한 핵심 정보로써 식품위해 발생시 신속한 대처와 사후관리를 위해 반드시 검증되어야 한다. 그러나 각국의 주소체계가 다른 관계로 하나의 검증시스템이 모든 국가의 주소를 검증할 수는 없다. 또한, 주소검증은 사용하는 분야에 따라 검정목적이 상이할 수 있다. 본 논문에서는 주어진 해외 식품업체 주소로부터 해당 국가의 행정구역 레벨로 분류하는 문제를 다룬다. 수입식품 안전관리를 정확하고 효율적으로 하기 위하여 수입식품제조업체 주소를 해당 국가의 행정구역 수준으로 정확하게 매칭하는 것이 필요하다. 수입식품이 생산·제조되는 위치와 식품제조에 영향을 줄 수 있는 환경정보, 재난재해 정보를 결합함으로써 선제적 수입식품 안전관리가 가능하다. 그러나, 일부 국가에서는 주소를 표기할 때 행정구역 레벨명을 생략하여 작성하고 있으며, 동일한 지명이 여러 행정구역 레벨에서 중복되는 경우가 있어 주소로부터 행정구역 레벨을 정확히 분류하는 일은 쉽지 않다. 본 연구에서는 이러한 경우에 적합한 딥러닝 기반 행정구역 레벨 분류 모델을 제안하고, 실제 해외 식품회사 주소 데이터에 대하여 검증한다. 구체적으로 다중 레이블 분류 모델에서 멱집합(Label Powerset)을 이용해 훈련하는 방식을 사용한다. 제안된 기법의 검증을 위해 식약처에 등록된 에콰도르 및 베트남에 있는 해외 제조업소 주소에 대하여 정확도를 검증하였으며, 기존의 분류 모델보다 정확도가 각각 28.1% 및 13% 정도 향상되었다.

머신러닝 기반의 기업 리뷰 다중 분류: 부분 문법 적용을 중심으로 (Multi-Label Classification for Corporate Review Text: A Local Grammar Approach)

  • 백혜연;장영균
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.27-41
    • /
    • 2023
  • 최근 많은 분야에서 기계학습에 대한 연구가 활발히 진행되고 있는데, 상당수의 연구들이 학습 모델의 성능을 개선하는 최신 방법론을 제시하고 있다. 본 연구에서는 방법론의 개발 못지않게 기계학습에 투입되는 훈련용 데이터의 '품질'을 개선하는 것 역시 중요하다는 점에 착안하여, 코퍼스 분석에서 자주 사용되는 '부분 문법' 처리 프로세스를 통해 훈련 데이터의 품질을 향상시키는 방법을 제시한다. 우리나라 100대 기업에 근무하는 재직자들이 채용플랫폼에 게시하는 방대한 양의 비정형 기업 리뷰 텍스트 데이터를 수집하고, 데이터 품질을 부분 문법 프로세스로 개선한 후, 부분 문법이 적용된 분류 모델이 적용되지 않은 모델보다 분류 성능이 우수함을 확인하였다. 분류 카테고리는 직원 몰입의 5가지 요인으로 상정하였는데, 국내 직장인들이 기업 리뷰가 각 유형별로 빈도에 차이가 있는지를 분석하였다. 추가로 리뷰 양상이 코로나 팬데믹 전후로 어떠한 변화가 있었는지도 분석하였다. 본 연구를 통해 국내 직장인들의 생생한 일터 경험들을 자동적으로 식별하고 분류하여, 이직을 포함한 주요한 조직문화 현상의 행태와 유발 원인 등을 유추해 볼 수 있는 근거를 제공한다.

프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석 (Prompt Tuning For Korean Aspect-Based Sentiment Analysis)

  • 김봉수;전현규;최승호;김지윤;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF

다중 공간정보 데이터의 점진적 조합에 의한 의미적 분류 딥러닝 모델 학습 성능 분석 (Training Performance Analysis of Semantic Segmentation Deep Learning Model by Progressive Combining Multi-modal Spatial Information Datasets)

  • 이대건;신영하;이동천
    • 한국측량학회지
    • /
    • 제40권2호
    • /
    • pp.91-108
    • /
    • 2022
  • 대부분의 경우 광학 RGB 영상을 딥러닝(DL: Deep learning)의 학습 데이터로 사용하여 객체탐지, 인식, 식별, 분류, 의미적 분할 및 객체 분할 등을 수행하지만, 실세계의 3차원 객체들을 2차원 영상으로 완전하게 파악하는 것은 한계가 있다. 그러므로 대표적인 3차원 지형 공간정보인 수치표면모델(DSM: Digital Surface Model)과 더불어 DSM에 내재된 특성정보를 이용하여 3차원 지형지물을 분석하는 것이 효과적이다. 건물과 같이 기하학적으로 정형화된 형태의 인공구조물은 3차원 공간데이터로부터 얻을 수 있는 기하학적 요소와 특성을 이용하여 객체의 분류와 형상 묘사가 가능하다. 이 연구는 고차원 시각정보(high-level visual information) 시스템에서 중요한 역할을 하는 내재된 고유의 특성정보(intrinsic information)를 기반으로 하며, 이를 위하여 객체의 기하학적 요소인 경사와 주향을 DSM으로부터 도출하고, 다방향에서 생성한 음영기복영상(SRI: Shaded Relief Image)과 함께 DL 모델의 학습 수행에 사용하였다. 실험은 ISPRS (International Society for Photogrammetry and Remote Sensing)에서 제공하는 데이터 셋 중에서 DSM과 레이블 데이터를 객체의 의미적 분류를 위해 개발된 합성곱 기반의 SegNet 학습에 사용하였다. 지형지물을 분류하고 분류 결과를 이용하여 건물을 추출하였다. 특히 DL 모델의 학습 성능 향상을 위해 학습 데이터의 여러 조합에 따른 시너지 효과를 분석하는 것에 핵심이다. 제안한 방법은 건물 분류와 추출에 효과적임을 보여주고 있다.