• 제목/요약/키워드: 레이블링 데이터

검색결과 93건 처리시간 0.025초

KE-T5 기반 한국어 대화 문장 감정 분류 (KE-T5-Based Text Emotion Classification in Korean Conversations)

  • 임영범;김산;장진예;신사임;정민영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.496-497
    • /
    • 2021
  • 감정 분류는 사람의 사고방식이나 행동양식을 구분하기 위한 중요한 열쇠로, 지난 수십 년간 감정 분석과 관련된 다양한 연구가 진행되었다. 감정 분류의 품질과 정확도를 높이기 위한 방법 중 하나로 단일 레이블링 대신 다중 레이블링된 데이터 세트를 감정 분석에 활용하는 연구가 제안되었고, 본 논문에서는 T5 모델을 한국어와 영어 코퍼스로 학습한 KE-T5 모델을 기반으로 한국어 발화 데이터를 단일 레이블링한 경우와 다중 레이블링한 경우의 감정 분류 성능을 비교한 결과 다중 레이블 데이터 세트가 단일 레이블 데이터 세트보다 23.3% 더 높은 정확도를 보임을 확인했다.

  • PDF

문맥종속 반음소단위에 의한 자동 음운 레이블링 시스템의 구현 및 성능평가 (Implementation of Automatic Phoneme Labelling System Using Context-dependent Demi-phone Unit and Performance Evaluation)

  • 박순철;김태환;김봉완;이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.65-70
    • /
    • 1999
  • 음소 단위로 레이블링된 데이터베이스는 음성연구에 있어 매우 중요하다. 그러나 수작업에 의한 음소분할 및 레이블링 작업은 많은 시간과 노력이 필요하기 때문에 자동 음소분할 및 레이블링 시스템에 대한 많은 연구가 진행되고 있다. 저자들은 자동레이블링 시스템에서 레이블링 분할의 단위로monophone과 triphone의 장점을 포함하는 문맥 종속 반음소 단위 모델을 이용한 자동 음소분할 및 레이블링 시스템을 제안한바 있다[1]. 본 논문에서는 문맥종속 반음소 단위 자동음소분할 및 레이블링 시스템의 성능을 개선하기 위하여, 반음소의 단위를 개선하였다. 기존에 제안된 반음소 단위는 음소의 중점을 기준으로 left/right의 반음소 단위로 양분하였다. 본 논문에서는 음소의 길이가 120ms 이상일 경우 음소의 천이구간의 특성을 잘 나타낼 수 있도록, 음소의 앞뒤구간 각각 60ms를 전반음소와 후반음소로 나누고, 나머지 안정구간을 별도의 모델로 구성하였다. 본 논문에서 제안한 반음소 단위의 성능을 평가하기 위하여 PBW 452단어를 발성한 남자 30명분의 데이터를 이용하여 레이블링 시스템을 훈련하고, 훈련에 사용하지 않은 남자 4명분의 데이터를 이용하여 테스트 하였다. 실험결과, 기존의 반음소 단위에 비하여 10ms에서 $69.09\%$$1.65\%$, 20ms에서 $85.32\%$$1.02\%$의 성능향상을 가져왔다.

  • PDF

Semi-supervised learning 기법을 활용한 병리학 이미지 분석 (Semi-Supervised Learning for Pathological Image Analysis)

  • 이유진;박지영;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.675-677
    • /
    • 2023
  • 본 연구는 병리학 이미지 분석에서 자주 발생하는 문제 중 하나인 레이블링 불일치 문제를 해결하고자 준지도학습(semi-supervised learning) 기법을 적용하였다. 기존의 병리 진단 과정은 정확한 판정 및 치료를 위해 전문가의 판단을 필요로 한다. 이로 인해, 시간이 매우 많이 소모되며 전문가의 피로도가 증가한다. 최근 이를 해결하고자 지도학습(supervised learning) 기법을 사용하여 업무의 피로도를 감소시키고자 하는 연구가 진행되고 있다. 하지만 병리 이미지 데이터에 대한 접근이 어렵고, 병변의 위치를 레이블링 하는 부분에서 많은 비용이 발생한다. 또한 암 병변의 스펙트럼적 특성으로 인해 레이블링 과정 속에서 레이블링 불일치 문제가 발생할 가능성이 높다. 이러한 문제를 극복하기 위해, 우리는 제한된 레이블 된 데이터와 많은 양의 레이블 되지 않은 데이터를 활용하는 준지도학습 방법론을 제안한다. 이 제안하는 방법은 필요한 수동 레이블링 작업량을 줄여, 병리학자들에게 보다 효과적인 진단 도구를 제공할 것으로 예상된다.

Farey Labeling : 계층적 데이터 관리를 지원하는 XML 데이터 레이블링 기법 (Farey Labeling : XML data labeling scheme for Hierarchical data management)

  • 배주호;김학인;박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.164-169
    • /
    • 2010
  • 본 논문에서는 계층적 데이터를 관계형 데이터베이스 시스템에 저장하기 위한 요구사항을 만족하는 XML 레이블링 기법으로서 Farey Sequence 를 응용한 Faray 레이블링 기법을 제안한다. 이는 일반적인 동적 삽입연산 외에 형제간 노드 사이에 새 노드를 삽입할 경우 추가적인 레이블의 사이즈 증가 없이 기존노드의 리레이블링이 없고, 말단 노드의 삭제시 레이블의 재사용이 원할하며, 부모와 자식 사이에 새 노드를 삽입하는 경우가 빈번한 계층적 데이터 관리 시에 리레이블링을 최소화 할 수 있는 방법이다. 기존 XML 레이블링 기법이 부모 자식사이에 삽입 연산을 하는 경우 하위의 모든 노드를 리레이블링 해야 하는것에 비하여 본 기법은 오직 1개의 하위 노드만을 리레이블링 하기 때문에 해당 경우의 계층적 데이터의 동적 삽입 시 하위 노드의 개수에 상관없이 일정하게 연산시간을 유지할 수 있다.

  • PDF

자동-레이블링 기반 영상 학습데이터 제작 시스템 (An Auto-Labeling based Smart Image Annotation System)

  • 이용;장래영;박민우;이건우;최명석
    • 한국콘텐츠학회논문지
    • /
    • 제21권6호
    • /
    • pp.701-715
    • /
    • 2021
  • 최근 딥러닝 기술의 급속한 발전과 함께 학습데이터가 크게 주목을 받고 있다. 일반적으로 딥러닝 방식에서는 모델을 훈련시키기 위해 충분한 학습데이터가 준비되어 있어야 한다. 하지만, 딥러닝 모델 설계 작업과 달리 데이터셋을 제작하는 데 상당한 시간과 노력이 필요하다. 영상 데이터를 주로 다루는 시각지능 분야에서도 학습데이터 제작자들은 전문적인 학습데이터 제작 도구를 사용해 이미지 단위로 레이블링을 수작업으로 하고 있어 여전히 많은 시간과 노력이 필요한 상황이다. 따라서, 다양한 분야에서 필요한 충분한 영상 학습데이터셋을 확보하기 위해 기존의 수작업 방식을 대체할 수 있는 레이블링 기술이 필요하다. 본 논문에서는, 영상 학습데이터셋 동향을 소개하고, 학습데이터 제작 환경에 대해 분석한다 특히, 수작업으로 이루어지는 반복적이고 수고스러운 레이블링 과정을 자동화하여, '확인과 수정'의 단계를 비약적으로 단축시킬 수 있는 '스마트 영상학습데이터 제작 시스템'을 제안한다. 그리고, 실험을 통해 영상 학습데이터 제작 과정에서 이미지에 박스형 및 폴리곤형 객체영역을 지정하여 레이블링하는 데 소요되는 시간을 크게 줄이기 위한 자동레이블링 방식의 효과를 검증한다. 마지막으로, 제안하는 시스템의 실험에서 추가적으로 검증되어야 하는 부분과 함께 이를 개선하기 위한 향후 연구 계획에 대해 논의한다.

터널 내 돌발상황 오탐지 영상의 반복 학습을 통한 딥러닝 추론 성능의 자가 성장 효과 (Effect on self-enhancement of deep-learning inference by repeated training of false detection cases in tunnel accident image detection)

  • 이규범;신휴성
    • 한국터널지하공간학회 논문집
    • /
    • 제21권3호
    • /
    • pp.419-432
    • /
    • 2019
  • 대부분 딥러닝 모델의 학습은 입력값과 입력값에 따른 출력값이 포함된 레이블링 데이터(labeling data)를 학습하는 지도 학습(supervised learning)으로 진행된다. 레이블링 데이터는 인간이 직접 제작하므로 데이터의 정확도가 높다는 장점이 있지만 비용과 시간의 문제로 인해 데이터의 확보에 많은 노력이 소요된다. 그리고 지도 학습의 목표는 정탐지 데이터(true positive data)의 인식 성능 향상에 초점이 맞추어져 있으며, 오탐지 데이터(false positive data)의 발생에 대한 대처는 미흡한 실정이다. 본 논문은 터널 관제센터에 투입된 딥러닝 모델 기반 영상유고 시스템의 모니터링을 통해 정탐지와 레이블링 데이터의 학습으로 예측하기 힘든 오탐지의 발생을 확인하였다. 오탐지의 유형은 작업차량의 경광등, 터널 입구부에서 반사되는 햇빛, 차선과 차량의 일부에서 발생하는 길쭉한 검은 음영 등이 화재와 보행자로 오탐지되고 있었다. 이러한 문제를 해결하기 위해 현장에서 발생한 오탐지 데이터와 레이블링 데이터를 동시에 학습하여 딥러닝 모델을 개발하였으며, 그 결과 기존 레이블링 데이터만 학습한 모델과 비교하면 레이블링 데이터에 대한 재추론 성능이 향상됨을 알 수 있었다. 그리고 오탐지 데이터에 대한 재추론을 한 결과 오탐지 데이터를 많이 포함하여 학습한 모델일 경우 보행자의 오탐지 개수가 훨씬 줄었으며, 오탐지 데이터의 학습을 통해 딥러닝 모델의 현장 적용성을 향상시킬 수 있었다.

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

의사 레이블링을 통한 레이블이 없는 데이터 보완 연구 (Research on supplementing unlabeled data through pseudo-labeling.)

  • 유민희;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.410-413
    • /
    • 2023
  • 레이블링 작업은 데이터 분석 시 필요한 사전 작업중 하나이다. 모든 데이터들에 대해 레이블링 작업은 시간/인적 자원을 필요로 하기에, 해당 작업을 보완할 방법이 존재한다면 요구되는 리소스를 줄여 효율성을 크게 향상시킬 수 있다. 본 논문에서는 통신회사에서 적재된 데이터 셋에 대하여 레이블이 없는 데이터(Unlabeled-data)에 대해 의사 레이블링(Pseudo-labeling), SMOTE 를 통한 데이터 증강을 활용하여 기존에 활용되지 못한 데이터를 추가하여 모델에 학습시킨다. 실험을 통해 의사 레이블을 통한 모델 학습 방법이 기존 도메인 지식의 레이블 방법보다 효율적이고 성능이 우수함을 확인하였다.

두 단계 대조 학습 기반 한국어 리뷰 의견 표현벡터 학습 (Two-Stage Contrastive Learning for Representation Learning of Korean Review Opinion)

  • 서지수;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-267
    • /
    • 2022
  • 이커머스 리뷰와 같은 특정 도메인의 경우, 텍스트 표현벡터 학습을 위한 양질의 오픈 학습 데이터를 구하기 어렵다. 또한 사람이 수동으로 검수하며 학습데이터를 만드는 경우, 많은 시간과 비용을 소모하게 된다. 따라서 본 논문에서는 수동으로 검수된 데이터없이 양질의 텍스트 표현벡터를 만들 수 있도록 두 단계의 대조 학습 시스템을 제안한다. 이 두 단계 대조 학습 시스템은 레이블링 된 학습데이터가 필요하지 않은 자기지도 학습 단계와 리뷰의 특성을 고려한 자동 레이블링 기반의 지도 학습 단계로 구성된다. 또한 노이즈에 강한 오류함수와 한국어에 유효한 데이터 증강 기법을 적용한다. 그 결과 스피어먼 상관 계수 기반의 성능 평가를 통해, 베이스 모델과 비교하여 성능을 14.03 향상하였다.

  • PDF

동적 XML 데이터 관리를 위한 트리 분해 기반의 소수 레이블링 기법 (A Prime Number Labeling Based on Tree Decomposition for Dynamic XML Data Management)

  • 변창우
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.169-177
    • /
    • 2011
  • 갱신 연산의 허용으로 동적 XML 데이터의 처리 효율성의 요구가 증대하면서 새로운 동적 XML 레이블링 기법들이 연구되어 왔다. 동적 XML 레이블링 기법의 핵심적인 해결 사항으로는 조상-자손-형제 관계 결정, 레이블 저장공간의 절약, 빠른 응답시간, 갱신에 의한 레이블 재작성의 최소화이다. 대표적인 동적 레이블링 기법으로 소수 기반 레이블링 기법이 있다. 소수 기반 레이블링 기법은 소수의 특성을 이용하여 조상-자손 관계를 쉽게 결정한다. 또한 새로운 엘리먼트를 삽입할 때도 기존 노드의 레이블을 재작성하는 비용이 발생되지 않는 장점을 갖고 있다. 하지만 소수를 많이 사용하면 레이블의 값이 상당히 커지게 되는 레이블 오버플로우 문제가 발생된다. 본 논문에서는 레이블 오버플로우 문제를 효과적으로 줄이는 새로운 방법을 소개한다. 제안하는 방법의 핵심 개념은 트리 분해이다. 레이블 오버플로우가 발생하면 트리를 하부 트리들로 분해하고 레이블은 각 하부 트리에 한해서 부여하는 것이다. 실험을 통해 트리 분해 기반의 소수 기반 레이블링 기법의 효과를 보인다.