• Title/Summary/Keyword: 레이블링 데이터

Search Result 93, Processing Time 0.023 seconds

KE-T5-Based Text Emotion Classification in Korean Conversations (KE-T5 기반 한국어 대화 문장 감정 분류)

  • Lim, Yeongbeom;Kim, San;Jang, Jin Yea;Shin, Saim;Jung, Minyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.496-497
    • /
    • 2021
  • 감정 분류는 사람의 사고방식이나 행동양식을 구분하기 위한 중요한 열쇠로, 지난 수십 년간 감정 분석과 관련된 다양한 연구가 진행되었다. 감정 분류의 품질과 정확도를 높이기 위한 방법 중 하나로 단일 레이블링 대신 다중 레이블링된 데이터 세트를 감정 분석에 활용하는 연구가 제안되었고, 본 논문에서는 T5 모델을 한국어와 영어 코퍼스로 학습한 KE-T5 모델을 기반으로 한국어 발화 데이터를 단일 레이블링한 경우와 다중 레이블링한 경우의 감정 분류 성능을 비교한 결과 다중 레이블 데이터 세트가 단일 레이블 데이터 세트보다 23.3% 더 높은 정확도를 보임을 확인했다.

  • PDF

Implementation of Automatic Phoneme Labelling System Using Context-dependent Demi-phone Unit and Performance Evaluation (문맥종속 반음소단위에 의한 자동 음운 레이블링 시스템의 구현 및 성능평가)

  • Park Soon-Cheol;Kim Tae-Hwan;Kim Bong-Wan;Lee Yong-Ju
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.65-70
    • /
    • 1999
  • 음소 단위로 레이블링된 데이터베이스는 음성연구에 있어 매우 중요하다. 그러나 수작업에 의한 음소분할 및 레이블링 작업은 많은 시간과 노력이 필요하기 때문에 자동 음소분할 및 레이블링 시스템에 대한 많은 연구가 진행되고 있다. 저자들은 자동레이블링 시스템에서 레이블링 분할의 단위로monophone과 triphone의 장점을 포함하는 문맥 종속 반음소 단위 모델을 이용한 자동 음소분할 및 레이블링 시스템을 제안한바 있다[1]. 본 논문에서는 문맥종속 반음소 단위 자동음소분할 및 레이블링 시스템의 성능을 개선하기 위하여, 반음소의 단위를 개선하였다. 기존에 제안된 반음소 단위는 음소의 중점을 기준으로 left/right의 반음소 단위로 양분하였다. 본 논문에서는 음소의 길이가 120ms 이상일 경우 음소의 천이구간의 특성을 잘 나타낼 수 있도록, 음소의 앞뒤구간 각각 60ms를 전반음소와 후반음소로 나누고, 나머지 안정구간을 별도의 모델로 구성하였다. 본 논문에서 제안한 반음소 단위의 성능을 평가하기 위하여 PBW 452단어를 발성한 남자 30명분의 데이터를 이용하여 레이블링 시스템을 훈련하고, 훈련에 사용하지 않은 남자 4명분의 데이터를 이용하여 테스트 하였다. 실험결과, 기존의 반음소 단위에 비하여 10ms에서 $69.09\%$$1.65\%$, 20ms에서 $85.32\%$$1.02\%$의 성능향상을 가져왔다.

  • PDF

Semi-Supervised Learning for Pathological Image Analysis (Semi-supervised learning 기법을 활용한 병리학 이미지 분석)

  • Yu-Jin Lee;Nora Jee-Young Park;Sang-Min Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.675-677
    • /
    • 2023
  • 본 연구는 병리학 이미지 분석에서 자주 발생하는 문제 중 하나인 레이블링 불일치 문제를 해결하고자 준지도학습(semi-supervised learning) 기법을 적용하였다. 기존의 병리 진단 과정은 정확한 판정 및 치료를 위해 전문가의 판단을 필요로 한다. 이로 인해, 시간이 매우 많이 소모되며 전문가의 피로도가 증가한다. 최근 이를 해결하고자 지도학습(supervised learning) 기법을 사용하여 업무의 피로도를 감소시키고자 하는 연구가 진행되고 있다. 하지만 병리 이미지 데이터에 대한 접근이 어렵고, 병변의 위치를 레이블링 하는 부분에서 많은 비용이 발생한다. 또한 암 병변의 스펙트럼적 특성으로 인해 레이블링 과정 속에서 레이블링 불일치 문제가 발생할 가능성이 높다. 이러한 문제를 극복하기 위해, 우리는 제한된 레이블 된 데이터와 많은 양의 레이블 되지 않은 데이터를 활용하는 준지도학습 방법론을 제안한다. 이 제안하는 방법은 필요한 수동 레이블링 작업량을 줄여, 병리학자들에게 보다 효과적인 진단 도구를 제공할 것으로 예상된다.

Farey Labeling : XML data labeling scheme for Hierarchical data management (Farey Labeling : 계층적 데이터 관리를 지원하는 XML 데이터 레이블링 기법)

  • Bai, Ju-Ho;Kim, Hak-In;Park, Seog
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.164-169
    • /
    • 2010
  • 본 논문에서는 계층적 데이터를 관계형 데이터베이스 시스템에 저장하기 위한 요구사항을 만족하는 XML 레이블링 기법으로서 Farey Sequence 를 응용한 Faray 레이블링 기법을 제안한다. 이는 일반적인 동적 삽입연산 외에 형제간 노드 사이에 새 노드를 삽입할 경우 추가적인 레이블의 사이즈 증가 없이 기존노드의 리레이블링이 없고, 말단 노드의 삭제시 레이블의 재사용이 원할하며, 부모와 자식 사이에 새 노드를 삽입하는 경우가 빈번한 계층적 데이터 관리 시에 리레이블링을 최소화 할 수 있는 방법이다. 기존 XML 레이블링 기법이 부모 자식사이에 삽입 연산을 하는 경우 하위의 모든 노드를 리레이블링 해야 하는것에 비하여 본 기법은 오직 1개의 하위 노드만을 리레이블링 하기 때문에 해당 경우의 계층적 데이터의 동적 삽입 시 하위 노드의 개수에 상관없이 일정하게 연산시간을 유지할 수 있다.

  • PDF

An Auto-Labeling based Smart Image Annotation System (자동-레이블링 기반 영상 학습데이터 제작 시스템)

  • Lee, Ryong;Jang, Rae-young;Park, Min-woo;Lee, Gunwoo;Choi, Myung-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.6
    • /
    • pp.701-715
    • /
    • 2021
  • The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.

Effect on self-enhancement of deep-learning inference by repeated training of false detection cases in tunnel accident image detection (터널 내 돌발상황 오탐지 영상의 반복 학습을 통한 딥러닝 추론 성능의 자가 성장 효과)

  • Lee, Kyu Beom;Shin, Hyu Soung
    • Journal of Korean Tunnelling and Underground Space Association
    • /
    • v.21 no.3
    • /
    • pp.419-432
    • /
    • 2019
  • Most of deep learning model training was proceeded by supervised learning, which is to train labeling data composed by inputs and corresponding outputs. Labeling data was directly generated manually, so labeling accuracy of data is relatively high. However, it requires heavy efforts in securing data because of cost and time. Additionally, the main goal of supervised learning is to improve detection performance for 'True Positive' data but not to reduce occurrence of 'False Positive' data. In this paper, the occurrence of unpredictable 'False Positive' appears by trained modes with labeling data and 'True Positive' data in monitoring of deep learning-based CCTV accident detection system, which is under operation at a tunnel monitoring center. Those types of 'False Positive' to 'fire' or 'person' objects were frequently taking place for lights of working vehicle, reflecting sunlight at tunnel entrance, long black feature which occurs to the part of lane or car, etc. To solve this problem, a deep learning model was developed by simultaneously training the 'False Positive' data generated in the field and the labeling data. As a result, in comparison with the model that was trained only by the existing labeling data, the re-inference performance with respect to the labeling data was improved. In addition, re-inference of the 'False Positive' data shows that the number of 'False Positive' for the persons were more reduced in case of training model including many 'False Positive' data. By training of the 'False Positive' data, the capability of field application of the deep learning model was improved automatically.

KMSS: Korean Media Script Dataset for Dialogue Summarization (대화 요약 생성을 위한 한국어 방송 대본 데이터셋 )

  • Bong-Su Kim;Hye-Jin Jun;Hyun-Kyu Jeon;Hye-in Jung;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

Research on supplementing unlabeled data through pseudo-labeling. (의사 레이블링을 통한 레이블이 없는 데이터 보완 연구)

  • Min-Hee Yoo;Heon-Chang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.410-413
    • /
    • 2023
  • 레이블링 작업은 데이터 분석 시 필요한 사전 작업중 하나이다. 모든 데이터들에 대해 레이블링 작업은 시간/인적 자원을 필요로 하기에, 해당 작업을 보완할 방법이 존재한다면 요구되는 리소스를 줄여 효율성을 크게 향상시킬 수 있다. 본 논문에서는 통신회사에서 적재된 데이터 셋에 대하여 레이블이 없는 데이터(Unlabeled-data)에 대해 의사 레이블링(Pseudo-labeling), SMOTE 를 통한 데이터 증강을 활용하여 기존에 활용되지 못한 데이터를 추가하여 모델에 학습시킨다. 실험을 통해 의사 레이블을 통한 모델 학습 방법이 기존 도메인 지식의 레이블 방법보다 효율적이고 성능이 우수함을 확인하였다.

Two-Stage Contrastive Learning for Representation Learning of Korean Review Opinion (두 단계 대조 학습 기반 한국어 리뷰 의견 표현벡터 학습)

  • Jisu Seo;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.262-267
    • /
    • 2022
  • 이커머스 리뷰와 같은 특정 도메인의 경우, 텍스트 표현벡터 학습을 위한 양질의 오픈 학습 데이터를 구하기 어렵다. 또한 사람이 수동으로 검수하며 학습데이터를 만드는 경우, 많은 시간과 비용을 소모하게 된다. 따라서 본 논문에서는 수동으로 검수된 데이터없이 양질의 텍스트 표현벡터를 만들 수 있도록 두 단계의 대조 학습 시스템을 제안한다. 이 두 단계 대조 학습 시스템은 레이블링 된 학습데이터가 필요하지 않은 자기지도 학습 단계와 리뷰의 특성을 고려한 자동 레이블링 기반의 지도 학습 단계로 구성된다. 또한 노이즈에 강한 오류함수와 한국어에 유효한 데이터 증강 기법을 적용한다. 그 결과 스피어먼 상관 계수 기반의 성능 평가를 통해, 베이스 모델과 비교하여 성능을 14.03 향상하였다.

  • PDF

A Prime Number Labeling Based on Tree Decomposition for Dynamic XML Data Management (동적 XML 데이터 관리를 위한 트리 분해 기반의 소수 레이블링 기법)

  • Byun, Chang-Woo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.4
    • /
    • pp.169-177
    • /
    • 2011
  • As demand for efficiency in handling dynamic XML data grows, new dynamic XML labeling schemes have been researched. The key idea of the dynamic XML labeling scheme is to find ancestor-descendent-sibling relationships and to minimize memory space to store total label, response time and range of relabeling incurred by update operations. The prime number labeling scheme is a representative scheme which supports dynamic XML documents. It determines the ancestor-descendant relationships between two elements by a simple divisibility test of labels. When a new element is inserted into the XML data using this scheme, it does not change the label values of existing nodes. However, since each prime number must be used exclusively, labels can become significantly large. Therefore, in this paper, we introduce a novel technique to effectively reduce the problem of label overflow. The suggested idea is based on tree decomposition. When label overflow occurs, the full tree is divided into several sub-trees, and nodes in each sub-tree are separately labeled. Through experiments, we show the effectiveness of our scheme.