• 제목/요약/키워드: 비지도학습

검색결과 221건 처리시간 0.027초

한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석 (Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations)

  • 유영현;이규민;전민진;차지이;김강산;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

이종의 말뭉치를 활용한 자기 지도 문장 임베딩 학습 방법 (Self-supervised Learning Method using Heterogeneous Mass Corpus for Sentence Embedding Model)

  • 김성주;서수빈;박진성;박성현;전동현;김선훈;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-36
    • /
    • 2020
  • 문장의 의미를 잘 임베딩하는 문장 인코더를 만들기 위해 비지도 학습과 지도 학습 기반의 여러 방법이 연구되고 있다. 지도 학습 방식은 충분한 양의 정답을 구축하는데 어려움이 있다는 한계가 있다. 반면 지금까지의 비지도 학습은 단일 형식의 말뭉치에 한정해서 입력된 현재 문장의 다음 문장을 생성 또는 예측하는 형식으로 문제를 정의하였다. 본 논문에서는 위키피디아, 뉴스, 지식 백과 등 문서 형태의 말뭉치에 더해 지식인이나 검색 클릭 로그와 같은 구성이 다양한 이종의 대량 말뭉치를 활용하는 자기 지도 학습 방법을 제안한다. 각 형태의 말뭉치에 적합한 자기 지도 학습 문제를 설계하고 학습한 경우 KorSTS 데이셋의 비지도 모델 성능 평가에서 기준 모델 대비 7점 가량의 성능 향상이 있었다.

  • PDF

비지도학습 기반 자동 특허문서 분류 시스템 (Unsupervised learning-based automated patent document classification system)

  • 김상백;김지호;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.421-422
    • /
    • 2021
  • 국내·외 기업들의 기술을 보호하고자 매년 100만개의 특허가 출원되고 있다. 등록된 특허 수가 증가될수록 전문가의 판단만으로 원하는 기술 분야의 유효한 특허문서를 선별하는 것은 효율적이지 않으며 객관적인 결과를 기대하기 어려워진다. 본 연구에서는 유효 특허문서 분류 정확성과 전문가의 업무 효율성을 제고하고자 비지도학습 모델인 잠재 디리클레 할당 알고리즘(Latent Dirichlet Allocation, LDA)과 딥러닝을 활용하여 자동 특허문서 분류 시스템을 제안하고자 한다.

  • PDF

비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석 (On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning)

  • 한명수;정유현;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

비지도 학습 기반 초개인화 추천 서비스를 위한 메타데이터 추출의 중요성 고찰 (Consideration upon Importance of Metadata Extraction for a Hyper-Personalized Recommender System on Unsupervised Learning)

  • 백주련;고광호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.19-22
    • /
    • 2022
  • 서비스 관점에서 구축되는 추천 시스템의 성능은 얼마나 효율적인 추천 모델을 적용하여 심층적으로 설계되었는가에 좌우된다고도 볼 수 있다. 특히, 추천 시스템의 초개인화는 세계적인 추세로 1~2년 전부터 구글, 아마존, 알리바바 등의 데이터 플랫폼 강자들이 경쟁적으로 딥 러닝 기반의 알고리즘을 개발, 자신들의 추천 서비스에 적용하고 있다. 본 연구는 갈수록 고도화되는 추천 시스템으로 인해 발생하는 여러 문제들 중 사용자 또는 서비스 정보가 부족하여 계속적으로 발생하고 있는 Cold-start 문제와 추천할 서비스와 사용자는 지속적으로 늘어나지만 실제로 사용자가 소비하게 되는 서비스의 비율은 현저하게 감소하는 데이터 희소성 문제 (Sparsity Problem)에 대한 솔루션을 모색하는 알고리즘 관점에서 연구하고자 한다. 본 논문은 첫 단계로, 적용하는 메타데이터에 따라 추천 결과의 정확성이 얼마나 차이가 나는지를 보이고 딥러닝 비지도학습 방식을 메타데이터 선정 및 추출에 적용하여 실시간으로 변화하는 소비자의 실제 생활 패턴 및 니즈를 예측해야 하는 필요성에 대해서 기술하고자 한다.

  • PDF

탄성파 자료 잡음 제거를 위한 비지도 학습 연구 (The Use of Unsupervised Machine Learning for the Attenuation of Seismic Noise)

  • 김수정;전형구
    • 지구물리와물리탐사
    • /
    • 제25권2호
    • /
    • pp.71-84
    • /
    • 2022
  • 탄성파 자료 취득 시 신호와 함께 기록되는 다양한 형태의 잡음은 탄성파 자료의 정확한 해석을 방해하는 요인으로 작용한다. 따라서 탄성파 자료의 잡음 제거는 탄성파 자료 처리 과정 중 필수적인 절차이므로 기계 학습을 포함한 다양한 방식의 잡음 제거 연구가 수행되고 있다. 본 연구에서는 비지도 학습 기반의 탄성파 잡음 제거 모델을 이용하여 중합 전 탄성파 자료의 잡음 제거를 수행하고자 하였으며 총 세 가지의 비지도 학습 기반 기계 학습 모델을 비교하였다. 세 가지의 비지도 학습 모델은 N2NUNET, PATCHUNET, DDUL로 각각 서로 다른 신경망 구조를 통해 정답 자료 없이 탄성파 잡음을 제거한다. 세 가지 모델들을 인공 합성 및 현장 중합 전 탄성파 자료에 적용하여 잡음을 제거한 후 그 결과를 정성적·정량적으로 분석하였으며, 분석 결과 세 가지 비지도 학습 모델 모두 인공 합성 및 현장 자료의 탄성파 잡음을 적절히 제거하였음을 확인하였다. 그 중 N2NUNET 모델이 가장 낮은 잡음 제거 성능을 보여주었으며, PATCHUNET과 DDUL은 거의 유사한 결과를 도출하였지만, DDUL이 정량적으로 근소한 우위를 보였다.

동영상 안정화를 위한 옵티컬 플로우의 비지도 학습 방법 (Deep Video Stabilization via Optical Flow in Unstable Scenes)

  • 이보희;김광수
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 동영상 안정화 기술은 최근 1인 미디어 시장이 거대화됨에 따라 그 중요성이 점점 커지고 있는 카메라 기술 중 하나이다. 딥러닝 기반의 기존 방법들에서는 안정화 전/후 동영상 데이터 쌍을 사용하였으나 동영상의 특성상 동기화된 안정화 전/후 데이터를 만드는 것은 많은 시간과 노력이 필요하다. 최근 이러한 문제를 완화하기 위하여 안정화 전 데이터만을 사용하는 비지도 학습 방법이 제시되고 있다. 본 논문에서는 비지도 학습 방법의 하나인 Convolutional Autoencoder 구조를 사용하여 안정화 전/후 동영상 데이터 쌍 없이 안정화 전 영상만으로 안정화 궤적을 학습하는 네트워크 구조를 제안한다. 네트워크 입력 및 출력으로 옵티컬 플로우를 사용하고 네트워크 경량화 및 노이즈 최소화를 위해 옵티컬 플로우를 Grid 단위로 맵핑하여 사용했다. 또한 비지도 학습 방법으로 안정화된 궤적을 생성하기 위해 옵티컬 플로우를 부드럽게 만드는 손실함수를 정의하였고 결과 비교를 통해 손실함수의 의도대로 부드러운 궤적을 생성하도록 네트워크가 학습되었음을 확인했다.

자연 영상에 대한 Naive Convolutional Auto Encoder의 특징 추출 성능에 관한 연구 (A Study on Feature Extraction Performance of Naive Convolutional Auto Encoder to Natural Images)

  • 이성주;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1286-1289
    • /
    • 2022
  • 최근 영상 군집화 분야는 딥러닝 모델에게 Self-supervision을 주거나 unlabeled 영상에 유사-레이블을 주는 방식으로 연구되고 있다. 또한, 고차원 컬러 자연 영상에 대해 잘 압축된 특징 벡터를 추출하는 것은 군집화에 있어 중요한 기준이 된다. 본 연구에서는 자연 영상에 대한 Convolutional Auto Encoder의 특징 추출 성능을 평가하기 위해 설계한 실험 방법을 소개한다. 특히 모델의 특징 추출 능력을 순수하게 확인하기 위하여 Self-supervision 및 유사-레이블을 제공하지 않은 채 Naive한 모델의 결과를 분석할 것이다. 먼저 실험을 위해 설계된 4가지 비지도학습 모델의 복원 결과를 통해 모델별 학습 정도를 확인한다. 그리고 비지도 모델이 다량의 unlabeled 영상으로 학습되어도 더 적은 labeled 데이터로 학습된 지도학습 모델의 특징 추출 성능에 못 미침을 특징 벡터의 군집화 및 분류 실험 결과를 통해 확인한다. 또한, 지도학습 모델에 데이터셋 간 교차 학습을 수행하여 출력된 특징 벡터의 군집화 및 분류 성능도 확인한다.

  • PDF

비지도 학습을 위한 언플러그드 활동에 대한 연구 (A study about CS Unplugged using Unsupervised Learning)

  • 전병우;신승기
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.175-179
    • /
    • 2021
  • 언플러그드 활동은 프로그래밍 프로그램 이외의 학습 도구를 통하여 컴퓨터 과학에 대하여 학습하는 활동들이다. 기존의 언플러그드 활동은 절차적인 사고 과정에 초점을 맞추고, 놀이를 통해 사고 과정을 지도하는 것에 초점을 두어, 최근 주목되는 머신 러닝에서 중요한 비중을 차지하는 비지도 학습에 대한 연구는 부족한 실정이다. 본 연구에서는 초등학생들에게 익숙한 영상 매체를 사용하여 데이터를 분석하는 비지도 학습을 위한 언플러그드 수업을 설계하고, 수업을 실시한 후에 비버챌린지를 활용하여 수업의 효과성에 대한 결과를 분석하였다. 사전 검사와 사후 검사의 점수를 분석한 결과 학생들의 computational thinking 과 문제 해결력이 향상되었음을 확인할 수 있었다.

  • PDF

Variational Autoencoder를 이용한 교량 손상 위치 추정방법 (Damage Localization of Bridges with Variational Autoencoder)

  • 이강혁;정민웅;전찬웅;신도형
    • 대한토목학회논문집
    • /
    • 제40권2호
    • /
    • pp.233-238
    • /
    • 2020
  • 구조물 건전도 모니터링 시스템을 기반하는 교량 딥러닝 손상 추정 기법들은 대부분 지도학습을 기반으로 하고 있다. 지도학습의 특성상 손상 위치 추정 딥러닝 모델의 학습을 위해 교량의 손상 위치를 나타내는 라벨(Label) 데이터와 이에 따른 교량의 거동 데이터가 필요하다. 하지만 실제 현장에서 손상 위치 라벨 데이터를 정확히 얻어내는 것은 매우 어려운 일이므로, 지도학습 기반 딥러닝은 현장 적용성이 떨어진다는 한계가 있다. 반면에, 비지도학습 기반 딥러닝은 이러한 라벨 데이터 없이도 학습이 가능하다는 장점이 있다. 이러한 점에 착안하여 본 연구에서는 비지도 학습의 대표적인 딥러닝 기법인 Variational Autoencoder를 활용한 교량 손상 위치 추정의 방법을 제안하고 검증하였으며, 그 결과, 교량 손상 위치 추정을 위한 VAE의 적용 가능성을 보였다.