• 제목/요약/키워드: 한글표현

검색결과 514건 처리시간 0.023초

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석 (On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning)

  • 한명수;정유현;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

지화 인식을 위한 계층적 은닉 마코프 모델 (Hierarchical Hidden Markov Model for Finger Language Recognition)

  • 권재홍;김태용
    • 전자공학회논문지
    • /
    • 제52권9호
    • /
    • pp.77-85
    • /
    • 2015
  • 지화(finger language)는 수화(sign language)에 포함되며, 손의 제스쳐로 한글의 모음, 자음을 표현하는 언어 체계이다. 한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다. 대량의 학습 모델이 존재할 경우, 입력 데이터는 많은 공간을 탐색하는데 시간을 소비하게 된다. 따라서 실시간 인식 시스템은 이러한 탐색 공간을 줄이는 것이 가장 중요한 문제로 인식되고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 인식률 저하 없이 탐색 공간을 효율적으로 줄이는 계층적 HMM 구조를 제안하였다. 지화는 손목의 방향성에 따라 총 3개의 범주로 설정, 입력 데이터는 이 범주 안에서 모델을 검색하게 된다. 이러한 사전 분류를 진행하여 비슷한 한글 지화의 분별력을 확립하게 되며 탐색 공간 또한 효율적으로 관리되므로 실시간 인식 시스템에 적용 가능하다. 실험 결과, 제안된 방법은 일반적인 HMM 인식 방법보다 평균 3배 정도의 시간을 단축할 수 있있고, 비슷한 한글 지화 제스쳐에 대해 오인식 또한 감소하였다.

한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석 (Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations)

  • 유영현;이규민;전민진;차지이;김강산;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

SC-GRU encoder-decoder 모델을 이용한 자연어생성 (Natural Language Generation Using SC-GRU Encoder-Decoder Model)

  • 김건영;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2017
  • 자연어 생성은 특정한 조건들을 만족하는 문장을 생성하는 연구로, 이러한 조건들은 주로 표와 같은 축약되고 구조화된 의미 표현으로 주어지며 사용자가 자연어로 생성된 문장을 받아야 하는 어떤 분야에서든 응용이 가능하다. 본 논문에서는 SC(Semantically Conditioned)-GRU기반 encoder-decoder모델을 이용한 자연어 생성 모델을 제안한다. 본 논문에서 제안한 모델이 SF Hotel 데이터에서는 0.8645 BLEU의 성능을, SF Restaurant 데이터에서는 0.7570 BLEU의 성능을 보였다.

  • PDF

Bidirectional LSTM-CRF 앙상블을 이용한 공간 개체 추출 (Spatial Entities Extraction using Bidirectional LSTM-CRF Ensemble)

  • 민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2017
  • 공간 정보 추출은 대량의 텍스트 문서에서 자연어로 표현된 공간 관련 개체 및 관계를 추출하는 것으로 질의응답 시스템, 챗봇 시스템, 네비게이션 시스템 등에서 활용될 수 있다. 본 연구는 한국어에 나타나 있는 공간 개체들을 효과적으로 추출하기 위한 앙상블 기법이 적용된 Bidirectional LSTM-CRF 모델을 소개한다. 한국어 공간 정보 말뭉치를 이용하여 실험한 결과, 기존 모델보다 매크로 평균이 향상되어 전반적인 공간 관계 추출에 유용할 것으로 기대한다.

  • PDF

한국 수화 아바타를 위한 수화 사전의 개선 방법 (Improvement of Sign Word Dictionary for Korean Sign Language Avatar)

  • 오영준;박광현;변증남
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.167-170
    • /
    • 2007
  • 본 논문에서는 수화 아바타가 실제 청각장애인처럼 자연스러운 수화 동작을 표현하면서 정확한 의사를 전달할 수 있도록 동음이의어에 대한 처리를 다룬다. 기존의 수화 사전에 품사 정보를 추가하고 한글 형태소 분석기를 활용하여 동음이의어를 구분할 수 있도록 수화 사전을 개선하는 방법을 제안한다.

  • PDF

SVM을 이용한 한글문서 범주화 실험 (Categorization of Korean documents using Support Vector Machines)

  • 최성환;임혜영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.29-32
    • /
    • 2000
  • 자동문서 범주화에 이용되는 학습분류기 중에서 SVM은 자질 차원을 축소하지 않고도 좋은 성능을 보이고 있다. 본 실험에서는 KTSET 텍스트 컬렉션을 대상으로 두 개의 SVM 분류기를 이용하여 자질축소 및 자질표현에 따른 성능비교 실험을 하였다. 자질축소를 위하여 $\chi$$^2$통계량을 자질선정기준으로 사용하였으며, 자질값으로는 단어빈도 및 문헌빈도의 두 요소로 구성되는 다양한 가중치를 사용하였다. 실험결과 SVM은 자질축소에 큰 영향을 받지 않고 가중치 유형에 따라 성능의 차이를 보였다.

  • PDF

보컬을 위한 영어딕션 연구 -이중모음 [aɪ], [eɪ]. [ɔɪ], [aʊ], [oʊ]를 중심으로- (English Diction Research for Vocals -mainly focused on the Diphthong [aɪ], [eɪ]. [ɔɪ], [aʊ], [oʊ])

  • 배샛별
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.93-94
    • /
    • 2015
  • 본 연구는 보컬을 위한 영어 딕션법을 이중모음 [aɪ], [eɪ]. [ɔɪ], [aʊ], [oʊ]를 중심으로 연구했다. 먼저 영어음성학을 기초로 소리 내는 법을 정리하고 그다음으로 노래할 때 필요한 딕션법을 정리했는데, 이 항목에서는 이중모음을 노랫말로 표현할 때 조음기관의 위치를 어떻게 설정할 것인지를 중점적으로 다뤘다. 각 항목의 예시로 영어노래 악보들을 첨부했으며 악보에 표기된 가사들은 원어, 국제음성기호(IPA), 한글표기 세 가지로 분석하여 노래할 때 참고할 수 있도록 만들었다.

  • PDF

트위터 이용한 인물 평판 분석 시스템 (Design of a Reputation System for Twitter)

  • 이경호;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-66
    • /
    • 2012
  • 본 논문은 트위터 사용자들이 글(트윗)을 통해 표현한 인물에 대한 평가를 수집, 분석하여 인물에 대한 평판을 종합적으로 분석하는 시스템의 구성에 대한 논문이다. 트위터의 Open API를 이용한 데이터 수집과 수집된 데이터의 특징에 대하여 분석하고 감성사전을 이용한 데이터 분석과 분석된 결과의 저장방식에 대하여 논한다. 2012년에 치루어지는 18대 대통령 선거의 출마자들을 본 시스템에 적용하여 시스템의 유효성을 검증하고자 한다.

  • PDF