• 제목/요약/키워드: 언어 스타일

검색결과 118건 처리시간 0.024초

마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 (Unpaired Korean Text Style Transfer with Masked Language Model)

  • 배장성;이창기;황정인;노형종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

  • 박요한;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.341-354
    • /
    • 2023
  • 문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

한국어 스타일 생성 패턴에 의한 영한 번역 품질 개선 (Enhancement of English-to-Korean Translation Quality by Korean Style Generation Patterns)

  • 최승권;홍문표;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 2003
  • 본 논문에서는 영한 자동번역 시스템에 한국어 스타일 생성 패턴을 적용함으로써 영한 번역 품질을 향상하고자 하는 것이 목표이다. 이러한 목표는 기존의 원문에 대한 번역문의 정보 전달 정확성을 측정하는 1차원적인 번역률 평가 방법에서 벗어나 번역문의 정보 정확성뿐만 아니라 자연스러움도 평가할 수 있는 2차원적인 번역률 평가방법으로써 정확성과 스타일을 동시에 평가하는 방법을 제안한다. 2차원적인 번역률 평가 방법에 따라 스타일 생성 패턴이 적용되기 전과 적용된 후의 평가 결과는 100문자의 샘플문을 대상으로 하였을 때, 스타일 생성 패턴에 의해서만 0.5%의 번역률이 향상되는 것을 관찰하였다. 본 논문에서의 스타일 생성 패턴은 단순히 언어간 스타일 차이만 적용한 것이며 향후에는 신문, 일기예보, 기술 매뉴얼과 같은 특정 그룹을 위한 스타일 생성 패턴을 적용할 계획이다.

  • PDF

Delete-Generate: 단어 n-gram의 삭제 및 생성에 기반한 한국어 스타일 변환 (Delete and Generate: Korean style transfer based on deleting and generating word n-grams)

  • 최형준;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.400-403
    • /
    • 2019
  • 스타일 변환(Style Transfer)은 주어진 문장의 긍정이나 부정 같은 속성을 변경하여 다른 속성을 갖는 문장으로 변환하는 과정을 의미한다. 본 연구에서는 스타일 변환을 위한 단어 n-그램 삭제의 기준을 확장하였고, 네이버 영화리뷰 데이터셋을 통해 이를 스타일 변환 이후 원래 문장의 스타일로부터 얼마나 차이가 나게 되었는지를 측정하였다. 측정은 감성분석기를 통해 이루어졌고, 기존 방법에 비해 6.28%p정도 높은 75.13%의 정확도를 보였다.

  • PDF

자동통번역 시스템의 언어 현상별 자동 평가 (Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points)

  • 최승권;최규현;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1041-1044
    • /
    • 2019
  • 자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.

C 코딩 스타일 검증기의 설계 및 구현 (Design and Implementation of a C Coding Style Checker)

  • 황준하
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.31-40
    • /
    • 2008
  • 지금까지 C 언어에 대한 다양한 코딩 스타일이 제시되어 왔으나 코딩 스타일에 대한 종합적인 검토가 부족하였다. 본 논문에서는 대표적인 C 코딩 스타일에 포함된 코딩 규칙들을 분석하고 그 외에 새로운 코딩 규칙들을 추가함으로써 새로운 C 코딩 스타일을 제안하고 있다 아울러 CStyler라고 명명한 자동화된 C 코딩 스타일 검증기를 설계하였으며 Lex와 Yacc를 활용하여 이를 구현하였다. CStyler는 전처리가 수행된 후의 코드뿐만 아니라 전처리가 수행되기 전의 소스 코드에 대해서도검증이 가능하도록 설계되었으며, 사용자가 새로운 코딩 규칙을 추가할 수 있도록 함으로써 유연성을 개선하였다. 본 논문에서 제시한 코딩 스타일과 코딩 스타일 검증기는 C 언어 교육과 향후 정적 분석 도구를 개발하고 확장하기 위한 연구에 활용될 수 있을 것으로 사료된다.

  • PDF

트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환 (Text Style Transfer of Non-parallel Data using Transformer and Discriminator)

  • 박다솔;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF

스타일리시 호텔의 공간이미지와 선호도 -스타일리시의 언어이미지와 색채이미지를 중심으로- (Space Image and Preference of Stylish Hotel -Focusing on Verbal Image and Color Image of 'Stylish'-)

  • 장미정;장영순;이진민
    • 감성과학
    • /
    • 제14권1호
    • /
    • pp.49-58
    • /
    • 2011
  • 본 연구는 스타일리시 호텔에 대한 공간이미지와 선호도에 관한 연구이며, 아울러 선행연구인 성별 및 연령에 따른 스타일리시의 언어이미지와 색채이미지에 관해 조사 결과 중 미니멀스타일배색에 대한 검증연구이다. 연구결과 성별 및 연령에 있어서 유의한 차이를 보이지 않았으며, 스타일리시 호텔의 공간이미지와 언어이미지의 상관성을 알아보고자 대표 언어를 추출한 결과, 개성적인, 감각적인, 심플한, 도시적인 등으로 인식하여 공간이미지에 대해 스타일리시하게 느끼는 것으로 파악되었다. 또한 공간이미지와 선호도에서는 로비공간의 B호텔, 식음공간의 C호텔, 객실공간의 A호텔로 나타났으며, 색채이미지와 선호도에서는 각각 고명도 저채도, 저명도 저채도로 나타났다. 이것은 선행연구의 가장 스타일리시 한 것으로 인식한 미니멀스타일배색과 동일한 결과로 응답자들은 스타일리시 호텔의 공간이미지에 대해 언어적으로는 세련되고 감각적이며 개성적인 것으로 인식하면서 시각적으로는 고명도 저채도, 저명도 저채도의 공간을 스타일리시 한 것으로 인식하고 있음이 밝혀졌다. 본 연구는 향후 스타일리시한 공간 연출 및 디자인 마케팅을 위해 새로운 디자인 방향을 제시하는 데 그 목적이 있다.

  • PDF

감정 제어 가능한 종단 간 음성합성 시스템 (Emotion Transfer with Strength Control for End-to-End TTS)

  • 전예진;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF

대한민국 대통령의 언어스타일: 연설문에 나타난 언어적 특성과 심리적 특성 (Language style of the President of the Republic of Korea: linguistic and psychological properties in Presidents' Address)

  • 김영준;김경일
    • 인지과학
    • /
    • 제30권3호
    • /
    • pp.105-132
    • /
    • 2019
  • 본 연구에서는 광복 이후 한국의 대통령의 연설문을 정량적으로 분석하였다. 기존의 글에 대한 정량적 분석인 내용분석 연구들이 내용어에 집중해 글쓴이의 생각을 분석한 것과는 다르게, 본 연구는 기능어와 심리적 상태와 관련된 내용어의 사용비율을 토대로 대통령의 생각을 분석하였다. 이를 위해, 다양한 대상과 집단을 대상으로 한 기존 언어분석 연구와 마찬가지로, 심리적이고 언어적인 변인들을 지표화하여 대통령의 연설문을 비교하였다. 연구 1에서는 영향력, 진정성, 대통령다움, 인지적 복잡성, 여성성, 심리적 건강 등 6개의 언어스타일 지표를 개발하였다. 역대 대통령 8인의 공식 연설문을 비교 분석한 결과, 대통령 언어스타일 지표 모두에서 대통령 간의 차이가 유의미하였다. 또한, 최근 대통령으로 올수록 연설문에서 진정성, 대통령다움, 심리적 건강은 증가하는 경향이 있고, 인지적 복잡성은 감소하는 경향이 관찰되었다. 재임시대를 구분하여 언어스타일의 변화를 추세 분석한 결과 선형추세가 유의미하였다. 또한, 정치적 성향에 따라서도 언어스타일에 있어서 뚜렷한 차이가 관찰됐다. 진보 성향 대통령의 연설문에서는 영향력과 인지적 복잡성이 높았고, 더 여성적인 언어가 상대적으로 더 많이 사용되었다. 반면, 보수 성향 대통령의 연설문에서는 진정성이 높았고, 더 대통령다운 표현이 많이 사용되었다. 연구 2에서는 개발된 언어스타일 지표가 직전인 박근혜 대통령의 연설문에서도 신뢰도를 유지하는지 여부를 관찰했다. 마지막으로 언어스타일 지표 간의 상관 특성, 2000년대 이후 정권과 일반 대중의 정치적 성향의 적합성, 본 연구의 지표인 여성성의 특성을 논의하였다.