• Title/Summary/Keyword: 문체변환

Search Result 7, Processing Time 0.017 seconds

Attention-based Unsupervised Style Transfer by Noising Input Sentences (입력 문장 Noising과 Attention 기반 비교사 한국어 문체 변환)

  • Noh, Hyungjong;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.434-439
    • /
    • 2018
  • 문체 변환 시스템을 학습하는 데 있어서 가장 큰 어려움 중 하나는 병렬 말뭉치가 부족하다는 것이다. 최근 대량의 비병렬 말뭉치만으로 문체 변환 문제를 해결하려는 많은 연구들이 발표되었지만, 아직까지도 원 문장의 정보 보존(Content preservation)과 문체 변환(Style transfer) 모두를 이루는 것이 쉽지 않은 상태이다. 특히 비교사 학습의 특성상 문체 변환과 동시에 정보를 보존하는 것이 매우 어렵다. Attention 기반의 Seq2seq 네트워크를 이용할 경우에는 과도하게 원문의 정보가 보존되어 문체 변환 능력이 떨어지기도 한다. 그리고 OOV(Out-Of-Vocabulary) 문제 또한 존재한다. 본 논문에서는 Attention 기반의 Seq2seq 네트워크를 이용하여 어절 단위의 정보 보존력을 최대한 높이면서도, 입력 문장에 효과적으로 Noise를 넣어 문체 변환 성능을 저해하는 과도한 정보 보존 현상을 막고 문체의 특성을 나타내는 어절들이 잘 변환되도록 할 뿐 아니라 OOV 문제도 줄일 수 있는 방법을 제안한다. 우리는 비교 실험을 통해 본 논문에서 제안한 방법들이 한국어 문장뿐 아니라 영어 문장에 대해서도 state-of-the-art 시스템들에 비해 향상된 성능을 보여준다는 사실을 확인하였다.

  • PDF

Automatic Generation of Custom Advertisement Messages based on Literacy Styles of Classified Personality Types (성격유형별 문체 특성 기반 맞춤형 광고 메시지 자동생성 연구)

  • Jimin Seong;Yunjong Choi;Doyeon Kwak;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.431-436
    • /
    • 2022
  • 이 연구는 MBTI의 심리 기능지표 조합인 ST, SF, NT, NF의 유형별 특징을 반영한 마케팅 문체 프레임워크를 정의하고 모델 학습을 통해 성격유형별 맞춤화 된 광고 메시지로 생성하는 것을 목적으로 한다. 활용되는 광고 메시지 자동 생성 기술은 BART 모델에 성격유형을 Prefix로 포함한 광고문을 학습시켜 성격유형에 따라 맞춤형 광고 메시지를 생성하는 방식이다. 학습된 모델은 Prefix 조작만으로 MBTI 성격유형별 문체 특징을 갖춘 광고 메시지로 변환되는 것을 실험을 통해 확인할 수 있었다. 본 연구는 성격유형의 특징을 문체 프레임워크로써 정의하고 이에 기반한 모델 학습을 통해 성격유형별 특징을 반영한 광고 메시지를 재현해 낼 수 있다는 점에서 의의가 있다. 또한 성격유형과 연관 feature를 함께 학습하여 유형별 문체 특징과 소구점을 포함한 광고 메시지를 생성했다는 기술적 가치가 있다. 이 연구 결과를 기반으로 차후 타겟 고객층의 성격유형과 광고 도메인을 고려한 효과적인 광고 콘텐츠를 생성해 내는 모델을 개발하여 타겟 마케팅 분야는 물론이고 지역별 또는 언어별 문체 간 차이를 구조화하거나 재현해야 하는 문제에서 기반이 되는 연구로 활용될 수 있을 것으로 기대된다.

  • PDF

Methodology for Constructing Data for Automatic Generation of Emotional Copywrite (감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론)

  • Jimin Seong;Haeun Shin;Jiyoon Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.336-341
    • /
    • 2023
  • 초대규모 언어모델의 뛰어난 생성 기술이 실질적인 부분에서 많은 도움을 주고 있음에도 불구하고 사람들의 마음을 움직일 수 있는 매력적인 광고 카피를 생성하기에는 아쉬운 점이 많다. 이 연구는 효과적인 광고 카피 자동생성을 위한 데이터 구축 방법론 연구로, 데이터에 일관적으로 학습시킬 수 있는 감성적 카피의 문체적 특징을 프레임워크로 정의하고 이를 모델에 적용한 결과를 보여 데이터 설계 방법론의 유효성을 검증하고자 하였다. 실험 결과 문체 적합성 측면에서 성공적인 결과를 확인한 것에 비해, 한국어 보조사와 같이 미세한 어감 차이를 발생시키는 요소나 의미적 중의성 해석 등의 고차원적인 한국어 구사능력을 필요로 하는 부분에서 생성모델의 개선 여지를 발견할 수 있었다. 본 연구에서 보인 감성형 카피 생성을 위한 프레임워크는 마케팅 실무에서도 유용하게 사용될 수 있을 뿐만 아니라, 고객 세그멘테이션 분석이 이루어진다면 타깃 고객의 취향을 고려한 효과적이고 맞춤화된 광고 카피를 생성에 기여할 수 있을 것으로 기대된다.

  • PDF

Style Transfer in Korean Text using Auto-encoder and Adversarial Networks (오토인코더와 적대 네트워크를 활용한 한국어 문체 변환)

  • Yang, Kisu;Lee, Dongyub;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.658-660
    • /
    • 2018
  • 인공지능 산업이 발달함에 따라 사용자의 특성에 맞게 상호작용하는 기술에 대한 수요도 증가하고 있다. 하지만 텍스트 스타일 변환의 경우 사용자 경험을 크게 향상시킬 수 있는 기술임에도 불구하고, 학습에 필요한 병렬 데이터가 부족하여 모델링과 성능 개선에 어려움을 겪고 있다. 이에 따라 본 논문에서는 비 병렬 데이터만으로 텍스트 스타일 변환이 가능한 선행 모델[1]을 기반으로, 한국어에 적합한 문장 표현 방식 및 성능 개선을 위한 임의 도메인 예측 기법이 적용된 모델을 제안한다.

  • PDF

Text Watermarking Based on Syntactic Constituent Movement (구문요소의 전치에 기반한 문서 워터마킹)

  • Kim, Mi-Young
    • The KIPS Transactions:PartB
    • /
    • v.16B no.1
    • /
    • pp.79-84
    • /
    • 2009
  • This paper explores a method of text watermarking for agglutinative languages and develops a syntactic tree-based syntactic constituent movement scheme. Agglutinative languages provide a good ground for the syntactic tree-based natural language watermarking because syntactic constituent order is relatively free. Our proposed natural language watermarking method consists of seven procedures. First, we construct a syntactic dependency tree of unmarked text. Next, we perform clausal segmentation from the syntactic tree. Third, we choose target syntactic constituents, which will move within its clause. Fourth, we determine the movement direction of the target constituents. Then, we embed a watermark bit for each target constituent. Sixth, if the watermark bit does not coincide with the direction of the target constituent movement, we displace the target constituent in the syntactic tree. Finally, from the modified syntactic tree, we obtain a marked text. From the experimental results, we show that the coverage of our method is 91.53%, and the rate of unnatural sentences of marked text is 23.16%, which is better than that of previous systems. Experimental results also show that the marked text keeps the same style, and it has the same information without semantic distortion.

Portable Projection-Based Multimedia Display System (휴대형 프로젝션 기반의 멀티미디어 디스플레이 시스템)

  • Oh, Ji-Hyun;Lee, Moon-Hyun;Park, Han-Hoon;Kim, Jae-Soo;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2006.11a
    • /
    • pp.265-268
    • /
    • 2006
  • 데스크탑 환경의 멀티미디어 디스플레이 시스템은 고해상도, 대화면의 영상을 제공해 줄 수 있는 반면 제약된 공간에서만 동작하므로 휴대할 수 없는 문체가 있다. PDA, PMP와 모바일 폰과 같은 휴대성을 가지는 멀티미디어 디스플레이 시스템은 해상도가 낮아 사용자에게 충분한 몰입감을 제공 해 주지 못한다. 본 논문에서는 기존의 데스크탑 환경에서 동작하는 프로젝션 기반의 증강현실 시스템을 모바일 플랫폼으로 확장한 프로젝션 기반의 휴대형 멀티미디어 디스플레이 시스템을 제안한다. 제안된 시스템은 PDA와 포켓 프로젝터를 결합한 것으로, PDA에서 전 처리된 멀티미디어 영상을 포켓 프로젝터를 이용하여 임의의 모양을 가지는 스크린에 왜곡 없이 영상을 표시해 줄 수 있다. 개발환경은 Window Mobile 5.0 기반의 ARM 플랫폼을 사용하는 PDA를 이용하였고, 시스템의 최적화를 위하여 x86 플랫폼에 최적화된 OpenCV 라이브러리를 모바일용으로 변환하였다. 또한 모바일 플랫폼에서는 부동소수점 연산으로 인한 시스템의 속도저하 문제가 발생하기 때문에 부동소수점 연산을 정수 연산으로 변환함으로써 처리 속도를 개선하였다. 프로젝션 기반의 디스플레이 시스템을 실현하기 위해서 필요한 기술적인 과제들을 모바일 환경에서 직접 처리해 봄으로써 휴대형 프로젝션 기반의 멀티미디어 시스템의 가능성을 제시한다.

  • PDF

A Recognition of Handwritten English Characters Using Back Propagation Algorithm and Dictionary (역전파 알고리듬과 사전을 이용한 필기체 영문자 인식)

  • 김응성;조성환;이근영
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.2
    • /
    • pp.157-168
    • /
    • 1993
  • In this paper, it is shown that neural networks trained with back propagation algorithm and dictionary can be applied to recognize handwritten English characters. To eliminate the useless data part and to minimize the variety of characters from the scanned image file, various preprocessings : that is, segmentation, centering, noise filtering, sealing and thinning are performed. After these, characteristic features are derived from thinned character pattern. The neural network is trained by using the extracted features for sample data, and all test data are classified into English alphabets according to their features through the neural network. Finally, the ways of reducing learning time and improving recognition rate, and the relationship between learning time and hidden layer nodes are considered. As a result of this study, after successful training, a high recognition rate has been obtained with this system for the trained patterns and about 93% for test patterns. Using dictionary, the recognition rate was about 97% for test pattern.

  • PDF