• 제목/요약/키워드: grammar

검색결과 672건 처리시간 0.018초

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

연희현장에서의 올바른 활용을 위한 진도다시래기 음악분석 (Musical Analysis of Jindo Dasiraegi music for the Scene of Performing Arts Contents)

  • 한승석;남초롱
    • 공연문화연구
    • /
    • 제25호
    • /
    • pp.253-289
    • /
    • 2012
  • 다시래기는 전라남도 진도 지방에서 전승되는 상장례놀이로서, 죽음의 현장에서 새생명이 탄생한다는 생사불이(生死不二)의 메시지를 담고 있다. 더불어 많은 춤과 노래, 재담을 포함한 독특한 양식적 구조로 인해 현장 연희판에서 새로운 콘텐츠에 목말라 있던 공연문화 담당층의 주목을 끌기에 충분했다. 다시래기에 관한 많은 선행연구물들이 이들의 다시래기 재창조 작업에 커다란 도움을 주었다는 것은 불문가지의 사실이다. 그러나 이전의 연구들이 진도다시래기를 다각도로 다루어 적지 않은 성과를 이루어 내었지만 주로 학술적 접근을 통해 연행의 상징적 의미를 구명하는 데 치중한 것이 사실이다. 또한 공연요소들에 대한 접근도 대본, 노래가사, 재담, 행색, 소도구, 장단, 춤사위 등의 소개에 그쳐 정작 중요한 공연요소인 소리(창(唱))의 구체적 모습에 대한 연구가 없어 아쉬움으로 남아 있었다. 이에 본고는 다시래기 음악을 분석하고 그 음악의 성격과 특징을 악보와 함께 제시하여 공연현장의 연희실기자들에게 실질적인 도움을 주고자 하였다. 본고에서 음악분석 대상으로 삼은 소리는 가상제놀이와 거사 사당놀이에 나오는 모든 소리, 그리고 연희패의 입장 시에 부르는 상여소리로 한정하였다. 다시래기 다섯 절차 중 가상제놀이와 거사 사당놀이, 상여소리가 가장 많이 공연되기 때문이다. 수많은 공연 자료가 있지만 분석의 텍스트로는 E&E미디어에서 출반된 음반인 "진도다시래기"를 택하였다. 이는 이 음원의 녹음상태가 우수하며 무엇보다 본고에서 제시된 악보를 학습 자료로 삼아 다시래기 소리를 익히고자 하는 연희실기자들이 음원 구득과 그 활용을 용이하게 할 수 있다는 판단에서이다. 음악분석 결과, 진도다시래기에서 불리는 소리들은 대부분 꺾는 음이 있는 '미'음계를 사용한 전형적인 육자배기토리로 짜여 있었다. 그리고 '솔'음계의 남부경토리는 극히 일부분에 짧게 나타나며, 음악적 완결성은 갖추지 못하고 있는 것도 알 수 있었다. 또한 같은 상장례음악임에도 씻김굿과의 음악적 친연성은 거의 발견되지 않는데, 이는 망자를 달래서 천도하는 씻김굿과 산 자의 삶을 북돋우는 다시래기의 성격과 기능이 다른 데서 비롯된 음악적 특징이라고 생각된다. 한편 다시래기 소리 전반에 판소리 음악어법적 특징들이 보이는데, 이는 다시래기의 복원과 전승에 있어서 주도적 역할을 한 예능보유자의 과거 창극단 활동이력과 무관하지 않다고 여겨진다. 다시래기 예능 담당자의 이러한 활동이력은 다시래기 원형의 변질을 초래한 원인이 되기도 하였지만, 한편으로는 다시래기의 공연요소를 더욱 풍부하게 하여 공연현장에서 콘텐츠로 활용될 수 있는 연희적 기반을 확장시킨 결과로도 나타났다. 본고의 작업이 다시래기를 원형 삼아 죽음의 상실을 극복하고 삶의 활력을 지켜낼 미래의 진지한 현장예술가들에게 의미 있게 활용되기를 기대한다.