초록
언어모델을 구축하기 위한 딥러닝 기법인 LSTM의 경우 대형언어모델과 달리 컴퓨팅 자원이 작은 시스템에서도 수월하게 학습시킬 수 있다. 소규모 텍스트에 대해 LSTM 기반의 언어모델을 학습시키고, 텍스트를 구성하는 어휘의 단어벡터를 이용하여 해당 텍스트의 주요 주제어에 대해 객관적인 의미 및 관계 분석을 할 수 있는 융복합적인 기법을 제안하였다. 데이비드 로워리 감독의 2021년도 영화 '그린 나이트'의 영어 대본을 텍스트로 삼아 학습시킨 소규모 언어모델의 단어벡터를 이용하여 주요 주제어의 의미와 관계를 분석할 수 있는 기법을 제안하였다. 단어벡터의 유사도 연산을 통해 각 주제어들과 유사도가 높은 단어를 분석하여 그 의미와 상징성을 객관적으로 분석할 수 있고, 차원감소시킨 2차원 단어벡터를 도시하여 각 주제어들의 관계를 직관적으로 인식할 수 있었다. LSTM 방식의 소규모 언어모델을 이용하여 학습에 필요한 비용을 최소화하면서도 복잡한 텍스트를 분석할 수 있는 단어벡터 활용법을 제안하였다.
LSTM, a deep learning technique for building language models, can be easily trained on systems with small computing resources, unlike large language models. In this paper, we propose a convergent technique to train LSTM-based language models on small-scale texts and perform objective semantic and relational analysis on the main topic words of the text using the word vectors of the vocabulary comprising the text. Using the word vectors of a small language model trained on the English script of the 2021 movie "Green Knight" directed by David Lowery as a text, we proposed a technique that can analyze the meaning and relationship of the main topic words. Through the similarity operation of the word vector, the meaning and symbolism of each theme word can be objectively analyzed with the similarity scores between the words. The relationship between each theme word can be intuitively recognized by displaying the dimensionality-reduced two-dimensional word vector. By using a small-scale language model of the LSTM method, we proposed a method to analyze complex texts using word vectors while minimizing the cost of learning.