• 제목/요약/키워드: 텍스트 기반 유사도

검색결과 194건 처리시간 0.019초

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

존재하지만 존재 않는 타자들의 공간 영화 <죽여주는 여자>의 담론 공간을 중심으로 (Existent, but Non-existent Spaces for Others Focusing on Discourse-spaces of a Korean Movie (2016))

  • 장은미;한희정
    • 한국언론정보학보
    • /
    • 제84권
    • /
    • pp.99-123
    • /
    • 2017
  • 본 연구는 여성주의적 시각으로 영화 <죽여주는 여자>가 구성하는 공간을 헤테로토피아의 개념으로 분석하였다. 분석 결과, 젠더, 계급, 연령, 국가, 섹슈얼리티, 민족, 직업의 정치학이 상호 교차하면서 다음과 같은 공간을 구성하였다. 첫째, 나이 듦과 죽음이 교차하는 공간이다. 요양 병원, 달동네 쪽방촌, 북한산 바위, 호텔, 교도소 등을 통해 구성되는 이 공간은 죽음에 대한 역설과 모순을 불러일으키면서 죽음에 작동하는 가부장적 시선에 이의를 제기한다. 둘째, 밥벌이로서의 성매매 노동 공간으로 싸구려 여관과 녹음 짙은 야외 공원으로 대비되는 장소들이다. 낡은 여관방은 가부장적 성규범 사회에서 보호받지 못하는 '성매매 여성' 소영이 늙은 몸이 되면서 비체화되고 타자화되는 순간을 드러낸다. 셋째, 끊임없이 소환되는 모성 공간은 자식을 버린 죄책감에서 벗어나지 못한 소영의 일상을 통해 구성된다. 민호에 대한 과한 돌봄과 남성노인들에 대한 과도한 연민은 모성 결핍과 연결되면서, 모성 집착의 서사는 영화 내 다른 시선들과 충돌한다. 넷째, '다문화 소수자 유사가족 공간'은 이태원을 중심으로 경계 바깥의 구성원들이 모여 사는 공간이다. 이곳은 이성애 기반의 혈연 중심 '정상 가족'의 동질성에 균열을 내고 정상성 바깥의 섹슈얼리티를 가시화시키는 이질적 공간이다. 다섯째, 하위주체로서의 소영의 말하기 공간이다. 하위주체인 소영의 영화적 재현이 '말 걸기'라면 영화 텍스트 내에서 소영은 '말하기'의 주체로서 적극적으로 응대한다.

  • PDF

이항대립(二項對立)으로부터의 탈주 -<오목어>에서의 매체 수행 방식 분석- (Escape from Binary Opposition -Analysis of Performative Method in -)

  • 서영주
    • 만화애니메이션 연구
    • /
    • 통권41호
    • /
    • pp.511-531
    • /
    • 2015
  • 애니메이션 영화를 탄생시킨 근원적 추동력은 움직이는 이미지에 대한 매혹이다. 그리고 애니메이션 이미지는 프레임과 프레임 사이에서 애니메이터와 장치들이 수행적 관계를 맺는 과정에서 발생한다. 때문에 이미지의 운동이 어떤 질료와 방식을 통해 구성되었는가를 살펴보는 것은 애니메이션 영화를 텍스트로 읽는 필수적 출발점이 될 것이다. 이러한 관점에서 본고는 서사의 전개와는 독립적인 차원에서 이미지 자체가 주제의식을 보다 감각적으로 전달하고 있는 한국 애니메이션 영화 <오목어>의 재료와 기법, 그리고 매체가 수행된 방식을 분석한다. <오목어>는 물 밖 세상에 대한 열망을 품은 물고기의 여정을 누들스크린으로 구현한 스톱모션 애니메이션 영화이다. 애니메이터 김진만은 한국에서 쉽게 접할 수 있는 식재료인 국수용 소면을 사용하여 누들스크린 애니메이션을 고안함으로써 <오목어>의 독창적이면서도 친근한 이미지를 만들어내었으며, 이를 통해 존재론적인 자아성찰과 세계에 대한 고찰을 불이사상(不二思想)에 기반하여 풀어내었다. 불이사상은 현상적으로 이분법적인 모습일지라도 우주의 진리는 분별이 없으며 본질적으로 하나의 괘로 작용한다는 이치로 서양의 이원론적 가치관과 달리 순환적이며 합일적인 동양철학에 기원하고 있다. 본 논문은 서양에서 유입된 애니메이션 매체를 한국 애니메이터가 어떻게 독자적으로 수용해내었고 이를 통해 구성된 이미지의 운동이 어떻게 불이사상이라는 주제의식을 효과적으로 전달하고 있는지를 밝힌다. 이를 위해 2장에서는 누들스크린의 형태와 구조를 살펴본다. 여기서는 애니메이션 매체의 초창기 시절 알렉세이프와 파커에 의해 고안된 핀스크린과의 유사성과 상이성이 분석될 것이며, 누들스크린과 핀스크린 두 기법의 미학적 가치와 특수성이 고찰될 것이다. 다음 3장에서는 이항대립적으로 제시되었던 이미지가 누들스크린의 속성을 활용하여 어떻게 초반의 대립 개념을 전복시키고 보다 풍성한 함의로 확장되는지를 살펴볼 것이다. 마지막 4장에서는 애니메이션 제작과정을 개방함으로써 애니메이션 매체의 허구적 환영성을 반영적으로 폭로하고 스크린 밖으로 펼쳐짐으로써 우리의 현상적 삶의 세계에 대해 질문하도록 하는 <오목어>의 열린 액자 형식에 대하여 알아볼 것이다. 그리고 이 모든 장에 걸쳐 화두로서의 불이사상이 어떻게 다루어지고 있는지를 살펴볼 것이다. 이를 통해 애니메이션 영화 이미지가 단순히 서사에 봉사함이 아니라 보다 독립적이고 확장적인 차원에서 개념을 전달하고 지각을 활성화시키며 통합적 감각 경험을 이끌어낼 수 있는지를 확인하고자 한다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.