• 제목/요약/키워드: 의존성 반영 분해모델

검색결과 2건 처리시간 0.016초

의존성 반영 분해모델에 의한 유전자의 핵심 프로모터 영역 예측 (Prediction of Core Promoter Region with Dependency - Reflecting Decomposition Model)

  • 김기봉;박기정;공은배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.379-387
    • /
    • 2003
  • 다수의 미생물 유전체 프로젝트들이 완료되면서 엄청난 양의 유전체 핵산 염기서열 데이터들이 양산되고 있다. 이러한 상황에서 전산 기법을 이용하여 유전체 DNA 염기서열 상에서 유전자의 프로모터 영역을 규명하는 문제는 최근에 상당한 연구의 관심대상으로 떠오르고 있다. 본 논문에서는 전사조절의 핵심 역할을 하는 -10 영역과 전사개시 부위를 포함한 원핵생물의 핵심 프로모터 영역에 대한 의존성 반영 분해모델 (Dependency-Reflecting Decomposition Model)을 제안한다. 이 모델은 인접한 위치에 존재하는 핵산 염기들 사이의 의존성뿐만 아니라 인접하지 않은 위치의 핵산 염기들간의 의존성까지 고려함으로써 핵산 염기서열 상에 내포되어있는 중요한 생물학적 의존성들을 함축하고 있다. DRDM 모델은 우수한 성능평가 결과를 보였으며. 미생물 유전체 Contig들 상에서 임의의 유전자 프로모터를 예측하는데 효과적으로 이용될 수 있다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.