• 제목/요약/키워드: Seq2seq(Sequence to sequence)

검색결과 47건 처리시간 0.023초

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

CNN Sequence-to-Sequence를 이용한 대화 시스템 생성 (A Dialogue System using CNN Sequence-to-Sequence)

  • 성수진;신창욱;박성재;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.151-154
    • /
    • 2018
  • 본 논문에서는 CNN Seq2Seq 구조를 이용해 한국어 대화 시스템을 개발하였다. 기존 Seq2Seq는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉 층의 embedding에 기반해 출력열을 생성한다. 우리는 CNN Seq2Seq로 입력된 발화에 대해 출력 발화를 생성하는 대화 모델을 학습하였고, 그 성능을 측정하였다. CNN에 대해서는 약 12만 발화 쌍을 이용하여 학습하고 1만 발화 쌍으로 실험하였다. 평가 결과 제안 모델이 기존의 RNN 기반 모델에 비해 우수한 결과를 보였다.

  • PDF

Sequence-to-Sequence Model을 이용한 영어 발음 기호 자동 변환 (Automatic Conversion of English Pronunciation Using Sequence-to-Sequence Model)

  • 이공주;최용석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권5호
    • /
    • pp.267-278
    • /
    • 2017
  • 영어는 동일 철자의 발음이 매우 다양한 언어이기 때문에 사전에 기술되어 있는 단어의 발음기호를 읽어야만 정확한 발음을 알 수 있다. 영어 사전마다 사용하는 발음기호(phonetic alphabet) 시스템이 다르며 같은 단어에 대해 기술하고 있는 발음 역시 다르다. 본 연구에서는 최근 딥 러닝 분야에서 널리 사용되고 있는 sequence-to-sequence (seq2seq) model을 이용하여 사전마다 다른 발음을 자동으로 변환해 보고자 한다. 4가지 다른 종류의 사전에서 추출한 발음 데이터를 이용하여 모두 12개의 seq2seq model을 구현하였으며, 발음 자동 변환 모듈의 정확 일치율은 74.5% ~ 89.6%의 성능을 보였다. 본 연구의 주요 목적은 다음의 두 가지이다. 첫째 영어 발음기호 시스템과 각 사전의 발음 데이터 특성을 살펴보는 것이고, 둘째, 발음 정보의 자동 변환과 오류 분석을 통해 seq2seq model의 특성을 살펴보는 것이다.

Seq2Seq 모델 기반의 로봇팔 고장예지 기술 (Seq2Seq model-based Prognostics and Health Management of Robot Arm)

  • 이영현;김경준;이승익;김동주
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.242-250
    • /
    • 2019
  • 본 논문에서는 인공신경망(Artificial Neural Network) 모델 중, 시계열 데이터의 변환을 위한 모델인 Seq2Seq(Sequence to Sequence) 모델을 이용한 산업용 로봇 고장 예지 기술에 대하여 제안한다. 제안 방법은 고장 예지를 위한 추가적인 센서의 부착 없이 로봇 자체적으로 측정 가능한 관절 별 전류와 각도 값을 데이터로 사용하였고, 측정된 데이터를 모델이 학습할 수 있도록 전처리한 후, Seq2Seq 모델을 통해 전류를 각도로 변환하도록 지도 학습 하였다. 고장 진단을 위한 이상 정도(Abnormal degree)는 예측 각도와 실제 각도 간의 단위시간 동안의 RMSE(Root Mean Squared Error)를 사용하였다. 제안 방법의 성능평가는 로봇의 정상 및 결함 조건을 달리한 상태에서 측정한 테스트 데이터를 이용하여 수행되었고 이상 정도가 임계값 넘어가면 고장으로 분류하게 하여, 실험으로부터 96.67% 고장 진단 정확도를 보였다. 제안 방법은 별도의 추가적인 센서 없이 고장 예지 수행이 가능하다는 장점이 있으며, 로봇에 대한 깊은 전문지식을 요구하지 않으면서 수행할 수 있는 방법으로 높은 진단 성능과 효용성을 실험으로부터 확인하였다.

Seq2seq 기반 한국어 추상 의미 표상(AMR) 파싱 연구 (A Study for Sequence-to-sequence based Korean Abstract Meaning Representation (AMR) Parsing)

  • ;박혜진;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-261
    • /
    • 2022
  • 본 연구에서는 한국어 AMR 자동 파싱을 하기 위해 seq2seq 방법론을 적용하였다. Seq2seq 방법론은 AMR 파싱 태스크를 자연어 문장을 바탕으로 선형화된(linearization) 그래프의 문자열을 번역해내는 과정을 거친다. 본고는 Transformer 모델을 파싱 모델로 적용하여 2020년 공개된 한국어 AMR와 자체적으로 구축된 한국어 <어린 왕자> AMR 데이터에서 실험을 진행하였다. 이 연구에서 seq2seq 방법론 기반 한국어 AMR 파싱의 성능은 Smatch F1-Score 0.30으로 나타났다.

  • PDF

Sentence-Chain Based Seq2seq Model for Corpus Expansion

  • Chung, Euisok;Park, Jeon Gue
    • ETRI Journal
    • /
    • 제39권4호
    • /
    • pp.455-466
    • /
    • 2017
  • This study focuses on a method for sequential data augmentation in order to alleviate data sparseness problems. Specifically, we present corpus expansion techniques for enhancing the coverage of a language model. Recent recurrent neural network studies show that a seq2seq model can be applied for addressing language generation issues; it has the ability to generate new sentences from given input sentences. We present a method of corpus expansion using a sentence-chain based seq2seq model. For training the seq2seq model, sentence chains are used as triples. The first two sentences in a triple are used for the encoder of the seq2seq model, while the last sentence becomes a target sequence for the decoder. Using only internal resources, evaluation results show an improvement of approximately 7.6% relative perplexity over a baseline language model of Korean text. Additionally, from a comparison with a previous study, the sentence chain approach reduces the size of the training data by 38.4% while generating 1.4-times the number of n-grams with superior performance for English text.

딥러닝을 이용한 코로나 챗봇 (COVID-19 Chat Bot by using Deep Learning)

  • 이세훈;정지석;김영진;권형근;서희주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.315-316
    • /
    • 2020
  • 본 논문에서는 현재 이슈가 되고 있는 코로나에 대해서 사람들이 실생활에서 궁금해할 정보들을 Seq2seq 기술을 사용한 챗봇으로 정보를 제공한다.

  • PDF

염기서열 해독작업을 위한 핵산 단편 조립 프로그램의 개발 (Development of Contig Assembly Program for Nucleotide Sequencing)

  • 이동훈
    • 미생물학회지
    • /
    • 제35권2호
    • /
    • pp.121-127
    • /
    • 1999
  • 염기서열 해독작업에서 각 핵산 단편을 조립하는 contig 구성문제에 활용이 가능한 computer program을 개발하였다. 본 프로그램은 국내에서 광범위하게 사용되고 있는 MS-Windows 운영체제의 개인용 컴퓨터에서 작동이 가능하며, GenBank, FASTA, ASCII 등과 같은 다양한 형태의 염기서열 자료를 입력할 수 있다. 두 단편에서 최대 유사도를 나타내는 부분을 정렬하는 작업에는 염기서열의 국부적 상동성을 계산하고 dynamic programming 알고리즘을 적용하는 방법을 이용하였다. 또한 사용하기 편리한 그래픽 방식의 인터페이스를 제공하여 초보자라도 손쉽게 조작할 수 있다는 장점을 갖는다. 본 프로그램의 성능을 검증하기 위하여 세균과 곰팡이로부터 해독된 16S rRNA 와 18S rRNA 유전자의 단편 염기서열을 재구성하는 작업에 프로그램을 사용하였을 때에 효율적인 작업이 가능하였다.

  • PDF

RNA 시퀀싱 기법으로 생성된 빅데이터 분석 (Big Data Analytics in RNA-sequencing)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.235-243
    • /
    • 2023
  • 차세대 염기서열 분석이 개발되고 널리 사용됨에 따라 RNA-시퀀싱(RNA-sequencing, RNA-seq)이 글로벌 전사체 프로파일링을 검증하기 위한 도구의 첫번째 선택으로 급부상하게 되었다. RNA-seq의 상당한 발전으로 다양한 유형의 RNA-seq가 생물정보학(bioinformatics) 발전과 함께 진화했으나, 다양한 RNA-seq 기법 및 생물정보학에 대한 전반적인 이해 없이는 RNA-seq의 복잡한 데이터를 해석하여 생물학적 의미를 도출하기는 어렵다. 이와 관련하여 본 리뷰에서는 RNA-seq의 두 가지 주요 섹션을 논의하고 있다. 첫째, Standard RNA-seq과 주요하게 자주 사용되는 두 가지 RNA-seq variant method를 비교하였다. 이 비교는 어떤 RNA-seq 방법이 연구 목적에 가장 적절한지에 대한 시사점을 제공한다. 둘째, 가장 널리 사용되는 RNA-seq에서 생성된 데이터 분석; (1) 탐색적 자료 분석 및 (2) enriched pathway 분석에 대해 논의하였다. 데이터 세트의 전반적인 추세를 제공할 수 있는 주 성분 분석, Heatmap 및 Volcano plot과 같이 RNA-seq에 대해 가장 널리 사용되는 탐색적 자료 분석을 소개하였다. Enriched pathway 분석 섹션에서는 3가지 세대의 enriched pathway 분석에 대해 소개하고 각 세대가 어떤 식으로 RNA-seq 데이터 세트로부터 enriched pathway를 도출하는지를 소개하였다.

Identification of Alternative Splicing and Fusion Transcripts in Non-Small Cell Lung Cancer by RNA Sequencing

  • Hong, Yoonki;Kim, Woo Jin;Bang, Chi Young;Lee, Jae Cheol;Oh, Yeon-Mok
    • Tuberculosis and Respiratory Diseases
    • /
    • 제79권2호
    • /
    • pp.85-90
    • /
    • 2016
  • Background: Lung cancer is the most common cause of cancer related death. Alterations in gene sequence, structure, and expression have an important role in the pathogenesis of lung cancer. Fusion genes and alternative splicing of cancer-related genes have the potential to be oncogenic. In the current study, we performed RNA-sequencing (RNA-seq) to investigate potential fusion genes and alternative splicing in non-small cell lung cancer. Methods: RNA was isolated from lung tissues obtained from 86 subjects with lung cancer. The RNA samples from lung cancer and normal tissues were processed with RNA-seq using the HiSeq 2000 system. Fusion genes were evaluated using Defuse and ChimeraScan. Candidate fusion transcripts were validated by Sanger sequencing. Alternative splicing was analyzed using multivariate analysis of transcript sequencing and validated using quantitative real time polymerase chain reaction. Results: RNA-seq data identified oncogenic fusion genes EML4-ALK and SLC34A2-ROS1 in three of 86 normal-cancer paired samples. Nine distinct fusion transcripts were selected using DeFuse and ChimeraScan; of which, four fusion transcripts were validated by Sanger sequencing. In 33 squamous cell carcinoma, 29 tumor specific skipped exon events and six mutually exclusive exon events were identified. ITGB4 and PYCR1 were top genes that showed significant tumor specific splice variants. Conclusion: In conclusion, RNA-seq data identified novel potential fusion transcripts and splice variants. Further evaluation of their functional significance in the pathogenesis of lung cancer is required.