• Title/Summary/Keyword: 딥러닝 언어 모델

Search Result 250, Processing Time 0.024 seconds

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

A Study on the Enhancing Recommendation Performance Using the Linguistic Factor of Online Review based on Deep Learning Technique (딥러닝 기반 온라인 리뷰의 언어학적 특성을 활용한 추천 시스템 성능 향상에 관한 연구)

  • Dongsoo Jang;Qinglong Li;Jaekyeong Kim
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.1
    • /
    • pp.41-63
    • /
    • 2023
  • As the online e-commerce market growing, the need for a recommender system that can provide suitable products or services to customer is emerging. Recently, many studies using the sentiment score of online review have been proposed to improve the limitations of study on recommender systems that utilize only quantitative information. However, this methodology has limitation in extracting specific preference information related to customer within online reviews, making it difficult to improve recommendation performance. To address the limitation of previous studies, this study proposes a novel recommendation methodology that applies deep learning technique and uses various linguistic factors within online reviews to elaborately learn customer preferences. First, the interaction was learned nonlinearly using deep learning technique for the purpose to extract complex interactions between customer and product. And to effectively utilize online review, cognitive contents, affective contents, and linguistic style matching that have an important influence on customer's purchasing decisions among linguistic factors were used. To verify the proposed methodology, an experiment was conducted using online review data in Amazon.com, and the experimental results confirmed the superiority of the proposed model. This study contributed to the theoretical and methodological aspects of recommender system study by proposing a methodology that effectively utilizes characteristics of customer's preferences in online reviews.

Towards General Purpose Korean Paraphrase Sentence Recognition Model (범용의 한국어 패러프레이즈 문장 인식 모델을 위한 연구)

  • Kim, Minho;Hur, Jeong;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.450-452
    • /
    • 2021
  • 본 논문은 범용의 한국어 패러프레이즈 문장 인식 모델 개발을 위한 연구를 다룬다. 범용의 목적을 위해서 가장 걸림돌이 되는 부분 중의 하나는 적대적 예제에 대한 강건성이다. 왜냐하면 패러프레이즈 문장 인식에 대한 적대적 예제는 일반 유형의 말뭉치로 학습시킨 인식 모델을 무력화 시킬 수 있기 때문이다. 또한 적대적 예제의 유형이 다양하기 때문에 다양한 유형에 대해서도 대응할 수 있어야 하는 어려운 점이 있다. 본 논문에서는 다양한 적대적 예제 유형과 일반 유형 모두에 대해서 패러프레이즈 문장 여부를 인식할 수 있는 딥 뉴럴 네트워크 모델을 제시하고자 한다.

  • PDF

Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization (Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별)

  • Lee, Changsu;Cheon, Juryong;Kim, Joogeun;Kim, Taeil;Kang, Inho
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm (딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구)

  • Kang, Ye-Jee;Kang, Hye-Rin;Park, Seo-Yoon;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

A Transition based Joint Model for Korean Morpheme Segmentation and POS Tagging Using Deep Learning (딥러닝을 이용한 전이 기반 한국어 형태소 분석 및 품사 태깅)

  • Min, Jin-Woo;Na, Seung-Hoon;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.305-308
    • /
    • 2017
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 맞는 알맞은 품사를 결정하는 것은 매우 중요하다. 형태소의 품사를 태깅하는 대표적인 방법은 크게 음절 단위 형태소 분석과 단어 단위 형태소 분석의 두 가지로 나눌 수 있다. 본 논문에서는 의존 파싱 분야에서 널리 활용되고 있는 전이 기반 방식을 적용하여 전이 기반 단어 단위 한국어 형태소 분석 모델을 제안하고 해당 모델을 한국어 형태소 분석 데이터인 세종 품사 부착 말뭉치 셋에 적용하여 F1 97.77 %로 기존의 성능을 더욱 향상시켰다.

  • PDF

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

Tensorflow Model Environment with JavaCv for Mobile Devices (모바일을 위한 JavaCv를 이용한 Tensoflow모델 구동환경 개발)

  • Park, JinSang;Oh, SangGwon;Lee, SeongJin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.01a
    • /
    • pp.23-24
    • /
    • 2020
  • 현재 PC환경 뿐만 아니라 모바일 환경, 임베디드 환경에서 딥러닝 모델을 구동하기 위한 많은 연구들이 진행 중에 있다. 본 연구에서는 완성된 딥러닝 모델을 구동하는 환경을 Java로 구현하여 개발 접근성을 높이고자 한다. 이미지, 영상처리를 위해 OpenCV를 사용시 C++ API문서는 보편화되어있는 반면에 JavaCv API 문서는 그렇지 못하다. 그러나 모바일 개발 환경 특성상 Java언어로 작업한 코드를 안드로이드 스튜디오에서 작업 시 그대로 가져올 수 있어 개발이 용이하다. 모델 구동을 위한 전반적인 이미지 처리 및 작업환경을 개발하였다.

  • PDF

Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition (문법성 품질 예측에 기반한 음성 인식 오류 교정)

  • Mintaek Seo;Seung-Hoon Na;Minsoo Na;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF

Korean Dependency Parsing with Multi-layer Pointer Networks (멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석)

  • Park, Cheoneum;Hwang, Hyunsun;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.92-96
    • /
    • 2017
  • 딥 러닝 모델은 여러 히든 레이어로 구성되며, 히든 레이어의 깊이가 깊어질수록 레이어의 벡터는 높은 수준으로 추상화된다. 본 논문에서는 Encoder RNN의 레이어를 여러 층 쌓은 멀티 레이어 포인터 네트워크를 제안하고, 멀티 태스크 학습 기반인 멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석 모델을 제안한다. 멀티 태스크 학습 모델은 어절 간의 의존 관계와 의존 레이블 정보를 동시에 구하여 의존 구문 분석을 수행한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 의존 구문 분석 연구들 보다 좋은 UAS 92.16%, LAS 89.88%의 성능을 보였다.

  • PDF