• Title/Summary/Keyword: 문장 벡터

Search Result 145, Processing Time 0.024 seconds

A Study on the Accuracy Improvement of Movie Recommender System Using Word2Vec and Ensemble Convolutional Neural Networks (Word2Vec과 앙상블 합성곱 신경망을 활용한 영화추천 시스템의 정확도 개선에 관한 연구)

  • Kang, Boo-Sik
    • Journal of Digital Convergence
    • /
    • v.17 no.1
    • /
    • pp.123-130
    • /
    • 2019
  • One of the most commonly used methods of web recommendation techniques is collaborative filtering. Many studies on collaborative filtering have suggested ways to improve accuracy. This study proposes a method of movie recommendation using Word2Vec and an ensemble convolutional neural networks. First, in the user, movie, and rating information, construct the user sentences and movie sentences. It inputs user sentences and movie sentences into Word2Vec to obtain user vectors and movie vectors. User vectors are entered into user convolution model and movie vectors are input to movie convolution model. The user and the movie convolution models are linked to a fully connected neural network model. Finally, the output layer of the fully connected neural network outputs forecasts of user movie ratings. Experimentation results showed that the accuracy of the technique proposed in this study accuracy of conventional collaborative filtering techniques was improved compared to those of conventional collaborative filtering technique and the technique using Word2Vec and deep neural networks proposed in a similar study.

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

A Long Sentence Segmentation for the Efficient Analysis in English-Korean Machine Translation (영한 기계번역에서 효율적인 분석을 위한 긴 문장의 분할)

  • Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.89-96
    • /
    • 2005
  • 본 연구에서는 영한 기계 번역에서 20단어 이상의 긴 문장을 보다 정확히 분석하기 위하여 문장을 복수개의 의미 있는 절로 분할하고자 한다. 긴 문장은 구문 분석을 시도할 때, 시간적으로 또는 공간적으로 급격히 증가하는 자원을 소모시킨다. 이러한 문제를 해결하기 위하여, 본 연구에서는 긴 문장에서 분할 가능한 지점을 인식하여 이러한 지점을 중심으로 여러 개의 절을 생성한 후, 이 절을 개별적으로 분석하고자 하였다. 문장을 분할하기 위해서 일단 문장 내부에 존재하고 있는 분할이 가능한 지점을 선택하고, 선택된 지점을 중심으로 문맥 정보를 표현하는 입력 벡터를 생성하였다. 그리고 Support Vector Machine (SVM)을 이용하여 이러한 후보 지점의 특성을 학습하여 향후 긴 문장이 입력되었을 때 보다 정확하게 분할점을 찾고자 하였다. 본 논문에서는 SVM의 보다 좋은 학습과 분류를 위하여 내부 커널로써 다항 커널 (polynomial kernel)을 사용하였다. 그리고 실험을 통하여 약 0.97의 f-measure 값을 얻을 수 있었다.

  • PDF

Rhetorical Sentence Classification Using Context Information (문맥 정보를 이용한 논문 문장 수사학적 분류)

  • Seong, Su-Jin;Kim, Seong-Chan;Lee, Seung-Woo;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.316-319
    • /
    • 2021
  • 우리는 과학기술 분야 논문 내 문장에 대해 논문의 의미 구조를 반영하는 수사학적 태그를 자동으로 부착하기 위한 분류 모델을 구축한다. 문장의 태그가 이전 문장의 태그와 상관관계를 갖는 특징을 반영하여 이전 문장을 추가 자질로 사용한다. 이전 문장을 추가 자질로 모델에 입력하기 위해 5 가지 결합 방법에 대한 실험을 진행한다. 실험 결과 각 문장에 대해 독립된 인코더를 사용하고 인코더의 결과 벡터를 concatenation 연산으로 조합하여 분류를 수행하는 것이 가장 높은 성능을 보이는 것을 확인하였다.

  • PDF

Question Retrieval using Deep Semantic Matching for Community Question Answering (심층적 의미 매칭을 이용한 cQA 시스템 질문 검색)

  • Kim, Seon-Hoon;Jang, Heon-Seok;Kang, In-Ho
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

Korean Sentiment Analysis by using Noisy Text Embedding (Noisy 텍스트 임베딩을 이용한 한국어 감정 분석)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.506-509
    • /
    • 2019
  • 신문기사나 위키피디아와 같이 정보를 전달하는 텍스트와는 달리 사람의 감정 및 의도를 표현하는 텍스트는 다양한 형태의 노이즈를 포함한다. 본 논문에서는 data-driven 방법을 이용하여 노이즈와 단어들 사이의 관계를 LSTM을 이용하여 하나의 벡터로 요약하는 모델을 제안한다. 노이즈 문장 벡터를 표현하는 방식으로는 단방향 LSTM 인코더과 양방향 LSTM 인코더의 두 가지 모델을 이용하여 노이즈를 포함하는 영화 리뷰 데이터를 가지고 감정 분석 실험을 하였고, 실험 결과 단방향 LSTM 인코더보다 양방향 LSTM인 코더가 우수한 성능을 보여주었다.

  • PDF

Document Embedding for Entity Linking in Social Media (문서 임베딩을 이용한 소셜 미디어 문장의 개체 연결)

  • Park, Youngmin;Jeong, Soyun;Lee, Jeong-Eom;Shin, Dongsoo;Kim, Seona;Seo, Junyun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.194-196
    • /
    • 2017
  • 기존의 단어 기반 접근법을 이용한 개체 연결은 단어의 변형, 신조어 등이 빈번하게 나타나는 비정형 문장에 대해서는 좋은 성능을 기대하기 어렵다. 본 논문에서는 문서 임베딩과 선형 변환을 이용하여 단어 기반 접근법의 단점을 해소하는 개체 연결을 제안한다. 문서 임베딩은 하나의 문서 전체를 벡터 공간에 표현하여 문서 간 의미적 유사도를 계산할 수 있다. 본 논문에서는 또한 비교적 정형 문장인 위키백과 문장과 비정형 문장인 소셜 미디어 문장 사이에 선형 변환을 수행하여 두 문형 사이의 표현 격차를 해소하였다. 제안하는 개체 연결 방법은 대표적인 소셜 미디어인 트위터 환경 문장에서 단어 기반 접근법과 비교하여 높은 성능 향상을 보였다.

  • PDF

Cross-Texting Prevention System using Korean Chat Corpus (한글 채팅 말뭉치를 이용한 크로스-텍스팅 방지 시스템)

  • Lee, Da-Young;Who, Hwan-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.377-382
    • /
    • 2020
  • cross-texting은 실수로 의도하지 않은 상대방에게 메세지를 잘못 전송하는 것을 말한다. 휴대폰 메신저 사용이 활발해짐에 따라 이 같은 실수가 빈번하게 발생하는데 메신저에서 제공하는 기능은 대체로 사후 해결책에 해당하고 사용자가 사전에 실수를 발견하기는 어렵다. 본 논문에서는 사용자가 작성한 문장의 형식적 자질를 분석하여 현재 참여중인 대화에서 작성한 문장이 cross-texting인지를 판별하는 모델을 제안했다. 문장에서 높임법, 표층적 완성도 자질을 추출하고 이를 통해 특정 사용자의 대화를 모델링하여 주어진 문장이 대화에 부합하는지 여부를 판단한다. 이같은 방식은 채팅방의 이전 기록만으로도 사용자가 작성한 문장이 cross-texting인지 여부를 쉽게 판단할 수 있는 힌트를 제공할 수 있다. 실제 메신저 대화 말뭉치를 이용해 제작한 데이터에서 94% 정확도로 cross-texting을 탐지했다.

  • PDF

A Swearword Filter System for Online Game Chatting (온라인게임 채팅에서의 비속어 차단시스템)

  • Lee, Song-Wook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.7
    • /
    • pp.1531-1536
    • /
    • 2011
  • We propose an automatic swearword filter system for online game chatting by using Support Vector Machines(SVM). We collected chatting sentences from online games and tagged them as normal sentences or swearword included sentences. We use n-gram syllables and lexical-part of speech (POS) tags of a word as features and select useful features by chi square statistics. Each selected feature is represented as binary weight and used in training SVM. SVM classifies each chatting sentence as swearword included one or not. In experiment, we acquired overall 90.4% of F1 accuracy.