• 제목/요약/키워드: 워드임베딩

검색결과 93건 처리시간 0.022초

도메인 온톨로지와 워드임베딩을 활용한 영상검색 시스템의 질의어 확장 (Query Expansion of Video Retrieval System using Domain Ontology and Word Embedding)

  • 함경준;곽창욱;김선중
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.245-247
    • /
    • 2017
  • 기존 콘텐츠를 활용 및 조합하여 새로운 콘텐츠를 제작하는 개인 사용자가 늘어나고 있는 추세다. 사용자가 원하는 내용이 담긴 영상 콘텐츠를 활용하기 위해서는 이를 지원하는 영상 검색 시스템이 필요하다. 하지만 기존의 영상 검색 시스템은 키워드 매칭을 기반으로 하고 있기 때문에 사용자가 원하는 영상을 찾지 못하는 경우가 많다. 본 연구에서는 이러한 문제를 해결하기 위해 사용자의 검색 의도를 보다 정확하게 표현할 수 있는 질의어 확장 방법을 제시하고 있다. 제시하는 방법은 도메인 온톨로지와 워드 임베딩 결과를 이용하여 질의어와 의미적으로 밀접히 관련된 단어를 추가하고 확장된 질의어를 이용하여 검색을 수행하게 된다. 이를 통해 사용자는 만족할만한 검색 결과를 얻을 수 있게 된다. 구현한 시스템을 이용하여 질의어가 확장되는 과정을 보임으로써 본 연구에서 제시하고 있는 방법에 대한 평가를 수행하였다.

  • PDF

임베딩 자질을 이용한 대화의 감정 분류 (Emotion Classification in Dialogues Using Embedding Features)

  • 신동원;이연수;장정선;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.109-114
    • /
    • 2015
  • 대화 시스템에서 사용자 발화에 대한 감정 분석은 적절한 시스템 응답과 서비스를 제공하는데 있어 매우 중요한 정보이다. 본 연구에서는 단순한 긍, 부정이 아닌 분노, 슬픔, 공포, 기쁨 등 Plutchick의 8 분류 체계에 해당하는 상세한 감정을 분석 하는 데 있어, 임베딩 모델을 사용하여 기존의 어휘 자질을 효과적으로 사용할 수 있는 새로운 방법을 제안한다. 또한 대화 속에서 발생한 감정의 지속성을 반영하기 위하여 문장 임베딩 벡터와 문맥 임베딩 벡터를 자질로서 이용하는 방법에 대해 제안한다. 실험 결과 제안하는 임베딩 자질은 특히 내용어에 대해 기존의 어휘 자질을 대체할 수 있으며, 데이터 부족 문제를 다소 해소하여 성능 향상에 도움이 되는 것으로 나타났다.

  • PDF

Impact of Word Embedding Methods on Performance of Sentiment Analysis with Machine Learning Techniques

  • Park, Hoyeon;Kim, Kyoung-jae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.181-188
    • /
    • 2020
  • 본 연구에서는 다양한 워드 임베딩 기법이 감성분석의 성과에 미치는 영향을 확인하기 위한 비교연구를 제안한다. 감성분석은 자연어 처리를 사용하여 텍스트 문서에서 주관적인 정보를 식별하고 추출하는 오피니언 마이닝 기법 중 하나이며, 상품평이나 댓글의 감성을 분류하는데 사용될 수 있다. 감성은 긍정적이거나 부정적인 것으로 분류될 수 있기 때문에 일반적인 분류문제 중 하나로 생각할 수 있으며, 이의 분류를 위해서는 텍스트를 컴퓨터가 인식할 수 있는 언어로 변환하여야 한다. 따라서 단어나 문서와 같은 텍스트를 자연어 처리에서 벡터로 변형하여 진행하는데 이를 워드 임베딩이라고 한다. 워드 임베딩 기법은 Bag of Words, TF-IDF, Word2Vec 등 다양한 기법이 사용되고 있는데 지금까지 감성분석에 적합한 워드 임베딩 기법에 대한 연구는 많이 진행되지 않았다. 본 연구에서는 영화 리뷰의 감성분석을 위해 다양한 워드 임베딩 기법 중 Bag of Words, TF-IDF, Word2Vec을 사용하여 그 성과를 비교 분석한다. 분석에 사용할 연구용 데이터 셋은 텍스트 마이닝에서 많이 활용되고 있는 IMDB 데이터 셋을 사용하였다. 분석 결과, TF-IDF와 Bag of Words의 성과가 Word2Vec보다 우수한 것으로 나타났으며 TF-IDF는 Bag of Words보다 성과가 우수하였으나 그 차이가 매우 크지는 않았다.

사회적 이슈 리스크 유형 분류를 위한 어휘 자질 선별 (Linguistic Features Discrimination for Social Issue Risk Classification)

  • 오효정;윤보현;김찬영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.541-548
    • /
    • 2016
  • 사용자의 다양한 의견을 수렴하고 모니터링하기 위한 정보원으로써 소셜미디어의 활용은 이미 필수가 되었다. 본 논문은 소셜미디어에 나타난 다양한 이슈 중 여론 형성에 악영향을 끼치는 부정적 사건을 이슈 '리스크'로 정의, 그 세부 유형을 자동으로 분류하는 모델을 개발하고자 한다. 이를 위해 소셜미디어에 나타난 다양한 어휘 자질을 선별, 그 효과를 규명하였다. 특히 리스크 문장의 어휘 구문 특징을 표현하기 위한 자질로 워드 임베딩 학습 결과를 활용한다. 개별 어휘 자질의 특징을 분석하기 위해 언어분석 오류를 보정한 환경에서 수행한 실험 결과, 가장 효과가 큰 자질은 개체명 자질로 분석되었으며, 기본 어휘 자질을 기반으로 주요 술부의 워드 임베딩 결과와 워드 클러스터 결과를 모두 조합한 경우가 최고 성능을 보이는 것으로 파악되었다. 실제 소셜빅데이터에 적용하는 환경과 유사하도록 자동 언어분석 결과의 오류를 포함한 조건에서 실험한 결과, 고빈도 평가셋에서는 92.08%의 성능을, 전체 58개 범주 평가셋에서는 85.84%의 성능을 얻었다.

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상 (Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity)

  • 윤희근;최수정;박성배
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.653-661
    • /
    • 2016
  • 기존의 패턴기반 트리플 생성 시스템은 distant supervision의 가정으로 인해 오류 패턴을 생성하여 트리플 생성 시스템의 성능을 저하시키는 문제점이 있다. 이 문제점을 해결하기 위해 본 논문에서는 패턴과 프로퍼티 사이의 의미 유사도 기반의 패턴 신뢰도를 측정하여 오류 패턴을 제거하는 방법을 제안한다. 의미 유사도 측정은 비지도 학습 방법인 워드임베딩과 워드넷 기반의 어휘 의미 유사도 측정 방법을 결합하여 사용한다. 또한 한국어 패턴과 영어 프로퍼티 사이의 언어 및 어휘 불일치 문제를 해결하기 위해 정준 상관 분석과 사전 기반의 번역을 사용한다. 실험 결과에 따르면 제안한 의미 유사도 기반의 패턴 신뢰도 측정 방법이 기존의 방법보다 10% 높은 정확률의 트리플 집합을 생성하여, 트리플 생성 성능 향상을 증명하였다.

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

딥러닝 기법을 이용한 낚시성 기사 제목 분류에 대한 연구 (A study on classification of hooking headlines using deep learning techniques)

  • 최용석;최한나;신지혜;정창민;안정연;유채영;임채은;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-17
    • /
    • 2015
  • 본 논문은 낚시성 기사 제목과 비낚시성 기사 제목을 판별하기 위한 시스템을 제시한다. 서포트 벡터 머신(SVM)을 이용하여 기사 제목을 분류하며, 분류하는 기준은 딥러닝 기법중의 하나인 워드임베딩(Word Embedding), 군집화 알고리즘 중 하나인 K 평균 알고리즘(K-means)을 이용한다. 자질로서 기사 제목의 단어를 사용하였으며, 정확도가 83.78%이다. 결론적으로 낚시성 기사 제목에는 낚시를 유도하는 특별한 단어들이 존재함을 알 수 있다.

  • PDF

워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법 (Multi Sentence Summarization Method using Similarity Clustering of Word Embedding)

  • 이필원;송진수;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

검색환경 개선을 위한 자연어 처리 기반 맞춤형 추천 검색시스템 (Recommender system for web search based on NLP to improve user search environment)

  • 승현수;박지윤;우다현;오승민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1168-1171
    • /
    • 2021
  • 일반적인 검색엔진을 가진 포털 환경에서 정보검색 시 사용자가 원치 않는 수많은 검색결과가 동반되기도 하고 자신의 취향에 맞는 글을 검색하지 않았다는 이유만으로 원하는 정보를 놓치는 상황도 일어난다. 이러한 검색환경의 문제를 개선하기 위해 본 논문에서는 사용자들의 검색환경 개선을 위한 맞춤형 검색결과 정렬, 검색어 추천, 게시글 추천의 추천 시스템을 설계하고 제작한다. 이러한 추천 시스템은 워드 임베딩 모델과 추천 시스템 모델을 포함한다. 기존에 존재하던 워드 임베딩 모델의 성능을 실험을 통해 비교 및 분석하고, 크롤링을 통해 모은 데이터로 성능을 24.98%P 개선하였다. 추천 시스템 모델은 RMSE 비교를 통해 최적이 알고리즘을 제안한다. 해당 기술을 통해 사용자 스스로 자신의 검색환경을 개선할 수 있도록 구현하는 것이 이 시스템의 목표이다.