• 제목/요약/키워드: Word embedding

검색결과 234건 처리시간 0.024초

텍스트 마이닝을 이용한 주제기반의 기업인 네트워크 계층 분석 (Topic Based Hierarchical Network Analysis for Entrepreneur Using Text Mining)

  • 이동훈;김용화;김관호
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.33-49
    • /
    • 2018
  • 다양한 고객의 요구를 만족시키기 위한 신제품 설계 및 개발의 필요성 때문에 중소기업 간의 융합 활동의 중요성은 증대하고 있다. 특히, 최고 의사결정을 가지는 중소기업 대표는 적합한 융합 활동 파트너를 구하기 위해 인맥관리는 필수적이다. 한편 기업인들은 많은 양의 인맥을 형성하는 것이 중요할 뿐만 아니라 유사한 토픽정보를 가진 기업인과의 인맥관계를 이해하는 것이 중요하다. 그러나 중소기업의 현황 부재와 산업분야별 기업인들의 기술과 특성을 나타낼 수 있는 토픽정보를 수집하는데 어려운 한계가 존재한다. 본 논문에서는 토픽 추출기법을 통해 이와 같은 문제점을 해결하고 3가지 측면에서 기업 네트워크를 분석한다. 구체적으로 C, S, T-Layer 모델이 있으며 각각의 모델은 인맥의 양, 인맥 중심성, 토픽 유사성을 분석한다. 실 데이터를 통한 실험 결과, 인맥의 양이 적은 경우 중심성이 높은 기업과 네트워크를 강화하여 인맥 네트워크를 활성화 시켜야 할 필요가 있고, 토픽 유사성이 낮은 경우 주제 기반의 네트워크를 활성화 시켜야 할 필요가 있다는 것을 실험을 통해 확인하였다.

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

음악과 플레이리스트의 메타데이터를 활용한 하이브리드 음악 추천 시스템에 관한 연구 (Research on hybrid music recommendation system using metadata of music tracks and playlists)

  • 이현태;임규건
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.145-165
    • /
    • 2023
  • 추천 시스템은 인터넷의 발달로 급격하게 증가하는 정보의 양으로 인해 생긴 정보 선택의 어려움을 소비자에게 덜어주고 각 개인의 취향에 맞는 정보를 효율적으로 보여주는 중요한 역할을 한다. 특히, E-commerce와 OTT 기업은 상품과 콘텐츠 양이 급격하게 증가하면서 추천 시스템의 도움 없이는 인기 있는 상품만 소비되는 현상을 극복하지 못한다. 이러한 현상을 극복하고 고객 개인 취향에 맞는 정보 혹은 콘텐츠를 제공해 고객의 소비를 유도하기 위해 추천 시스템의 연구가 활발히 진행되고 있다. 일반적으로 유저(user)의 과거 행동 이력을 활용한 협업 필터링이 유저가 선호한 콘텐츠의 정보를 활용하는 콘텐츠 기반 필터링에 비해 높은 성능을 보여준다. 하지만 협업 필터링은 과거 행동 데이터가 부족한 유저에 대해서는 추천의 성능이 낮아지는 콜드 스타트(Cold Start) 문제를 겪게 된다. 본 논문에서는 카카오 아레나 경진대회에서 주어진 음악 스트리밍 서비스 멜론의 플레이리스트 데이터를 기반으로 앞에서 언급한 콜드 스타트 문제를 해결할 수 있는 하이브리드 음악 추천 시스템을 제시했다. 본 연구에서는 플레이리스트에 수록된 곡 목록과 각 음악과 플레이리스트의 메타데이터를 활용해 절반 혹은 전부 가려진 플레이리스트의 다른 수록 곡을 예측하는 것을 목표로 하였다. 이를 위해 플레이리스트 안에 곡이 있는 경우와 아예 곡이 없는 경우를 나눠서 추천을 진행하였다. 플레이리스트 안에 곡이 있는 경우에는 해당 플레이리스트의 곡 목록과 각 곡의 메타데이터를 활용하기 위해 LightFM을 활용하였다. 그 다음에 Item2Vec을 활용해 플레이리스트에 있는 수록 곡과 태그 및 제목의 임베딩 벡터를 생성하고 이를 추천에 활용하였다. 최종적으로 LightFM과 Item2Vec 모델의 앙상블을 통해 최종 추천 결과를 생성하였다. 플레이리스트 안에 곡이 없고 태그 혹은 제목만이 존재할 경우에는 플레이리스트의 메타데이터인 태그와 제목을 FastText를 활용해 사전 학습을 시켜 생성된 플레이리스트 벡터를 기반으로 플레이리스트 간의 유사도를 활용하여 추천을 진행하였다. 이렇게 추천한 결과, 기존 Matrix Factorization(MF)에서 해결하지 못한 콜드 스타트 문제를 해결할 수 있었을 뿐만 아니라 곡과 플레이리스트의 메타데이터를 활용해 기존 MF 모델인 ALS와 BPR 그리고 Word2Vec 기반으로 추천해 주는 Item2Vec 기술보다 높은 추천 성능을 낼 수 있었다. 또한, LightFM을 토대로 다양한 곡의 메타데이터를 실험한 결과, 여러 메타데이터 중에서 아티스트 정보를 단독으로 활용한 LightFM 모델이 다른 메타데이터를 활용한 LightFM 모델들과 비교해 가장 높은 성능을 보여준다는 것을 확인할 수 있었다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.