• 제목/요약/키워드: Word2Vec

검색결과 218건 처리시간 0.025초

검색 키워드를 활용한 하이브리드 협업필터링 기반 상품 추천 시스템 (A Hybrid Collaborative Filtering-based Product Recommender System using Search Keywords)

  • 이윤주;원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.151-166
    • /
    • 2020
  • 추천시스템(recommender system)은 고객의 선호도를 예측하여 상품과 서비스를 제공하는 기법으로, 현재 다양한 온라인 서비스에 활용되고 있다. 이와 관련된 많은 선행 연구들은 협업필터링(collaborative filtering)에 기반한 추천시스템을 제안하였는데, 대부분의 경우 고객의 구매 내역 또는 평점 데이터만 사용하여 진행되었다. 오늘날 소비자들은 제품을 구매하는 과정에서 온라인 검색 행동을 하여 관심있는 제품을 찾는다. 그렇기 때문에 검색 키워드 데이터는 고객의 선호도를 파악하는데 매우 유용한 정보일 수 있다. 그러나 지금까지 추천시스템 연구에서 사용되는 경우는 거의 없었다. 이에 본 연구는 고객의 검색 행동에 주목하여 온라인 쇼핑몰 고객의 검색 키워드 데이터와 구매 데이터를 고려한 하이브리드 협업 필터링을 제안하였다. 본 연구는 제안된 모델의 적용 가능성을 검증하기 위해 실제 온라인 쇼핑몰 데이터를 사용하여 성능을 검증하였다. 연구 결과, 추천 상품의 개수가 많아질수록 고객의 검색 키워드를 기반으로 구축된 협업필터링의 추천 성능이 향상되는 반면 일반적인 협업필터링의 성능은 추천된 상품의 개수가 많아질수록 점차 감소함을 발견하였다. 따라서 본 연구는 검색 키워드 데이터를 활용한 하이브리드 협업필터링이 고객의 선호도를 반영한 추천할 수 있으며, 구매이력 데이터의 정보부족을 해결할 수 있음을 확인하였다. 이는 기존의 정량 데이터만을 활용한 추천 시스템이 아닌, 비정형 데이터인 텍스트를 사용함으로써 새로운 하이브리드 협업필터링 구축 방법을 제안했다는 점에서 의의가 있다.

한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론 (Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology)

  • 임솔이;이원준;이근배;김윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

Arabic Stock News Sentiments Using the Bidirectional Encoder Representations from Transformers Model

  • Eman Alasmari;Mohamed Hamdy;Khaled H. Alyoubi;Fahd Saleh Alotaibi
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.113-123
    • /
    • 2024
  • Stock market news sentiment analysis (SA) aims to identify the attitudes of the news of the stock on the official platforms toward companies' stocks. It supports making the right decision in investing or analysts' evaluation. However, the research on Arabic SA is limited compared to that on English SA due to the complexity and limited corpora of the Arabic language. This paper develops a model of sentiment classification to predict the polarity of Arabic stock news in microblogs. Also, it aims to extract the reasons which lead to polarity categorization as the main economic causes or aspects based on semantic unity. Therefore, this paper presents an Arabic SA approach based on the logistic regression model and the Bidirectional Encoder Representations from Transformers (BERT) model. The proposed model is used to classify articles as positive, negative, or neutral. It was trained on the basis of data collected from an official Saudi stock market article platform that was later preprocessed and labeled. Moreover, the economic reasons for the articles based on semantic unit, divided into seven economic aspects to highlight the polarity of the articles, were investigated. The supervised BERT model obtained 88% article classification accuracy based on SA, and the unsupervised mean Word2Vec encoder obtained 80% economic-aspect clustering accuracy. Predicting polarity classification on the Arabic stock market news and their economic reasons would provide valuable benefits to the stock SA field.

BERT를 이용한 딥러닝 기반 소스코드 취약점 탐지 방법 연구 (A BERT-Based Deep Learning Approach for Vulnerability Detection)

  • 김문회;오희국
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1139-1150
    • /
    • 2022
  • SW 산업의 급속한 발전과 함께 새롭게 개발되는 코드와 비례해서 취약한 코드 또한 급증하고 있다. 기존에는 전문가가 수동으로 코드를 분석하여 취약점을 탐지하였지만 최근에는 증가하는 코드에 비해서 분석하는 인력이 부족하다. 이 때문에 기존 Vuldeepecker와 같은 많은 연구에서는 RNN 기반 모델을 이용하여 취약점을 탐지하였다. 그러나 RNN 모델은 코드의 양이 방대할수록 새롭게 입력되는 코드만 학습되고 초기에 입력된 코드는 최종 예측 결과에 영향을 주지 못하는 한계점이 있다. 또한 RNN 기반 방법은 입력에 Word2vec 모델을 사용하여 단어의 의미를 상징하는 embedding을 먼저 학습하여 고정 값으로 RNN 모델에 입력된다. 이는 서로 다른 문맥에서 다른 의미를 표현하지 못하는 한계점이 있다. BERT는 Transformer 모델을 기본 레이어로 사용하여 각 단어가 전체 문맥에서 모든 단어 간의 관계를 계산한다. 또한 MLM과 NST 방법으로 문장 간의 앞뒤 관계를 학습하기 때문에 취약점 탐지와 같은 코드 간 관계를 분석해야 할 필요가 있는 문제에서 적절한 방법이다. 본 논문에서는 BERT 모델과 결합하여 취약점 탐지하는 연구를 수행하였고 실험 결과 취약점 탐지의 정확성이 97.5%로 Vuldeepecker보다 정확성 1.5%. 효율성이 69%를 증가하였다.

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석 (Deep learning-based Multilingual Sentimental Analysis using English Review Data)

  • 성재경;김영복;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.9-15
    • /
    • 2019
  • 영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

텍스트 마이닝을 이용한 주제기반의 기업인 네트워크 계층 분석 (Topic Based Hierarchical Network Analysis for Entrepreneur Using Text Mining)

  • 이동훈;김용화;김관호
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.33-49
    • /
    • 2018
  • 다양한 고객의 요구를 만족시키기 위한 신제품 설계 및 개발의 필요성 때문에 중소기업 간의 융합 활동의 중요성은 증대하고 있다. 특히, 최고 의사결정을 가지는 중소기업 대표는 적합한 융합 활동 파트너를 구하기 위해 인맥관리는 필수적이다. 한편 기업인들은 많은 양의 인맥을 형성하는 것이 중요할 뿐만 아니라 유사한 토픽정보를 가진 기업인과의 인맥관계를 이해하는 것이 중요하다. 그러나 중소기업의 현황 부재와 산업분야별 기업인들의 기술과 특성을 나타낼 수 있는 토픽정보를 수집하는데 어려운 한계가 존재한다. 본 논문에서는 토픽 추출기법을 통해 이와 같은 문제점을 해결하고 3가지 측면에서 기업 네트워크를 분석한다. 구체적으로 C, S, T-Layer 모델이 있으며 각각의 모델은 인맥의 양, 인맥 중심성, 토픽 유사성을 분석한다. 실 데이터를 통한 실험 결과, 인맥의 양이 적은 경우 중심성이 높은 기업과 네트워크를 강화하여 인맥 네트워크를 활성화 시켜야 할 필요가 있고, 토픽 유사성이 낮은 경우 주제 기반의 네트워크를 활성화 시켜야 할 필요가 있다는 것을 실험을 통해 확인하였다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

수학 교수학적 어휘의 변화: 텍스트 마이닝 기법을 이용한 교실수업 어휘 연구의 확장 (Changes in mathematics pedagogical lexicons: Extension research of the International Classroom Lexicon using a text mining approach)

  • 이기마;김희정
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제61권4호
    • /
    • pp.559-579
    • /
    • 2022
  • 어휘와 언어에 대한 연구는 이를 사용하는 개인들이 포함된 공동체의 관심과 가치, 실천 관행에 대한 이해도를 높일 수 있다. 이러한 맥락에서 10개국이 참여한 국제 교실수업 어휘 프로젝트(The International Classroom Lexicon Project)는 자국의 수학 교실 수업과 관련하여, 교사가 바라보고 명명하는 구어적 입장에서 수학 교실수업 어휘 연구를 진행하여 어휘를 확인하고 정리하였다. 본 연구는 이 국제 교실수업 어휘 프로젝트 연구의 확장으로, 전국수학교사모임에서 발행하는 수학교사 전문 잡지인 「수학과 교육」에 사용된 교수학적 어휘를 텍스트 마이닝 기법을 이용하여 조사하고, 통시적 관점에서 최근 10년간 시간의 흐름에 따라 이러한 교수학적 어휘가 양적으로 어떻게 변화하였는지를 관찰하였다. 연구 결과, 선행연구에서 발견되지 않은 새로운 교수학적 어휘를 발견할 수 있었다. 또한, 이러한 교수학적 어휘 중 시간의 흐름에 따라 출현 빈도가 유의하게 증가하는 어휘와 단기간에 갑자기 출현(급증)하는 어휘를 발견할 수 있었으며, 이를 통해 수학교사를 위한, 그리고 수학교사에 의한 전문 잡지를 중심으로 이루어진 문어적 공동체 수학교사의 관심의 변화를 살펴볼 수 있었고, 나아가 이러한 관심의 변화를 사회문화적·사건적·시대적 맥락에 비추어 봄으로써 이들의 가치와 시대적 정신의 변화를 조심스럽게 해석할 수 있었다. 이러한 점에서 본 연구는 지난 10년간 시대의 변화에 따른 한국의 수학교사 공동체에서의 수학교육에 대한 관심과 가치, 시대적 정신을 이해하는 첫 걸음으로서 가치를 지니고 있다. 또한, 텍스트 마이닝 기법이 이러한 시대변화에 따른 관심과 가치, 시대적 정신의 변화에 대한 연구를 수행할 수 있는 방법론적인 기여를 제공한다.