• 제목/요약/키워드: Word2Vec

검색결과 219건 처리시간 0.026초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

Word2Vec과 가속화 계층적 밀집도 기반 클러스터링을 활용한 효율적 봇넷 탐지 기법 (An Efficient BotNet Detection Scheme Exploiting Word2Vec and Accelerated Hierarchical Density-based Clustering)

  • 이태일;김관현;이지현;이수철
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.11-20
    • /
    • 2019
  • 수많은 기업체, 기관, 개인 사용자가 대규모 DDos(Distributed Denial of Service)공격에 의한 피해에 노출되고 있다. DDoS 공격은 좀비PC라 불리는 수많은 컴퓨터들과 계층적 지령구조를 좀비PC들을 제어하는 네트워크인 봇넷을 통하여 수행된다. 통상의 악성코드 탐지 소프트웨어나 백신은 멀웨어를 탐지하기 위해서 사전에 심층 분석을 통한 멀웨어 시그니처를 밝혀야 하며, 이를 탐지 소프트웨어나 백신에 업데이트하여야 한다. 이 과정은 방대한 시간과 비용이 소모된다. 본고에서는 인공신경망 모델을 이용하여 주기적인 시그니처 사전 업데이트가 필요 없는 봇넷 탐지기법을 제안한다. 제안하는 인공신경망 모델은 Word2Vec과 가속화 계층적 밀집도 기반 클러스터링을 활용한다. 제안기법의 봇넷 탐지성능은 CTU-13 데이터셋을 이용하여 평가하였다. 성능평가 결과, 분류 정확도 99.9%로 기존 방법에 비해 우수한 멀웨어 탐지율을 보인다.

코로나 이전과 이후의 4차 산업혁명과 광고의 뉴스기사 분석 : LDA와 Word2vec을 중심으로 (News Article Analysis of the 4th Industrial Revolution and Advertising before and after COVID-19: Focusing on LDA and Word2vec)

  • 차영란
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.149-163
    • /
    • 2021
  • 4차 산업혁명이란 인공지능(AI), 사물인터넷(IoT), 로봇기술, 드론, 자율주행과 가상현실(VR) 등 정보통신 기술이 주도하는 차세대 산업혁명을 말하는 것으로, 광고 산업 발전에도 큰 영향을 미쳤다. 그러나 지금 전세계는 코로나 확산 방지를 위하여, 비접촉, 비대면 생활환경으로 급속도로 빠르게 변화하고 있다. 이에 따라 4차 산업혁명과 광고의 역할도 변화하고 있다. 따라서 본 연구에서는 코로나 19 이전과 이후의 4차산업 혁명과 광고의 변화를 살펴보기 위해 빅카인즈를 활용해서 텍스트 분석을 하였다. 코로나 19 이전인 2019년과 코로나 19 이후인 2020년을 비교하였다. LDA토픽 모형 분석과 딥러닝 기법인 Word2vec을 통해 주요 토픽과 문서분류를 하였다. 연구결과 코로나19 이전에는 정책, 콘텐츠, AI 등이 나타났으나, 코로나 이후에는 데이터를 활용한 금융, 광고, 배달 등으로 점차 영역이 확장되며, 더불어 인재양성 교육이 중요한 이슈로 나타난 것을 알 수 있었다. 또한, 코로나 19 이전에는 4차 산업혁명 기술과 관련된 광고를 활용하는 것이 주류를 이루었다면, 코로나 19 이후에는 참여, 협력, 일상 필요 등 좀 더 적극적으로 첨단기술 자체에 대한 교육과 인재양성 등에 대한 키워드가 두드러지게 나타나고 있다. 따라서 이러한 연구결과는 코로나 19 이후에 4차 산업혁명에서 광고의 나아갈 방향을 제시하면서, 이에 필요한 이론적, 실무적으로 적용할 수 있는 다각적인 전략을 제시하는 데 의의가 있다.

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허문서 추천연구 (LDA Topic Modeling and Recommendation of Similar Patent Document Using Word2vec)

  • 이앞길;최근호;김건우
    • 경영정보학연구
    • /
    • 제22권1호
    • /
    • pp.17-31
    • /
    • 2020
  • 4차 산업혁명 시대의 시작과 함께 다양한 분야의 기술들이 서로 융합하며 새로운 형태의 기술과 제품들이 개발되고 있으며, 이와 더불어 그것들에 대한 시장 지배력을 갖기 위한 지식 재산권의 행사나 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서의 특허출원이 증가하고 있다. 이에 따라, 심사관 1인당 처리해야 할 특허 처리 건수가 해마다 많아지고 있어 선행기술조사에 소비되는 시간과 비용이 점점 증가하고 있는 실정이다. 본 연구는 다수의 해외특허 우선권 주장 시 동일 우선권 주장 특허문서 간 유사도를 계산하여 심사관 및 특허 출원인이 유사문서를 우선 검토 할 수 있도록 함으로써 심사 시간과 비용을 줄이고자 하였다. 이를 위해, 본 연구에서는 비정형 특허 문서의 데이터를 전처리 후 LDA 토픽 모델링과 Word2vec을 활용하여 특허 문서 간 유사도를 구하고, 이 유사도 점수가 높은 순으로 검토 문서를 우선 추천하는 유사 특허 추천 모델을 제안하였다. 3단계의 모델 생성과정을 통해 만들어진 모델을 사용하여 재현율 95%로 높은 결과를 보였다. 본 연구에서 제안한 모델을 통해, 심사관은 효율적으로 선행기술에 대한 조사가 가능해지며, 심사 수행 중 유사하다고 판단된 특허문서에 대한 심사 이력을 신속하게 참고할 수 있어 업무 부담감을 줄이고 심사풀질을 향상시킬 수 있을 것으로 기대된다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

텍스트 기반의 바이오마커 검출을 위한 가우시안 혼합 모델의 응용 (Application of Gaussian Mixture Model for Text-based Biomarker Detection)

  • 오병두;김기현;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.550-551
    • /
    • 2018
  • 바이오마커는 체내의 상태 및 변화를 파악할 수 있는 지표이다. 이는 암을 비롯한 다양한 질병에 대하여 진단하는데 활용도가 높은 것으로 알려져 있으나, 새로운 바이오마커를 찾아내기 위한 임상 실험은 많은 시간과 비용을 소비되며, 모든 바이오마커가 실제 질병을 진단하는데 유용하게 사용되는 것은 아니다. 따라서 본 연구에서는 자연어처리 기술을 활용해 바이오마커를 발굴할 때 요구되는 많은 시간과 비용을 줄이고자 한다. 이 때 다양한 의미를 가진 어휘들이 해당 질병과 연관성이 높은 것으로 나타나며, 이들을 분류하는 것은 매우 어렵다. 따라서 우리는 Word2Vec과 가우시안 혼합 모델을 사용하여 바이오마커를 분류하고자 한다. 실험 결과, 대다수의 바이오마커 어휘들이 하나의 군집에 나타나는 것을 확인할 수 있었다.

  • PDF

온라인 후기에 내재된 고객의 감성분석과 LQI 차원별 호텔 서비스 품질 평가 (Hotel Service Quality Evaluation Based on LQI using Sentiment Analysis of Online Reviews)

  • 사공원;하성호;박경배
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제25권3호
    • /
    • pp.217-245
    • /
    • 2016
  • Purpose With the increasing number of foreign travelers visiting Korea, it is a heavy question to evaluate service quality of typical domestic hotel companies. Our research aims to evaluate service quality of domestic hotels in Korea from the perspective of foreign travelers in order to provide the quality improvements that call attention for the hotel management. Design/Methodology/Approach In this paper, topics of sentiment followed Lodging Quality Index(LQI) dimensions classifying lodging service quality appropriately. Also, we employed word2vec algorithm which calculates similarity and affinity among the vocabularies accurately. To calculate sentiment of each dimension, we adopted scores from SentiWordNet. Findings From the result, we found the number of foreign travelers particularly satisfied with cleanliness, politeness, and problem solving skills. In contrast, it has also been found out that both promptness of services and efficiency of communication do not fulfill the requirements of travelers.

텍스트 마이닝 기법을 활용한 어깨 재활 연구분야 동향과 키워드 모델링 (The Research Trends and Keywords Modeling of Shoulder Rehabilitation using the Text-mining Technique)

  • 김준희;정성훈;황의재
    • 대한물리의학회지
    • /
    • 제16권2호
    • /
    • pp.91-100
    • /
    • 2021
  • PURPOSE: This study analyzed the trends and characteristics of shoulder rehabilitation research through keyword analysis, and their relationships were modeled using text mining techniques. METHODS: Abstract data of 10,121 articles in which abstracts were registered on the MEDLINE of PubMed with 'shoulder' and 'rehabilitation' as keywords were collected using python. By analyzing the frequency of words, 10 keywords were selected in the order of the highest frequency. Word-embedding was performed using the word2vec technique to analyze the similarity of words. In addition, the groups were classified and analyzed based on the distance (cosine similarity) through the t-SNE technique. RESULTS: The number of studies related to shoulder rehabilitation is increasing year after year, keywords most frequently used in relation to shoulder rehabilitation studies are 'patient', 'pain', and 'treatment'. The word2vec results showed that the words were highly correlated with 12 keywords from studies related to shoulder rehabilitation. Furthermore, through t-SNE, the keywords of the studies were divided into 5 groups. CONCLUSION: This study was the first study to model the keywords and their relationships that make up the abstracts of research in the MEDLINE of Pub Med related to 'shoulder' and 'rehabilitation' using text-mining techniques. The results of this study will help increase the diversifying research topics of shoulder rehabilitation studies to be conducted in the future.

NLP와 BiLSTM을 적용한 조세 결정문의 분석과 예측 (Tax Judgment Analysis and Prediction using NLP and BiLSTM)

  • 이영근;박구락;이후영
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.181-188
    • /
    • 2021
  • 일반인에게 난해한 법률분야를 이해하기 쉽고 예측 가능 할 수 있도록 인공지능을 적용한 법률 서비스에 대한 연구의 중요성이 대두되고 있다. 본 연구에서는 조세심판원의 결정정보를 수집하고 데이터 처리와 자체 학습을 통한 모델을 구축하여 사용자의 질의에 맞는 답변을 예측하기 위한 시스템을 제안한다. 제안 모델은 웹크롤링을 통해서 조세 결정문의 정보 수집 및 자연어 처리과정을 통하여 유용한 데이터를 추출하고, 최적화된 산출물을 Word2Vec의 Fast Text 알고리즘을 적용하여 단어의 벡터를 생성하였다. 2017년부터 2019년까지 총 11,103건의 정보를 수집하고 분류하였으며 RNN 기술의 BiLSTM을 적용하여 자체학습을 통한 결과 예측 프로그램을 구축하여 70%정확도로 실증하였다. 향후 다양한 법률시스템으로 활용성을 기대할 수 있으며 보다 효율적인 적용을 위한 연구와 정확도 향상을 위한 연구가 계속되어야 한다.

초·중등 인공지능 교육을 위한 데이터 리터러시 정의 연구 (A Study on the Definition of Data Literacy for Elementary and Secondary Artificial Intelligence Education)

  • 김슬기;김태영
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.59-67
    • /
    • 2021
  • AI 기술의 발달은 우리 삶의 큰 변화를 가져왔다. 생활 속에서부터 사회, 경제에 이르기 까지 AI의 영향력이 커짐에 따라 AI와 데이터에 대한 교육에 대한 중요성이 함께 커지고 있다. 특히 OECD 교육 연구 보고서 및 다양한 국내 정보과 교육과정 연구에서 데이터와 데이터 리터러시를 다루고 필수 역량으로 제시하고 있다. 국내외 연구를 살펴 보면 데이터 리터러시에 대한 정의는 연구자들 마다 그 구체적인 내용과 범위가 다른 것을 알 수 있다. 이에 데이터 리터러시 관련 주요 연구의 정의를 다각도로 분석하여 도출하고자 하였다. 주요 연구에서 데이터 리터러시를 정의를 하는데 사용된 단어 빈도 분석과 함께 Word2vec 자연어 처리 방법을 활용하여 의미 유사도를 분석하고 교육과정 연구의 내용요소를 바탕으로 최종적으로 유목화하여 '데이터를 읽고 쓸 수 있으며, 실생활의 문제를 해결하기 위해 데이터를 이해하고 사용하여 정보로 처리하는 지식 구성의 기초 능력' 의 정의를 도출하였다. 본 연구를 통해 도출된 데이터 리터러시의 정의를 바탕으로 내용이 수정 보완되고 더 많은 연구가 이루어져 학생들의 미래 역량을 키워주는 교육 연구에 좋은 기초 자료가 될 수 있기를 기대한다.

  • PDF