• 제목/요약/키워드: text mining technique

검색결과 222건 처리시간 0.022초

동적 토픽 모델링과 감성 분석을 이용한 COVID-19 구간별 비대면 근무 부정요인 검출에 관한 연구 (Detection of Complaints of Non-Face-to-Face Work before and during COVID-19 by Using Topic Modeling and Sentiment Analysis)

  • 이선민;천세진;박상언;이태욱;김우주
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권4호
    • /
    • pp.277-301
    • /
    • 2021
  • Purpose The purpose of this study is to analyze the sentiment responses of the general public to non-face-to-face work using text mining methodology. As the number of non-face-to-face complaints is increasing over time, it is difficult to review and analyze in traditional methods such as surveys, and there is a limit to reflect real-time issues. Approach This study has proposed a method of the research model, first by collecting and cleansing the data related to non-face-to-face work among tweets posted on Twitter. Second, topics and keywords are extracted from tweets using LDA(Latent Dirichlet Allocation), a topic modeling technique, and changes for each section are analyzed through DTM(Dynamic Topic Modeling). Third, the complaints of non-face-to-face work are analyzed through the classification of positive and negative polarity in the COVID-19 section. Findings As a result of analyzing 1.54 million tweets related to non-face-to-face work, the number of IDs using non-face-to-face work-related words increased 7.2 times and the number of tweets increased 4.8 times after COVID-19. The top frequently used words related to non-face-to-face work appeared in the order of remote jobs, cybersecurity, technical jobs, productivity, and software. The words that have increased after the COVID-19 were concerned about lockdown and dismissal, and business transformation and also mentioned as to secure business continuity and virtual workplace. New Normal was newly mentioned as a new standard. Negative opinions found to be increased in the early stages of COVID-19 from 34% to 43%, and then stabilized again to 36% through non-face-to-face work sentiment analysis. The complaints were, policies such as strengthening cybersecurity, activating communication to improve work productivity, and diversifying work spaces.

챗봇 데이터에 나타난 우울 담론의 범주와 특성의 이해 (Understanding the Categories and Characteristics of Depressive Moods in Chatbot Data)

  • 진효진;정찬이;백금희;차지영;최정회;차미영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권9호
    • /
    • pp.381-390
    • /
    • 2022
  • 자연어처리 기술과 비대면 문화의 확산과 더불어 챗봇의 사용 증가세가 가파르며, 챗봇의 용도 또한 일상 대화와 소비자 응대를 넘어서 정신건강을 위한 용도로 확장하고 있다. 챗봇은 익명성이 보장된다는 점에서 사용자들이 우울감에 관해 이야기하기 적합한 서비스이다. 그러나 사용자가 작성한 문장들을 분석해 우울 담론의 유형과 특성을 파악하는 연구들은 주로 소셜 네트워크 데이터를 대상으로 했다는 한계점이 존재하며, 실제 환경에서 사용되는 챗봇과 상호작용한 데이터를 분석한 연구는 찾아보기 힘들다. 이 연구에서는 챗봇-사람의 상호작용 데이터에서 무작위로 추출한 '우울'과 관련된 대화 데이터를 토픽 모델링 방법과 텍스트마이닝 기법으로 분석하여 채팅에서의 우울 관련 담론의 특성을 파악하였다. 또한, 챗봇에서 빈번히 나타나는 '우울' 담론의 범주와 트위터 '우울' 담론의 범주의 차이점을 비교하였다. 이를 통해 챗봇 데이터의 '우울' 대화만의 특징을 파악하고, 적절한 심리지원 정보를 제공하는 챗봇 서비스를 위한 시사점과 향후 연구 방향에 대해 논의한다.

토픽모델링을 활용한 정보활용교육 연구주제 분석 및 교육내용 제안 (A Study of Information Literacy Curriculum Using Topic Modeling)

  • 윤지혜;정유경
    • 정보관리학회지
    • /
    • 제39권4호
    • /
    • pp.1-21
    • /
    • 2022
  • 본 연구는 정보활용교육 분야의 연구주제들을 파악하여 정보활용교육에 제안할 수 있는 요소들이 있는지를 살펴보는데 연구의 목적이 있다. 우선, 정보활용교육과 관련된 문헌정보학 분야의 논문 97편을 대상으로 토픽모델링을 적용하여 '미디어 리터러시', '정보활용교육의 교수학습방법', '정보원 이용 및 판단' 등의 주요 주제를 파악하였다. 분석 결과를 바탕으로, 교육내용 측면에서는 Big 6 정보모형, 교육방법과 관련해서는 미국 사서교사협회의 정보활용 능력기준과 미국 대학 및 연구도서관협회의 정보활용교육 개발지침을 고려하여 정보활용교육 교육내용을 제안하였다. 본 연구는 정보활용교육 전반의 연구주제와 연관된 교육 요소들을 파악하였으며, 이를 바탕으로 '정보원 이용 및 판단', '정보윤리'와 관련된 교육내용을 보다 강조하였다는 점에서 의의가 있다.

An Analysis of Artificial Intelligence Education Research Trends Based on Topic Modeling

  • You-Jung Ko
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.197-209
    • /
    • 2024
  • 본 연구의 목적은 국내 인공지능 교육의 최근 연구 동향을 분석하여 향후 인공지능 교육의 방향성을 모색하는 것이다. 2016년부터 2023년 11월까지 RISS(Research Information Sharing Service)에 게재된 논문 중 인공지능 교육 관련 논문 697편을 대상으로 워드 클라우드(Word Cloud)와 LDA 토픽 모델링(Latent Dirichlet Allocation Topic Modeling) 기법을 활용하여 분석하였다. 분석결과, 주요 토픽으로는 생성형 인공지능 활용 교육, 인공지능 윤리 교육, 인공지능 융합 교육, 인공지능 활용에 대한 교사 인식과 역할, 대학 교육에서 인공지능 리터러시(Literacy) 개발, 인공지능 기반 교육과 연구 방향으로 여섯 가지가 도출되었다. 분석결과를 토대로, (1) 다양한 교과목에 생성형 인공지능 활용 확대, (2) 인공지능 사용을 위한 윤리적 지침, (3) 인공지능 교육의 장기적 영향 평가, (4) 고등교육에서 교사의 인공지능 활용 역량, (5) 대학의 인공지능 교육과정 다양화, (6) 인공지능 연구 추이 분석 및 교육 플랫폼(Platform) 개발 등을 제안하였다.

LDA 토픽 모델링 기법을 활용한 무용공연의 연구 동향 분석 (Trend Analysis of Dance Performance Research Using Keywords and Topic Modeling of LDA Techniques)

  • 시유
    • 산업융합연구
    • /
    • 제22권3호
    • /
    • pp.13-25
    • /
    • 2024
  • 본 연구는 빅데이터를 기반으로 국내에서 발표된 무용공연 관련 연구 주제를 탐색하고, 시대 흐름에 따라 변화하는 연구동향을 살펴본다. 토픽모델링 분석하여 도출한 결과는 다음과 같다. (1)무용공연 마케팅전략 및 발전방안 연구, (2)무용공연 공간 및 공연만족 재관람요인 연구, (3)무대환경이 무용공연의 대중성 활성화와 기여도 연구, (4)무용공연 현황 및 무용단 운영사례 융합 연구, (5)다양한 소셜미디어 활용한 무용공연 확정성 연구, (6)기술적용 무용공연 콘텐츠 방향 및 개발 연구 6개의 주요 토픽이 도출되었다. 이에 무용공연을 비롯해 무용 분야 관련 연구의 시기, 사회 변화에 따른 연구 트렌드와 주제를 파악하고, 연구자들의 변화 관심 주제의 주요 핵심어를 추출해 키워드를 분석하였으며 시기별 주요 키워드를 비교 분석하였다. 이에 다각화되고 융합되면서 신기술이 적용되는 최신 연구 동향에 대한 발전적 연구의 필요성을 고민하고 제시하였다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석 (Sentiment analysis on movie review through building modified sentiment dictionary by movie genre)

  • 이상훈;최정;김종우
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.97-113
    • /
    • 2016
  • 인터넷상의 데이터가 급속하게 증가함에 따라 막대한 양의 데이터를 목적에 맞게 적절히 활용하는 빅데이터 분석이 활발하게 진행되고 있다. 최근에는 기존의 정형 데이터분석이 가진 한계점을 보완하는 방법으로 비정형 데이터 분석 분야 중 하나인 텍스트마이닝 기법에 대한 연구들이 다수 이루어지고 있으며, 특히 텍스트를 기반으로 문장의 긍정, 부정을 판별하고 분류하는 감성분석과 관련된 연구들이 활발하게 이루어지고 있다. 이러한 연구의 연장선 상에서, 본 연구는 감성분석에 사용되는 감성사전을 데이터의 특성에 맞게 적절하게 변형하여 구축하는 방법을 시도하였다. 데이터가 속한 영역의 특성을 고려하지 않은 기존의 범용 감성사전을 감성분석에 사용할 경우, 해당 영역에서 쓰이는 단어 또는 감정 표현을 반영하지 못하므로 감성분석의 정확성이 떨어질 수 있다. 따라서 감성분석에 있어서 영역 맞춤형 감성사전의 사용 시 데이터 영역의 특성을 정확하게 반영해 분석의 정확성을 높여줄 것으로 기대할 수 있다. 본 연구에서는 영화 리뷰 데이터를 분석 대상으로 선정하였으며, 대표적 영화정보 사이트 IMDb에서 발생된 약 2년간의 영화리뷰 데이터를 수집 분석하였다. 분석에 앞서 영화 장르별 사용되는 단어의 의미가 각각 다를 것을 고려하여 영화를 '액션', '애니메이션', '코메디', '드라마', '공포', '과학공상' 6개 장르로 분류했다. 맞춤형 감성사전 구축을 위한 핵심 기법으로 SO-PMI(Semantic Orientation from Point-wise Mutual Information)를 활용하였으며, 어휘 간 극성이 뚜렷하게 구분되는 형용사에 한정하여 연구를 진행했다. 분석결과 맞춤형사전을 활용한 감성분석 예측정확도는 영화 장르별로 상이했다. '애니메이션'을 제외한 5개 장르에서 기존의 범용 감성사전대비 맞춤형 감성사전의 예측정확도가 통계적으로 유의한 수준의 성능 향상을 보였다. 본 연구에서는 데이터 영역의 특성에 맞는 맞춤형 사전 구축을 통한 감성분석의 예측의 성능 향상을 확인하였다. 향후 감성사전 구축 시 동사, 부사 등 다양한 품사의 어휘를 추가하여 감성분석 예측정확도를 높이는 방안을 모색할 수 있을 것이다.

확장된 사용자 유사도를 이용한 CF-기반 건강기능식품 추천 시스템 (A CF-based Health Functional Recommender System using Extended User Similarity Measure)

  • 홍세인;정의주;김재경
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.1-17
    • /
    • 2023
  • 정보통신기술의 발전과 디지털 기기의 대중화로 인해, 온라인 시장의 규모가 커지고 있다. 그 결과 고객들은 상품을 선택하는데 많은 시간과 비용이 소요되는 정보 과부하(Information Overload) 문제에 직면하고 있다. 따라서 고객이 선호할만한 상품을 추천해 주는 추천 시스템은 필수적인 도구가 되었으며 협업 필터링(Collaborative Filtering) 기법은 가장 널리 쓰이는 추천 방법이다. 전통적인 추천 시스템은 평점과 같은 정량적인 데이터만을 사용하기 때문에 추천의 정확도는 높지 않다. 이와 같은 문제를 해결하기 위해 요즘에는 사용자 리뷰와 같은 정성적 데이터를 반영하는 연구가 활발히 진행되고 있다. 협업 필터링의 일반적인 절차는 사용자-상품 행렬 생성, 이웃 집단 탐색, 추천 목록 생성 3단계로 구성되며 코사인 같은 사용자 유사도를 사용하여 목표 고객의 이웃을 탐색하며, 추천 상품 목록을 생성한다. 본 연구에서는 이웃 집단 탐색 및 추천 목록 생성 단계에서 사용하는 사용자 간의 유사도를 기존의 사용자 평점을 이용한 유사도에 고객의 리뷰 데이터를 사용하는 확장된 사용자 유사도를 제시한다. 리뷰를 정량화 하기 위해 본 연구에서는 텍스트 마이닝을 활용한다. 즉, 리뷰 데이터에 TF-IDF, Word2Vec, 그리고 Doc2Vec 기법을 사용하여 두 사용자 간의 리뷰 유사도를 구한 후 사용자 평점을 사용한 유사도와 리뷰 유사도를 결합한 확장된 유사도를 생성하는 것이다. 이를 검증하기 위해 전자상거래 사이트인 Amazon의 'Health and Personal Care'의 사용자 평점과 리뷰 데이터를 사용하였다. 실험 결과, 사용자 간 유사도를 산출할 때 기존의 평점에 기반한 유사도만을 사용하는 것보다, 사용자 리뷰의 유사도를 추가로 반영한 확장된 유사도를 사용하면 추천의 정확도가 높아진다는 것을 확인했다. 또한, 여러 텍스트 마이닝 기법 중에서 TF-IDF 기법을 사용한 확장된 유사도를 이웃 집단 탐색 및 추천 목록 생성단계에서 사용할 때의 성능이 가장 좋게 나타났다.

딥러닝 기반 온라인 리뷰의 언어학적 특성을 활용한 추천 시스템 성능 향상에 관한 연구 (A Study on the Enhancing Recommendation Performance Using the Linguistic Factor of Online Review based on Deep Learning Technique)

  • 장동수;이청용;김재경
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.41-63
    • /
    • 2023
  • 전자상거래 시장의 꾸준한 성장으로 인해 추천 시스템의 필요성은 점차 강조되고 있으며, 최근에는 추천 성능의 향상을 목적으로 리뷰 텍스트를 사용하는 연구가 활발히 진행되고 있다. 특히 많은 연구들은 리뷰 텍스트의 감성 점수를 활용하여 제안되고 있는데, 감성 점수만을 사용하는 방법론은 리뷰 텍스트에 존재하는 구체적인 선호도 정보의 활용 측면에 한계를 가지며 이는 결과적으로 성능 향상에 제약으로 작용하게 된다. 이를 개선하기 위해 본 연구는 딥러닝 기반 추천 모델에 온라인 리뷰 내 다양한 언어학적 요소들을 활용하여 고객의 선호도를 정교하게 학습할 수 있는 새로운 추천 방법론을 제안하였다. 이를 위해 먼저 고객과 상품 간 복잡한 상호작용을 고려할 수 있도록 딥러닝 모델을 통해 상호작용 관계를 비선형으로 학습하였다. 그리고 리뷰 텍스트를 효과적으로 활용할 수 있도록 언어학적 요소 중 고객의 구매 의사결정에 중요한 영향을 미치는 인지적 요인, 정서적 요인 그리고 언어 스타일 매칭을 사용하였다. 실험은 Amazon.com에서 수집한 온라인 리뷰 데이터를 사용하여 진행하였고, 실험 결과 제안 모델의 우수함을 검증할 수 있었다. 본 연구는 추천 시스템에서 리뷰 텍스트 내 고객 선호도에 대한 정보를 효과적으로 활용하는 방법론을 제안하여 연구의 이론적 및 방법론 측면에 기여하였다.

A Classification Model for Illegal Debt Collection Using Rule and Machine Learning Based Methods

  • Kim, Tae-Ho;Lim, Jong-In
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.93-103
    • /
    • 2021
  • 금융당국의 채권추심 가이드라인, 추심업자에 대한 직접적인 관리 감독 수행 등의 노력에도 불구하고 채무자에 대한 불법, 부당한 채권 추심은 지속되고 있다. 이러한 불법, 부당한 채권추심행위를 효과적으로 예방하기 위해서는 비정형데이터 기계학습 등 기술을 활용하여 적은 인력으로도 불법 추심행위에 대한 점검 등에 대한 모니터링을 강화 할 수 있는 방법이 필요하다. 본 연구에서는 대부업체의 추심 녹취 파일을 입수하여 이를 텍스트 데이터로 변환하고 위법, 위규 행위를 판별하는 규칙기반 검출과 SVM(Support Vector Machine) 등 기계학습을 결합한 불법채권추심 분류 모델을 제안하고 기계학습 알고리즘에 따라 얼마나 정확한 식별을 하였는지를 비교해 보았다. 본 연구는 규칙기반 불법 검출과 기계학습을 결합하여 분류에 활용할 경우 기존에 연구된 기계학습만을 적용한 분류모델 보다 정확도가 우수하다는 것을 보여 주었다. 본 연구는 규칙기반 불법검출과 기계학습을 결합하여 불법여부를 분류한 최초의 시도이며 후행연구를 진행하여 모델의 완성도를 높인다면 불법채권 추심행위에 대한 소비자 피해 예방에 크게 기여할 수 있을 것이다.