• 제목/요약/키워드: Text series study

검색결과 101건 처리시간 0.025초

텍스트 마이닝을 활용한 경제정책기록서비스 연구: 경제정책방향을 중심으로 (A Study on the Archival Information Services of Economic Policy Using Text Mining Methods: Focusing on Economic Policy Directions)

  • 연지현;김성원
    • 한국기록관리학회지
    • /
    • 제22권2호
    • /
    • pp.117-133
    • /
    • 2022
  • 자의적으로 구성한 기록 콘텐츠만으로는 이용자가 필요한 기간과 맥락에 대한 이해 없이 이용하게 됨으로써 주요한 경제정책기록에 효율적으로 접근하기에 어려움을 겪는다. 이러한 현재의 기록 서비스를 개선하기 위한 방안을 모색하고자 한다. 본 연구에서 1991년부터 2021년까지 30년간의 경제정책방향을 대상으로 경제정책기록에 텍스트 마이닝 기법을 활용하여 정부별 주요하게 다뤄진 경제 키워드와 변화과정을 도출하였다. 대책 배경, 주요 내용, 본문 텍스트를 수집하여 전처리를 진행한 후 텍스트 빈도분석, TF-IDF, 네트워크분석, 시계열 분석을 진행하였다. 분석 결과 '일자리', '경쟁력', '구조조정' 순으로 가장 높은 빈도수를 기록하였다. 정부별로 주요 키워드를 한눈에 볼 수 있었으며 '일자리', '부동산', '기업'의 연도별 상대비율을 시계열 순으로 분석하였다. 본 연구 결과를 바탕으로 향후 경제정책기록서비스의 발전과 저변확대를 위한 시사점을 제언하였다.

텍스트마이닝을 활용한 연구동향 분석: 소셜네트워크서비스를 중심으로 (Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services)

  • 윤혜진;김창식;곽기영
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권3호
    • /
    • pp.513-519
    • /
    • 2018
  • 본 연구의 목적은 소셜네트워크서비스 주제에 관한 연구동향을 조사하는 것이다. 연구의 목적을 달성하기 위해서 웹오브사이언스 데이터베이스에서 제목에 'Social Network Service(SNS)'를 포함하는 1994년부터 2016년까지 출판된 논문 초록 308편을 분석 하였다. 본 연구에서는 텍스트마이닝 기법 중에서 최근 많이 적용되는 토픽모델링기법을 활용하였다. 토픽모델링 분석결과 20개의 토픽(신뢰, 지지, 만족 모델, 조직 지배구조, 모바일 시스템, 인터넷 마케팅, 대학생 효과, 의견 확산, 고객, 정보보호, 건강관리, 웹 협업, 방법, 학습 효과, 지식, 개인 이론, 아동 지지, 알고리즘, 미디어 참여, 문맥 시스템)이 도출되었다. 또한 시계열회귀분석 결과 모든 토픽은 상승 추세로 나타났다.

Text Mining and Visualization of Papers Reviews Using R Language

  • Li, Jiapei;Shin, Seong Yoon;Lee, Hyun Chang
    • Journal of information and communication convergence engineering
    • /
    • 제15권3호
    • /
    • pp.170-174
    • /
    • 2017
  • Nowadays, people share and discuss scientific papers on social media such as the Web 2.0, big data, online forums, blogs, Twitter, Facebook and scholar community, etc. In addition to a variety of metrics such as numbers of citation, download, recommendation, etc., paper review text is also one of the effective resources for the study of scientific impact. The social media tools improve the research process: recording a series online scholarly behaviors. This paper aims to research the huge amount of paper reviews which have generated in the social media platforms to explore the implicit information about research papers. We implemented and shown the result of text mining on review texts using R language. And we found that Zika virus was the research hotspot and association research methods were widely used in 2016. We also mined the news review about one paper and derived the public opinion.

섬유소재 분야 특허 기술 동향 분석: DETM & STM 텍스트마이닝 방법론 활용 (Research of Patent Technology Trends in Textile Materials: Text Mining Methodology Using DETM & STM)

  • 이현상;조보근;오세환;하성호
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권3호
    • /
    • pp.201-216
    • /
    • 2021
  • Purpose The purpose of this study is to analyze the trend of patent technology in textile materials using text mining methodology based on Dynamic Embedded Topic Model and Structural Topic Model. It is expected that this study will have positive impact on revitalizing and developing textile materials industry as finding out technology trends. Design/methodology/approach The data used in this study is 866 domestic patent text data in textile material from 1974 to 2020. In order to analyze technology trends from various aspect, Dynamic Embedded Topic Model and Structural Topic Model mechanism were used. The word embedding technique used in DETM is the GloVe technique. For Stable learning of topic modeling, amortized variational inference was performed based on the Recurrent Neural Network. Findings As a result of this analysis, it was found that 'manufacture' topics had the largest share among the six topics. Keyword trend analysis found the fact that natural and nanotechnology have recently been attracting attention. The metadata analysis results showed that manufacture technologies could have a high probability of patent registration in entire time series, but the analysis results in recent years showed that the trend of elasticity and safety technology is increasing.

텍스트 마이닝과 딥러닝을 활용한 암호화폐 가격 예측 : 한국과 미국시장 비교 (The Prediction of Cryptocurrency on Using Text Mining and Deep Learning Techniques : Comparison of Korean and USA Market)

  • 원종관;홍태호
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.1-17
    • /
    • 2021
  • 본 연구에서는 한국과 미국의 대표적인 거래소인 빗썸과 코인베이스의 비트코인 가격을 ARIMA와 순환 신경망(Recurrent Neural Network)을 이용해 예측하고, 이후 각 국가의 뉴스 기사를 이용해 분리 학습에 기반한 separated RNN 모형을 제안한다. separated RNN 모형은 학습 데이터를 가격의 추세 변화 점을 기준으로 분리해 학습시킨 후, 추세 변화점 별 뉴스 데이터를 활용해 용어 기반 사전을 구축한다. 이후 용어 기반 사전과 평가 데이터 기간의 뉴스 데이터를 이용해 예측할 데이터의 가격 추세 변화 점을 찾아낸 후, 매칭되는 모형을 적용해 예측 결과를 산출한다. 2017년 5월 22일부터 2020년 9월 16일까지의 가격 데이터를 사용해 분석한 결과, 제안된 separated RNN을 이용해 예측한 결과가 한국과 미국의 비트코인 가격 예측 모두에서 순환 신경망(RNN)을 이용해 예측한 결과보다 높은 예측 성과를 보였다. 본 연구는 시계열 예측 기법의 한계를 뉴스 데이터를 이용한 추세 변화 점 탐색을 통해 극복할 수 있고, 성과 향상을 위한 추후 다양한 시계열 예측 기법 및 추세 변화 점 탐색을 위한 다양한 텍스트 마이닝 기법을 적용해볼 필요가 있음을 시사한다.

R프로그래밍을 활용한 공유경제의 한국인 집단지성: 텍스트 마이닝 및 시계열 분석 (Korean Collective Intelligence in Sharing Economy Using R Programming: A Text Mining and Time Series Analysis Approach)

  • 김재원;윤유동;정유진;김기연
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.151-160
    • /
    • 2016
  • 본 연구의 목적은 최근 창조경제 또는 사회적 경제 관점에서 주목받고 있는 공유경제라는 키워드에 관해 현대 한국인들이 가지고 있는 대중적인 문화 및 사회적 인식, 즉 집단지성의 변화 추세를 조사하는 것이다. 이를 위해, 본 연구는 빅데이터 분석 관점의 텍스트 마이닝 기법을 적용하여 최근 5년 간 사회 문화적 집단지성의 객관적이고 가시적인 연간 변화 및 패턴들을 발견하고 이해하고자 한다. 월드 와이드 웹에서 크롤링(crawling) 기법과 구글링(googling)을 통해 분석에 필요한 2010년부터 2014년까지 축적된 상당한 양의 공유경제를 주제로 한 기존 문헌들의 시계열 웹 메타 데이터를 수집하였다. 결과적으로, 많은 양의 가공되지 않은 공유경제 키워드 관련 원 자료들은 R프로그래밍 분석을 통해 보다 의미 있는 가치 있는 '워드 클라우딩' 형태의 그래프나 그림으로 분석처리 되었다. 아직까지 시기적으로 공유경제에 관해 축적된 자료나 집단지성이 양적으로 미비함에도 불구하고, 본 연구는 지식처리 관점에서 시계열 빅데이터 분석을 수행한 선행연구라는 점에서 의미가 있다. 따라서 본 연구의 결과는 향후 산학 분야에서 공유경제 관련 시장분석과 소비자 행동학 관련 후속 연구들을 위해 1차 자료로서 학문적 시사점을 제공할 수 있다.

효율적인 문헌 분류를 위한 시계열 기반 데이터 집합 선정 기법 (Time-Series based Dataset Selection Method for Effective Text Classification)

  • 채영훈;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.39-49
    • /
    • 2017
  • 인터넷 기술이 발전함에 따라 온라인상의 데이터는 급격하게 증가하고 있고, 증가하는 데이터에 대해 점진적인 기계학습 기법을 통해 효율적으로 학습하기 위한 연구가 진행되고 있다. 온라인상의 문서는 대부분 게시일, 출판일과 같은 시계열적 정보를 포함하고 있고, 이를 분류에 반영한다면 효율적인 분류가 가능할 것이다. 본 연구에서는 웹 문서상에서 나타나는 어휘의 시계열적 변화를 분석하였고, 분석한 시계열 정보를 기반으로 데이터 집합을 분할하여 효율적인 분류 학습 기법을 제안한다. 실험 및 검증을 위해 온라인상의 뉴스 기사 100만 건을 시계열 정보를 포함하여 수집하였다. 수집된 데이터를 바탕으로 데이터 집합을 분할하여 $Na{\ddot{i}}ve$ Bayes 및 SVM 분류기를 사용하여 실험을 진행하였고, 각 모델에서 전체 데이터 집합 학습 대비 최대 2.02% 포인트, 2.32% 포인트의 성능 향상을 확인하였다. 본 연구를 통해 시계열적 어휘의 변화를 분류에 반영하여 분류의 성능을 향상시킬 수 있음을 확인하였다.

소셜 분석을 통한 사전제작 드라마의 가능성과 한계에 관한 연구 -jtbc <맨투맨>을 중심으로- (A Study on the Potential and Limitation of Pre-producing Dramas through Social Analysis -focusing on a jtbc drama -)

  • 김경애;구진희
    • 한국산학기술학회논문지
    • /
    • 제19권2호
    • /
    • pp.164-172
    • /
    • 2018
  • 본 논문은 드라마 사전제작과 스토리텔링의 관련성을 소셜 분석을 통해 살펴보고, 드라마의 스토리텔링이 어떤 점에 주안점을 두고 구조화되어야 할지를 jtbc의 <맨투맨>을 중심으로 살폈다. 사전제작 드라마에 대한 시청자들의 생각을 읽어내기 위해 뉴스를 배제하고 한 가지 주제에 집중하여 글을 올리는 블로그를 대상으로 하였으며, 사전제작과 드라마라는 단어를 포함한 2016. 12. 15~2017. 12. 15 사이의 블로그 67개를 선정하여 텍스트 마이닝을 수행하였다. 또한 사전제작 드라마이면서 작품의 스토리텔링에 문제를 지닌 것으로 판단되는 드라마 <맨투맨>에 대한 감성분석을 수행하였다. 블로그 텍스트 추출과 텍스트 마이닝은 OutWit Hub와 R을 이용하여 분석하였고, 좀 더 방대한 데이터를 대상으로 감성 분석을 하기 위해 소셜 메트릭스에서 제공하는 도구를 활용하였다. 감성분석 결과, <맨투맨>에서 시청자들은 김설우와 차도하의 로맨스에 공감하지 못했고 그것이 여성인물의 개연성 부족에서 비롯되었다는 해석이 도출되었다. 따라서 드라마의 성패는 사전제작 여부에 달려있는 것이라기보다 기획부터 제작에 이르는 스토리텔링의 과정이 얼마나 치밀하고 시청자의 공감을 얻도록 구조화되어 있느냐에 달려있다는 결론을 얻었다. 이러한 연구는 디지털 중심 스토리텔링 연구의 기반을 조성하고 문화 콘텐츠 산업의 전망과 이에 대한 교육을 수행하는 데 중요한 자료가 될 수 있으므로 앞으로도 지속적인 연구가 필요할 것이다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

머신러닝 및 딥러닝 연구동향 분석: 토픽모델링을 중심으로 (Research Trends Analysis of Machine Learning and Deep Learning: Focused on the Topic Modeling)

  • 김창식;김남규;곽기영
    • 디지털산업정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.19-28
    • /
    • 2019
  • The purpose of this study is to examine the trends on machine learning and deep learning research in the published journals from the Web of Science Database. To achieve the study purpose, we used the abstracts of 20,664 articles published between 1990 and 2017, which include the word 'machine learning', 'deep learning', and 'artificial neural network' in their titles. Twenty major research topics were identified from topic modeling analysis and they were inclusive of classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem. The analysis of the time-series linear regression showed that all identified topics in machine learning research were 'hot' ones.