• 제목/요약/키워드: Text mining analysis

검색결과 1,222건 처리시간 0.029초

LDA알고리즘을 활용한 태양광 에너지 기술 특허 및 논문 동향 연구 (Patents and Papers Trends of Solar-Photovoltaic(PV) Technology using LDA Algorithm)

  • 이종호;이인수;정경수;채병훈;이주연
    • 디지털융복합연구
    • /
    • 제15권9호
    • /
    • pp.231-239
    • /
    • 2017
  • 산업의 급격한 발전은 화석에너지의 고갈을 야기하였고, 이러한 이유로 화석연료를 대체하기 위한 에너지로 태양광에너지가 각광받기 시작하였다. 하지만 기술발전에 있어 전체적인 연구방향 및 향후 연구 방향에 대한 논의가 부족하였다. 이에 보다 효과적인 기술개발을 위해 특허 데이터와 논문 데이터를 활용하여 태양광 에너지의 기술 동향을 파악하고 논의를 진행하였다. 분석방법으로는 토픽 모델링과 텍스트 마이닝을 활용하여 1997년도부터 2015년까지의 데이터를 토대로 기술 동향과 연구의 방향성에 대하여 분석한다. LDA알고리즘을 통하여 토픽을 선정하고, 선정된 기술 범주에 포함된 키워드의 증가량을 살펴보고, 태양광 기술의 발전방향에 대하여 분석하였다. 태양광 발전 기술에 대한 연구는 꾸준히 진행될 것으로 예상되며, 특히 고효율화 및 고성능화 기술에 대하여 집중적으로 연구가 이루어질 것으로 분석된다. 향후 연구로는 해외의 특허데이터와 다양한 논문데이터를 추가하여 연구를 진행할 수 있을 것이다.

토픽 모델링을 이용한 개방형 혁신 연구동향 분석 및 정책 방향 모색 (A Study on the Research Trends on Open Innovation using Topic Modeling)

  • 조성배;신신애;강동석
    • 정보화정책
    • /
    • 제25권3호
    • /
    • pp.52-74
    • /
    • 2018
  • 2018년 2월, 우리나라 정부는 '국민이 주인인 정부'를 실현하고자 정부혁신 종합추진계획을 수립하였다. 종합계획의 핵심은 국민 참여이며, 정부 내부의 역량만을 통해 가치를 창출하는 것이 아닌 시민, 기업의 아이디어와 역량을 함께 모아 정부가 해결할 수 없는 사회 현안을 해결한다는 관점에서 개방형 혁신(Open Innovation)과 매우 유사하다. 이에 따라 본 연구에서는 개방형 혁신이 처음 발표된 2003년부터 2018년 4월까지의 영문 초록 데이터로 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링을 이용하여 개방형 혁신 연구 주제들을 도출하고, 도출된 주제간 토픽 네트워크 분석을 실시하였다. 도출된 결과를 바탕으로 정부혁신 종합추진계획의 추진과제와 비교 분석하였다. 본 연구의 시사점은 개방형 혁신에 대한 연구 주제와 주제간 관계를 도출하고, 그 결과를 정부혁신 종합추진계획과의 비교를 통해 개방형 혁신 관련 우리나라 정책의 향후 발전방향을 제시하였다는 점에서 의의가 있다.

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안 (A domain-specific sentiment lexicon construction method for stock index directionality)

  • 김재봉;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.585-592
    • /
    • 2017
  • 개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.

포털사이트 실시간이슈 지속가능성 평가 (Estimating long-term sustainability of real-time issues on portal sites)

  • 정민영
    • 디지털융복합연구
    • /
    • 제17권12호
    • /
    • pp.255-260
    • /
    • 2019
  • 실시간검색어는 실시간으로 관심이 급상승하는 검색어에 대한 것으로 한정될 뿐 아니라 포털사이트마다 순위 차이가 있으므로 지속가능성을 파악하기 힘든 한계를 가지고 있다. 실시간검색어에 대한 지속가능성을 평가하는 것은 이러한 한계를 극복하고 예측가능성을 제공해준다는 측면에서 그 의미가 크다. 특히 한 달 이상 지속되는 장기 지속 검색어의 경우 사회적으로 관심이 오래 지속된 이슈로서 가치가 높다. 따라서 본 논문에서는 실시간검색어 순위에 기반한 관심도와 실시간검색어의 지속주수, 지속일수, 지속시간에 기반을 둔 지속도를 각 포털사이트 및 통합 포털사이트 별로 파악한 다음, 관심도와 지속도가 높은 것을 기준으로 지속가능성을 평가하여, 장기 지속가능성이 높은 실시간이슈를 도출하는 방법을 제시하고자 한다.

비정형데이터 수집을 통한 드라마 시청률 연관어 분석 (Analysis of drama viewership related words through unstructured data collection)

  • 강선경;이현창;신성윤
    • 한국정보통신학회논문지
    • /
    • 제21권8호
    • /
    • pp.1567-1574
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 연관어 분석을 위해 정형화된 데이터와 비정형화된 데이터를 분석하는 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터는 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전 블로그와 방영후 블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 정형데이터로부터 각 방송사별 4가지 영역별에 따른 차이를 비교한 결과 방송사별 서로 유사한 결과 값을 보이고 있었다. 그리고 각 방송사의 드라마별 게시판과 블로그에서 수집된 비정형데이터로부터 출현빈도의 상관관계 분석을 통해 관련 연관어를 7개 도출하였다. 도출된 연관어는 신뢰성 분석을 통해 이루어졌다.

인문사회 과학기술 분야 연구의 학제적 동향 분석 : 토픽 모델링과 네트워크 분석의 활용 (Identifying Interdisciplinary Trends of Humanities, Sociology, Science and Technology Research in Korea Using Topic Modeling and Network Analysis)

  • 최재웅;장재혁;김대환;윤장혁
    • 산업경영시스템학회지
    • /
    • 제42권1호
    • /
    • pp.74-86
    • /
    • 2019
  • As many existing research fields are matured academically, researchers have encountered numbers of academic, social and other problems that cannot be addressed by internal knowledge and methodologies of existing disciplines. Earlier, pioneers of researchers thus are following a new paradigm that breaks the boundaries between the prior disciplines, fuses them and seeks new approaches. Moreover, developed countries including Korea are actively supporting and fostering the convergence research at the national level. Nevertheless, there is insufficient research to analyze convergence trends in national R&D support projects and what kind of content the projects mainly deal with. This study, therefore, collected and preprocessed the research proposal data of National Research Foundation of Korea, transforming the proposal documents to term-frequency matrices. Based on the matrices, this study derived detailed research topics through Latent Dirichlet Allocation, a kind of topic modeling algorithm. Next, this study identified the research topics each proposal mainly deals with, visualized the convergence relationships, and quantitatively analyze them. Specifically, this study analyzed the centralities of the detailed research topics to derive clues about the convergence of the near future, in addition to visualizing the convergence relationship and analyzing time-varying number of research proposals per each topic. The results of this study can provide specific insights on the research direction to researchers and monitor domestic convergence R&D trends by year.

한국의 사회적 이슈 도출을 위한 뉴스 빅데이터 분석 연구 (Analysis of News Big Data for Deriving Social Issues in Korea)

  • 이홍주
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.163-182
    • /
    • 2019
  • 복잡해지고 있는 현대 사회의 뉴스 키워드를 시간적 흐름에 따른 빈도수와 상관관계로 분석하는 것은 이슈들에 대한 대응과 해결 방안을 논의하기 위해 매우 중요한 연구라고 할 수 있다. 이에 본 논문에서는 10년(2009~2018)간의 뉴스 빅데이터 분석을 통해 사회적 키워드의 흐름과 주요 이슈들 간의 관계를 분석하였다. 분석결과 본 연구에서는 정치적 이슈, 교육 사회문화, 젠더갈등 그리고 사회적 사건이 주요 이슈들로 제시되었다. 또한, 본 연구에서는 이슈의 변화와 흐름을 연구하기 위해 이를 5년 기준으로 양분하여 변화하는 것을 분석하였다. 이를 통해 사회적 이슈의 시간에 따른 변화와 그 대응방안을 연구하였다. 그 결과 국민생활과 밀접한 키워드(경제, 경찰)는 시간의 흐름에 관계없이 우리 사회에서 매우 중요하게 논의되는 키워드로 분석되었다. 또한 '안전'과 같은 키워드는 최근 들어 빈도수에 비해 증가율이 감소되었다. 이를 통해, 우리 사회가 안전에 대한 인식을 개선할 필요가 있는 것으로 추론할 수 있다.

Does Rain Really Cause Toothache? Statistical Analysis Based on Google Trends

  • Jeon, Se-Jeong
    • 치위생과학회지
    • /
    • 제21권2호
    • /
    • pp.104-110
    • /
    • 2021
  • Background: Regardless of countries, the myth that rain makes the body ache has been worded in various forms, and a number of studies have been reported to investigate this. However, these studies, which depended on the patient's experience or memory, had obvious limitations. Google Trends is a big data analysis service based on search terms and viewing videos provided by Google LLC, and attempts to use it in various fields are continuing. In this study, we endeavored to introduce the 'value as a research tool' of the Google Trends, that has emerged along with technological advancements, through research on 'whether toothaches really occur frequently on rainy days'. Methods: Keywords were selected as objectively as possible by applying web crawling and text mining techniques, and the keyword "bi" meaning rain in Korean was added to verify the reliability of Google Trends data. The correlation was statistically analyzed using precipitation and temperature data provided by the Korea Meteorological Agency and daily search volume data provided by Google Trends. Results: Keywords "chi-gwa", "chi-tong", and "chung-chi" were selected, which in Korean mean 'dental clinic', 'toothache', and 'tooth decay' respectively. A significant correlation was found between the amount of precipitation and the search volume of tooth decay. No correlation was found between precipitation and other keywords or other combinations. It was natural that a very significant correlation was found between the amount of precipitation, temperature, and the search volume of "bi". Conclusion: Rain seems to actually be a cause of toothache, and if objective keyword selection is premised, Google Trends is considered to be very useful as a research tool in the future.

코로나-19관련 웨이보 정서 분석을 통한 중국 주식시장의 주판 및 차스닥의 민감도 예측 기법 (Sensitivity of abacus and Chasdaq in the Chinese stock market through analysis of Weibo sentiment related to Corona-19)

  • 이가기;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-7
    • /
    • 2021
  • 최근 코로나 19발생과 동시에 소셜 미디어의 투자자 정서가 증시 가격 움직임을 주도해 관심을 모으고 있다. 본 연구는 행동금융 이론 기반 빅 데이터 분석을 활용하여 소셜 미디어에서 추출한 정서가 중국 증시의 실시간 및 단기적 가격 모멘텀을 예측하는데 활용될 수 있는 기법을 제안한다. 이를 위해, COVID-19와 관련 200만 건 이상의 시나 웨이보 빅 데이터를 키워드 방식으로 수집 및 분석하고 시간이 따른 영향력이 높은 감정 요인을 추출한다. 최종 결과 도출을 위해 다양한 지도 및 비지도 학습 모델을 다 각도에서 구현 및 성능평가를 비교 분석 후, BiLSTM mdoel이 최적의 결과를 낼 수 있음을 증명했다. 또한, 제안하는 기법을 통해 주가변동과 심리요인 간에도 비슷한 움직임을 보이고 있음을 제안했고 소셜미디어에서 추출한 공공분위기가 어느 정도 투자자들의 심리를 대변할 수 있고, 주식시장에 영향을 미칠 수 있는 특수행사에 몰두할 때 증시변동에 차이를 만들 수 있음을 증명했다.

토픽모델링을 통한 북한의 경제정책 동향 분석 (The Analysis of North Korea's Economic Policy Trends through Topic Modeling)

  • 강경화
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.44-51
    • /
    • 2020
  • 1990년대 중후반 이래 북한경제에 많은 변화가 나타나는 것은 분명하다. 2012년 김정은 집권 이후 그 변화는 더욱 뚜렷하게 나타나고 있기 때문에 시기별 경제정책 흐름을 추적하여 변화추이를 파악하는 데 논문의 목적이 있다. 본 논문에서는 텍스트마이닝 분석기법인 LDA 토픽모델링을 활용하여 북한에서 발간되는 경제 분야 대표문헌인 경제학술지 『경제연구』 논문을 분석한다. 『경제연구』에 게재된 논문을 기본 텍스트로 활용하여 북한 경제 전략과 정책변화를 파악한다. 북한에서 생산되는 경제 관련 학술지로 독보적 위치를 차지하고 있는 『경제 연구』에 대한 심층 분석은 북한 당국이 경제 관련 인식하고 있는 현실, 직면 하고 있는 한계, 대안 등을 추적하는데 필수적인 작업이라고 할 수 있다. 다양한 북한 경제 관련 논쟁 주제가 숨어있는 『경제연구』를 빅데이터를 통해 분석하여 북한 지도자의 경제정책 흐름을 살펴보고, 현 김정은 체제가 의도하는 '변화'의 내용을 분석한다.