DOI QR코드

DOI QR Code

텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석

Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm

  • 선현석 (중앙대학교 응용통계학과) ;
  • 임창원 (중앙대학교 응용통계학과) ;
  • 이영섭 (동국대학교 통계학과)
  • Sun, Hyunseok (Department of Applied Statistics, Chung-Ang University) ;
  • Lim, Changwon (Department of Applied Statistics, Chung-Ang University) ;
  • Lee, YungSeop (Department of Statistics, Dongguk University)
  • 투고 : 2017.06.19
  • 심사 : 2017.07.10
  • 발행 : 2017.08.31

초록

최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 그러나 대부분 비정형 형태로 구성되어 있는 텍스트 기반의 자료는 기존의 통계 분석이나 데이터 마이닝 기법을 적용하기에 부적합하기 때문에 텍스트 마이닝 기법이 사용되고 있다. 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.

Many people have recently posted about personal interests on social media. The development of the Internet and computer technology has enabled the storage of digital forms of documents that has resulted in an explosion of the amount of textual data generated; subsequently there is an increased demand for technology to create valuable information from a large number of documents. A text mining technique is often used since text-based data is mostly composed of unstructured forms that are not suitable for the application of statistical analysis or data mining techniques. This study analyzed the Meteorological Yearbook data of the Korea Meteorological Administration (KMA) with a text mining technique. First, a term dictionary was constructed through preprocessing and a term-document matrix was generated. This term dictionary was then used to calculate the annual frequency of term, and observe the change in relative frequency for frequently appearing words. We also used regression analysis to identify terms with increasing and decreasing trends. We analyzed the trends in the Meteorological Yearbook of the KMA and analyzed trends of weather related news, weather status, and status of work trends that the KMA focused on. This study is to provide useful information that can help analyze and improve the meteorological services and reflect meteorological policy.

키워드

참고문헌

  1. Ahn, S. and Cho, S. (2010). Stock prediction using news text mining and time series analysis, In 2010 Conference Proceedings of Korean Institute of Information Scientists and Engineers, 37, 364-369.
  2. Chen, P., Ponocko, J., Milosevic, N., Nenadic, G., and Milanovic, J. V. (2016). Towards application of text mining for enhanced power network data analytics-part i: retrieval and ranking of textual data from the internet, Mediterranean Conference on Power Generation, Transmission, Distribution and Energy Conversion (MedPower 2016), 1-8.
  3. Feinerer, I. and Hornik, K (2015). tm: Text Mining Package. R package version 0.6-2., from: https://CRAN.Rproject.org/package=tm/
  4. Gupta, V. and Lehal, G. S. (2009). A survey of text mining techniques and applications, Journal of Emerging Technologies in Web Intelligence, 1, 60-76.
  5. Jeon, H. (2016). KoNLP: Korean NLP package. R package version 0.80.1., from: https://CRAN.R-project.org/package=KoNLP/
  6. KAIST Semantic Web Research Center (2011). Hannanum Korean morphological analyzer user manual, from: http://www.sketchengine.co.uk/wp-content/uploads/Original-HanNanum-manual.pdf/
  7. Kam, M. and Song, M. (2012). A study on differences of contents and tones of arguments among newspapers using text mining analysis, Journal of Intelligence and Information Systems, 18, 53-77.
  8. Lee, Y., Lim, C., Heo, M., and Kim, H. (2016). Text mining technique for Weather call center data analysis, In 2016 Spring Conference Proceedings of Korean Meteorological Society, 153-154.
  9. Lim, M. and Kim, N. (2016). Investigating dynamic mutation process of issues using unstructured text analysis, Journal of Intelligence and Information Systems, 22, 1-18.
  10. R Core Team (2016). R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, from: https://www.R-project.org/