• 제목/요약/키워드: Text Mining Method

검색결과 453건 처리시간 0.025초

텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -"한일군사정보보호협정(GSOMIA) 종료"를 중심으로- (Comparison of responses to issues in SNS and Traditional Media using Text Mining -Focusing on the Termination of Korea-Japan General Security of Military Information Agreement(GSOMIA)-)

  • 이수련;최은정
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.277-284
    • /
    • 2020
  • 텍스트마이닝은 비정형, 대용량의 텍스트 자료로부터 유의미한 정보를 추출하는 빅데이터 분석의 대표적인 방법이다. 트위터와 같은 SNS는 1초에서 수십만건의 데이터를 생성해내며 대중들의 의견이나 생각 등을 즉각적이며 직접적으로 보여주는 1인 미디어로의 역할을 하고 있다. 기성 미디어인 언론은 정보전달, 사회비판, 여론형성의 기능을 수행하고 있다. 본 논문에서는 미디어로의 SNS와 언론을 비교해 보고자 한다. 이를 위해 2019년 하반기 국내의 이슈 중의 하나인 "한일군사정보보호협정(GSOMIA) 종료"에 대한 SNS의 반응과 언론의 반응을 비교 분석한다. 수집된 데이터는 총 201,728개의 트윗과 20,698개의 신문 기사를 대상으로 감성분석, 연관분석, 군집분석을 수행하였다. 그 결과로 SNS의 경우 이슈에 대해 긍정적 반응이 높았고 언론의 경우는 부정적 반응이 높았다. 연관검색의 경우는 SNS의 경우 "파기, 결정, 우리" 등 국내적 이슈에 대한 지지가 높았고 언론의 경우 "실망, 유감, 우려" 등으로 대외적 이슈에 대한 부정적 견해를 보여주는 차이를 보여주었다. SNS는 정보전달의 기능보다는 사회 비판 및 여론의 추이를 살피거나 형성하는데 언론보다 빠르고 강하게 나타내고 있어 언론이 대중의 인식을 반영해주는 역할을 보완할 수 있다.

텍스트마이닝을 이용한 건설공사 위험요소의 계절별 중요도 분석 (Analysis of Seasonal Importance of Construction Hazards Using Text Mining)

  • 박기창;김형관
    • 대한토목학회논문집
    • /
    • 제41권3호
    • /
    • pp.305-316
    • /
    • 2021
  • 건설사고는 근로자의 부주의, 안전장비 미착용, 안전규칙 미준수 등 다양한 요인이 복합적으로 작용해 발생할 수 있다. 건설사고를 유발하는 여러 요인 중 야외작업이 많은 건설업의 특성상 기상 조건은 건설사고 발생 요인 중 하나가 될 수 있다. 과거 발생한 건설사고 데이터는 사고예방을 위한 좋은 자료로 활용될 수 있지만, 건설업 재해사례 데이터는 자연어로 기술된 텍스트형태로 제공되기 때문에 건설업 재해사례 데이터에서 건설공사 위험요소(Hazard)를 추출하는 것은 많은 시간과 비용이 발생한다. 따라서, 본 연구에서는 텍스트마이닝을 이용해 국내에서 발생한 2,026건의 건설업 재해사례 텍스트데이터에서 건설공사 위험요소를 추출하고 빈도 분석(Frequency analysis)과 중심성 분석(Centrality analysis)을 통해 건설공사 위험요소의 계절별 중요도분석을 수행했다. 국토교통부에서 정의한 254개 건설공사 위험요소 중 51개 위험요소를 건설사고 텍스트데이터에서 추출했으며, 분석결과 봄, 가을은 거푸집, 여름은 비계, 겨울은 크레인이 계절별 가장 중요한 위험요소로 나타났다. 제안방법은 날씨, 계절, 기후 관련 건설사고 안전대책 마련에 활용될 수 있다.

건설 리스크 도출을 위한 SVM 기반의 건설프로젝트 문서 분류 모델 개발 (Development of SVM-based Construction Project Document Classification Model to Derive Construction Risk)

  • 강동욱;조민건;차기춘;박승희
    • 대한토목학회논문집
    • /
    • 제43권6호
    • /
    • pp.841-849
    • /
    • 2023
  • 건설프로젝트는 공기 지연, 건설 재해 등 다양한 요인으로 인한 리스크가 존재한다. 이러한 건설 리스크를 기반으로 건설프로젝트의 공사 기간의 산정 방법은 주로 감독자 경험에 의존한 주관적 판단으로 이루어지고 있다. 또한, 공기 지연과 건설 재해로 지연된 건설프로젝트 일정을 맞추기 위한 무리한 단축 시공은 부실시공 등의 부정적인 결과를 초래하며, 지연된 일정으로 인한 사회 기반 시설물 부재로 경제적 손실이 발생한다. 이러한 건설프로젝트의 리스크 해결을 위한 데이터 기반의 과학적 접근과 통계적 분석이 필요한 실정이다. 실제 건설프로젝트에서 수집되는 데이터는 비정형 텍스트 형태로 저장되어 있어 데이터를 기반으로 한 리스크를 적용하기 위해서는 데이터 전처리에 많은 인력과 비용을 수반하기 때문에 텍스트 마이닝을 활용한 데이터 분류 모델을 통한 기초자료를 요구한다. 따라서, 본 연구에서는 건설프로젝트 문서를 수집하여 텍스트 마이닝을 활용하여 SVM(Support Vector Machine) 기반의 데이터 분류 모델을 통해 리스크 관리를 위한 문서 기초자료 생성 분류 모델을 개발하였다. 향후 연구 결과를 통해 정량적인 분석을 통해서 건설프로젝트 공정관리 등에 있어 효율적이고 객관적인 기초자료로 활용되어 리스크 관리가 가능해질 것으로 기대된다.

데이터마이닝을 이용한 동의보감에서 경락의 주치특성 분석 (An Analysis of Indications of Meridians in DongUiBoGam Using Data Mining)

  • 채윤병;류연희;정원모
    • Korean Journal of Acupuncture
    • /
    • 제36권4호
    • /
    • pp.292-299
    • /
    • 2019
  • Objectives : DongUiBoGam is one of the representative medical literatures in Korea. We used text mining methods and analyzed the characteristics of the indications of each meridian in the second chapter of DongUiBoGam, WaeHyeong, which addresses external body elements. We also visualized the relationships between the meridians and the disease sites. Methods : Using the term frequency-inverse document frequency (TF-IDF) method, we quantified values regarding the indications of each meridian according to the frequency of the occurrences of 14 meridians and 14 disease sites. The spatial patterns of the indications of each meridian were visualized on a human body template according to the TF-IDF values. Using hierarchical clustering methods, twelve meridians were clustered into four groups based on the TF-IDF distributions of each meridian. Results : TF-IDF values of each meridian showed different constellation patterns at different disease sites. The spatial patterns of the indications of each meridian were similar to the route of the corresponding meridian. Conclusions : The present study identified spatial patterns between meridians and disease sites. These findings suggest that the constellations of the indications of meridians are primarily associated with the lines of the meridian system. We strongly believe that these findings will further the current understanding of indications of acupoints and meridians.

특허정보 기반의 바이오 기술개발 트렌드 분석 및 유망기술분야 도출에 관한 연구 (A Study on Analysis of Patent Information Based Biotechnology Research Trend and Promising Research Themes)

  • 감주식;김무웅;현병환
    • 기술혁신연구
    • /
    • 제21권2호
    • /
    • pp.25-56
    • /
    • 2013
  • 과학기술이 국가 경쟁력으로 부각되면서 주요 국가들에서는 과학기술을 통한 산업발전 및 경쟁력 강화를 위해 신성장동력산업을 지정하여 효과적인 투자 및 발전전략을 수립하고 있다. 주요 신성장동력으로는 바이오, 신재생에너지 등 신산업 분야가 각광받고 있으며, 점차 치열한 경쟁구도 양상을 보이고 있다. 각 국가별로 대학 및 연구기관에서는 정기적으로 향후 파급효과를 나타낼 미래유망기술 분야를 선정하여 발표하고 있으며, 국내에서도 다양한 연구기관들이 지속적으로 유망기술 분야를 선정하여 발표하고 있다. 본 연구에서는 특허정보를 활용하여 신성장동력으로 각광받고 있는 바이오분야의 미래유망기술 분야 도출 방법을 연구하고자 한다. 특허를 통한 기술개발 동향분석을 위해 IPC 코드에 기반한 기술분류를 이용하여 바이오분야의 국내외 특허를 수집하고 텍스트마이닝 기법을 활용하여 바이오 기술개발 트렌드를 파악하고 유망기술분야를 도출하고자 한다. 텍스트 마이닝 분석을 통해 미국과 우리나라의 특허등고선을 비교분석하여 바이오분야의 전반적 기술개발 분야를 도출한 후, 국내외적으로 관심이 고조되고 있는 기술분야에 대한 심층분석을 통한 세부적인 기술 동향 파악으로 바이오 유망기술분야에 대해 살펴보고자 한다.

  • PDF

Incidence of Online Public Opinion on Guangzhou Simultaneous Renting and Purchasing Policy - A data mining application

  • Wang, Yancheng;Li, Haixian
    • Asian Journal for Public Opinion Research
    • /
    • 제5권4호
    • /
    • pp.266-284
    • /
    • 2018
  • This paper adopts the big data research method, and draws 491 data from the Tianya Forum about the Simultaneous Renting and Purchasing policy of Guangzhou. The qualitative analysis software Nvivo11 is used to cluster the main questions about the Simultaneous Renting and Purchasing policy in the forum. The 36 high-frequency word frequencies are obtained through text clustering. Through rooted theory analysis, the main driving factors for summarizing people's doubts are 9 main categories, 3 core categories, and the model of driving factors for online forums is established. The study finds that resource factors are the most key factor, economic factors are the important drivers, and policy guiding factors are sub-important drivers.

Integration of the PubAnnotation ecosystem in the development of a web-based search tool for alternative methods

  • Neves, Mariana
    • Genomics & Informatics
    • /
    • 제18권2호
    • /
    • pp.18.1-18.5
    • /
    • 2020
  • Finding publications that propose alternative methods to animal experiments is an important but time-consuming task since researchers need to perform various queries to literature databases and screen many articles to assess two important aspects: the relevance of the article to the research question, and whether the article's proposed approach qualifies to being an alternative method. We are currently developing a Web application to support finding alternative methods to animal experiments. The current (under development) version of the application utilizes external tools and resources for document processing, and relies on the PubAnnotation ecosystem for annotation querying, annotation storage, dictionary-based tagging of cell lines, and annotation visualization. Currently, our two PubAnnotation repositories for discourse elements contain annotations for more than 110k PubMed documents. Further, we created an annotator for cell lines that contain more than 196k terms from Cellosaurus. Finally, we are experimenting with TextAE for annotation visualization and for user feedback.

전자메일 자동관리 시스템을 위한 전자메일 분류기의 개발 (Development of e-Mail Classifiers for e-Mail Response Management Systems)

  • 김국표;권영식
    • 한국IT서비스학회지
    • /
    • 제2권2호
    • /
    • pp.87-95
    • /
    • 2003
  • With the increasing proliferation of World Wide Web, electronic mail systems have become very widely used communication tools. Researches on e-mail classification have been very important in that e-mail classification system is a major engine for e-mail response management systems which mine unstructured e-mail messages and automatically categorize them. in this research we develop e-mail classifiers for e-mail Response Management Systems (ERMS) using naive bayesian learning and centroid-based classification. We analyze which method performs better under which conditions, comparing classification accuracies which may depend on the structure, the size of training data set and number of classes, using the different data set of an on-line shopping mall and a credit card company. The developed e-mail classifiers have been successfully implemented in practice. The experimental results show that naive bayesian learning performs better, while centroid-based classification is more robust in terms of classification accuracy.

KOREAN TOPIC MODELING USING MATRIX DECOMPOSITION

  • June-Ho Lee;Hyun-Min Kim
    • East Asian mathematical journal
    • /
    • 제40권3호
    • /
    • pp.307-318
    • /
    • 2024
  • This paper explores the application of matrix factorization, specifically CUR decomposition, in the clustering of Korean language documents by topic. It addresses the unique challenges of Natural Language Processing (NLP) in dealing with the Korean language's distinctive features, such as agglutinative words and morphological ambiguity. The study compares the effectiveness of Latent Semantic Analysis (LSA) using CUR decomposition with the classical Singular Value Decomposition (SVD) method in the context of Korean text. Experiments are conducted using Korean Wikipedia documents and newspaper data, providing insight into the accuracy and efficiency of these techniques. The findings demonstrate the potential of CUR decomposition to improve the accuracy of document clustering in Korean, offering a valuable approach to text mining and information retrieval in agglutinative languages.

Effective Thematic Words Extraction from a Book using Compound Noun Phrase Synthesis Method

  • Ahn, Hee-Jeong;Kim, Kee-Won;Kim, Seung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.107-113
    • /
    • 2017
  • Most of online bookstores are providing a user with the bibliographic book information rather than the concrete information such as thematic words and atmosphere. Especially, thematic words help a user to understand books and cast a wide net. In this paper, we propose an efficient extraction method of thematic words from book text by applying the compound noun and noun phrase synthetic method. The compound nouns represent the characteristics of a book in more detail than single nouns. The proposed method extracts the thematic word from book text by recognizing two types of noun phrases, such as a single noun and a compound noun combined with single nouns. The recognized single nouns, compound nouns, and noun phrases are calculated through TF-IDF weights and extracted as main words. In addition, this paper suggests a method to calculate the frequency of subject, object, and other roles separately, not just the sum of the frequencies of all nouns in the TF-IDF calculation method. Experiments is carried out in the field of economic management, and thematic word extraction verification is conducted through survey and book search. Thus, 9 out of the 10 experimental results used in this study indicate that the thematic word extracted by the proposed method is more effective in understanding the content. Also, it is confirmed that the thematic word extracted by the proposed method has a better book search result.