• 제목/요약/키워드: Text-Mining

검색결과 1,496건 처리시간 0.03초

소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구 (Research on Methods for Processing Nonstandard Korean Words on Social Network Services)

  • 이종화;레환수;이현규
    • 한국산업정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.35-46
    • /
    • 2016
  • 특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다. 또한, 연구자들의 연구 효율을 보다 높이기 위하여 키워드 기반 연구들도 이루어져있다. 하지만 대부분의 연구들은 한글의 맞춤법에 많은 한계점을 나타내고 있다. 본 연구는 어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축하여 데이터 사전 기반 마이닝 처리 기법의 한계를 극복하고자 한다. 특정 주제에 대한 주관적 견해로 구성된 블로그를 사례 분석 대상으로 연구를 진행하였으며 유니코드를 활용한 비표준어 추출은 텍스트 마이닝 처리에 유용함을 발견할 수 있었다.

PubMiner: Machine Learning-based Text Mining for Biomedical Information Analysis

  • Eom, Jae-Hong;Zhang, Byoung-Tak
    • Genomics & Informatics
    • /
    • 제2권2호
    • /
    • pp.99-106
    • /
    • 2004
  • In this paper we introduce PubMiner, an intelligent machine learning based text mining system for mining biological information from the literature. PubMiner employs natural language processing techniques and machine learning based data mining techniques for mining useful biological information such as protein­protein interaction from the massive literature. The system recognizes biological terms such as gene, protein, and enzymes and extracts their interactions described in the document through natural language processing. The extracted interactions are further analyzed with a set of features of each entity that were collected from the related public databases to infer more interactions from the original interactions. An inferred interaction from the interaction analysis and native interaction are provided to the user with the link of literature sources. The performance of entity and interaction extraction was tested with selected MEDLINE abstracts. The evaluation of inference proceeded using the protein interaction data of S. cerevisiae (bakers yeast) from MIPS and SGD.

저자 프로파일링과 요인분석을 이용한 국내 주거학 분야의 지적 구조 분석 (Examining the Intellectual Structure of Housing Studies in Korea with Text Mining and Factor Analysis)

  • 이재윤;김희전;유종덕
    • 한국문헌정보학회지
    • /
    • 제44권2호
    • /
    • pp.285-308
    • /
    • 2010
  • 이 연구는 텍스트 마이닝 기법을 활용하여 국내 주거학 분야의 지적 구조를 분석하고자 하였다. 주요 주제와 핵심 저자, 그리고 주제 간 관계를 파악하기 위한 통계적 처리 과정에서 주로 문헌 클러스터링 기법을 사용했던 기존 연구와 달리 이 연구에서는 저자 프로파일링과 요인분석 기법을 적용하였다. 텍스트 마이닝으로 생성된 지적 구조의 해석을 보완하고 지적 구조 자체에 대한 평가를 수행하기 위해서 주거학 분야 연구자 2인과 질적 면담을 실시하였다. 그 결과 텍스트 마이닝을 통해 생성된 지적 구조는 전통적인 주거학 분야의 지적 구조와는 다소 다른 시각에서 나름대로 타당한 주제 구분을 보여주는 것으로 평가되었다.

텍스트 마이닝 기법을 활용한 인공지능과 헬스케어 융·복합 분야 연구동향 분석 (Research Trend Analysis by using Text-Mining Techniques on the Convergence Studies of AI and Healthcare Technologies)

  • 윤지은;서창진
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.123-141
    • /
    • 2019
  • The goal of this study is to review the major research trend on the convergence studies of AI and healthcare technologies. For the study, 15,260 English articles on AI and healthcare related topics were collected from Scopus for 55 years from 1963, and text mining techniques were conducted. As a result, seven key research topics were defined : "AI for Clinical Decision Support System (CDSS)", "AI for Medical Image", "Internet of Healthcare Things (IoHT)", "Big Data Analytics in Healthcare", "Medical Robotics", "Blockchain in Healthcare", and "Evidence Based Medicine (EBM)". The result of this study can be utilized to set up and develop the appropriate healthcare R&D strategies for the researchers and government. In this study, text mining techniques such as Text Analysis, Frequency Analysis, Topic Modeling on LDA (Latent Dirichlet Allocation), Word Cloud, and Ego Network Analysis were conducted.

우수 의약품 제조 기준 위반 패턴 인식을 위한 연관규칙과 텍스트 마이닝 기반 t-SNE분석 (Violation Pattern Analysis for Good Manufacturing Practice for Medicine using t-SNE Based on Association Rule and Text Mining)

  • 이준오;손소영
    • 품질경영학회지
    • /
    • 제50권4호
    • /
    • pp.717-734
    • /
    • 2022
  • Purpose: The purpose of this study is to effectively detect violations that occur simultaneously against Good Manufacturing Practice, which were concealed by drug manufacturers. Methods: In this study, we present an analysis framework for analyzing regulatory violation patterns using Association Rule Mining (ARM), Text Mining, and t-distributed Stochastic Neighbor Embedding (t-SNE) to increase the effectiveness of on-site inspection. Results: A number of simultaneous violation patterns was discovered by applying Association Rule Mining to FDA's inspection data collected from October 2008 to February 2022. Among them there were 'concurrent violation patterns' derived from similar regulatory ranges of two or more regulations. These patterns do not help to predict violations that simultaneously appear but belong to different regulations. Those unnecessary patterns were excluded by applying t-SNE based on text-mining. Conclusion: Our proposed approach enables the recognition of simultaneous violation patterns during the on-site inspection. It is expected to decrease the detection time by increasing the likelihood of finding intentionally concealed violations.

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

텍스트마이닝을 이용한 약물유해반응 보고자료 분석 (Analysis of Adverse Drug Reaction Reports using Text Mining)

  • 김현희;유기연
    • 한국임상약학회지
    • /
    • 제27권4호
    • /
    • pp.221-227
    • /
    • 2017
  • Background: As personalized healthcare industry has attracted much attention, big data analysis of healthcare data is essential. Lots of healthcare data such as product labeling, biomedical literature and social media data are unstructured, extracting meaningful information from the unstructured text data are becoming important. In particular, text mining for adverse drug reactions (ADRs) reports is able to provide signal information to predict and detect adverse drug reactions. There has been no study on text analysis of expert opinion on Korea Adverse Event Reporting System (KAERS) databases in Korea. Methods: Expert opinion text of KAERS database provided by Korea Institute of Drug Safety & Risk Management (KIDS-KD) are analyzed. To understand the whole text, word frequency analysis are performed, and to look for important keywords from the text TF-IDF weight analysis are performed. Also, related keywords with the important keywords are presented by calculating correlation coefficient. Results: Among total 90,522 reports, 120 insulin ADR report and 858 tramadol ADR report were analyzed. The ADRs such as dizziness, headache, vomiting, dyspepsia, and shock were ranked in order in the insulin data, while the ADR symptoms such as vomiting, 어지러움, dizziness, dyspepsia and constipation were ranked in order in the tramadol data as the most frequently used keywords. Conclusion: Using text mining of the expert opinion in KIDS-KD, frequently mentioned ADRs and medications are easily recovered. Text mining in ADRs research is able to play an important role in detecting signal information and prediction of ADRs.

S&T Text Mining을 이용한 국방 유망기술 식별에 관한 연구 (A Study on the Identifying Emerging Defense Technology using S&T Text Mining)

  • 이태봉;이춘주
    • 한국국방경영분석학회지
    • /
    • 제36권1호
    • /
    • pp.39-49
    • /
    • 2010
  • 본 연구에서는 과학기술 텍스트 마이닝을 이용하여 국방 유망기술을 식별하는 방법론을 제안하고 있다. 그동안 국가차원에서 NTIS와 DTiMS를 포함한 과학기술 관련 정보체계를 구축하는데 많은 노력을 기울여왔는데 과학기술 정보체계는 연구자와 정책입안자, 또는 실무자들이 기술적 변화를 분석하고 효율적인 업무진행, 지식공유, 전략개발, 또는 조직의 경쟁력을 높이기 위한 정책개발에 활용성이 크다. 본 연구에서는 INSPEC 데이터베이스에 과학기술 텍스트마이닝 기법을 적용하여 미래 무인전투기술에 대한 지식네트워크 구조와 국방 유망기술을 식별하는 과정을 예시함으로써 구축된 과학기술 정보체계를 이용한 미래 유망기술의 식별 방법론을 제시하였다.

텍스트마이닝 기법을 이용한 모바일 피트니스 애플리케이션 주요 요인 분석 : 사용자 경험 관점 (An Analysis on Key Factors of Mobile Fitness Application by Using Text Mining Techniques : User Experience Perspective)

  • 이소현;김진솔;윤상혁;김희웅
    • 한국IT서비스학회지
    • /
    • 제19권3호
    • /
    • pp.117-137
    • /
    • 2020
  • The development of information technology leads to changes in various industries. In particular, the health care industry is more influenced so that it is focused on. With the widening of the health care market, the market of smart device based personal health care also draws attention. Since a variety of fitness applications for smartphone based exercise were introduced, more interest has been in the health care industry. But although an amount of use of mobile fitness applications increase, it fails to lead to a sustained use. It is necessary to find and understand what matters for mobile fitness application users. Therefore, this study analyze the reviews of mobile fitness application users, to draw key factors, and thereby to propose detailed strategies for promoting mobile fitness applications. We utilize text mining techniques - LDA topic modeling, term frequency analysis, and keyword extraction - to draw and analyze the issues related to mobile fitness applications. In particular, the key factors drawn by text mining techniques are explained through the concept of user experience. This study is academically meaningful in the point that the key factors of mobile fitness applications are drawn by the user experience based text mining techniques, and practically this study proposes detailed strategies for promoting mobile fitness applications in the health care area.

Practical Text Mining for Trend Analysis: Ontology to visualization in Aerospace Technology

  • Kim, Yoosin;Ju, Yeonjin;Hong, SeongGwan;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권8호
    • /
    • pp.4133-4145
    • /
    • 2017
  • Advances in science and technology are driving us to the better life but also forcing us to make more investment at the same time. Therefore, the government has provided the investment to carry on the promising futuristic technology successfully. Indeed, a lot of resources from the government have supported into the science and technology R&D projects for several decades. However, the performance of the public investments remains unclear in many ways, so thus it is required that planning and evaluation about the new investment should be on data driven decision with fact based evidence. In this regard, the government wanted to know the trend and issue of the science and technology with evidences, and has accumulated an amount of database about the science and technology such as research papers, patents, project reports, and R&D information. Nowadays, the database is supporting to various activities such as planning policy, budget allocation, and investment evaluation for the science and technology but the information quality is not reached to the expectation because of limitations of text mining to drill out the information from the unstructured data like the reports and papers. To solve the problem, this study proposes a practical text mining methodology for the science and technology trend analysis, in case of aerospace technology, and conduct text mining methods such as ontology development, topic analysis, network analysis and their visualization.