• 제목/요약/키워드: Bio-text Mining

검색결과 25건 처리시간 0.021초

빅데이터 분석과 헬스케어에 대한 동향 (A review of big data analytics and healthcare)

  • 문석재;이남주
    • 한국응용과학기술학회지
    • /
    • 제37권1호
    • /
    • pp.76-82
    • /
    • 2020
  • Big data analysis in healthcare research seems to be a necessary strategy for the convergence of sports science and technology in the era of the Fourth Industrial Revolution. The purpose of this study is to provide the basic review to secure the diversity of big data and healthcare convergence by discussing the concept, analysis method, and application examples of big data and by exploring the application. Text mining, data mining, opinion mining, process mining, cluster analysis, and social network analysis is currently used. Identifying high-risk factor for a certain condition, determining specific health determinants for diseases, monitoring bio signals, predicting diseases, providing training and treatments, and analyzing healthcare measurements would be possible via big data analysis. As a further work, the big data characteristics provide very appropriate basis to use promising software platforms for development of applications that can handle big data in healthcare and even more in sports science.

빅데이터 분석을 통한 농촌관광 실태와 활성화 방안 연구: 전라북도를 중심으로 (Study of the Activation Plan for Rural Tourism of the Jeollabuk-do Using Big Data Analysis)

  • 박로운;이기훈
    • 한국지역사회생활과학회지
    • /
    • 제27권spc호
    • /
    • pp.665-679
    • /
    • 2016
  • This study examined the main factors for activating rural tourism of Jeollabuk-do using big data analysis. The tourism big data was gathered from public open data sources and social network services (SNS), and the analysis tools, 'Opinion Mining', 'Text Mining', and 'Social Network Analysis(SNA)' were used. The opinion mining and text mining analysis identified the key local contents of the 14 areas of Jeollabuk-do and the evaluations of customers on rural tourism. Social network analysis detected the relationships between their contents and determined the importance of the contents. The results of this research showed that each location in Jeollabuk-do had their specific contents attracting visitors and the number of contents affected the scale of tourists. In addition, the number of visitors might be large when their tourism contents were strongly correlated with the other contents. Hence, strong connections among their contents are a point to activate rural tourism. Social network analysis divided the contents into several clusters and derived the eigenvector centralities of the content nodes implying the importance of them in the network. Tourism was active when the nodes at high value of the eigenvector centrality were distributed evenly in every cluster; however the results were contrary when the nodes were located in a few clusters. This study suggests an action plan to extend rural tourism that develop valuable contents and connect the content clusters properly.

데이터 마이닝 기법을 통한 COVID-19 팬데믹의 국내 주가 영향 분석: 헬스케어산업을 중심으로 (Using Data Mining Techniques for Analysis of the Impacts of COVID-19 Pandemic on the Domestic Stock Prices: Focusing on Healthcare Industry)

  • 김덕현;유동희;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권3호
    • /
    • pp.21-45
    • /
    • 2021
  • Purpose This paper analyzed the impacts of domestic stock market by a global pandemic such as COVID-19. We investigated how the overall pattern of the stock market changed due to the impact of the COVID-19 pandemic. In particular, we analyzed in depth the pattern of stock price, as well, tried to find what factors affect on stock market index(KOSPI) in the healthcare industry due to the COVID-19 pandemic. Design/methodology/approach We built a data warehouse from the databases in various industrial and economic fields to analyze the changes in the KOSPI due to COVID-19, particularly, the changes in the healthcare industry centered on bio-medicine. We collected daily stock price data of the KOSPI centered on the KOSPI-200 about two years before and one year after the outbreak of COVID-19. In addition, we also collected various news related to COVID-19 from the stock market by applying text mining techniques. We designed four experimental data sets to develop decision tree-based prediction models. Findings All prediction models from the four data sets showed the significant predictive power with explainable decision tree models. In addition, we derived significant 10 to 14 decision rules for each prediction model. The experimental results showed that the decision rules were enough to explain the domestic healthcare stock market patterns for before and after COVID-19.

바이오 미래유망 연구분야 도출에 관한 연구 (A Study on the Promising Future Biotechnology)

  • 감주식;김무웅;박상대;현병환
    • 기술혁신학회지
    • /
    • 제15권2호
    • /
    • pp.345-368
    • /
    • 2012
  • 과학기술이 경제사회의 핵심동력으로 작용하면서 향후 산업발전 및 국가 경쟁력 강화에 기여할 수 있는 과학기술에 대한 경쟁력을 확보하기 위해 신규 유망기술 발굴의 필요성이 높아지고 있다. 주요 선진국에서는 미래 유망기술을 예측하고 이에 대한 연구개발 지원이 추진 중에 있다. 현재 우리나라에서도 미래기술 예측을 위한 모델 및 조사체계 강화방안에 관한 연구가 진행되고 있다. 본 연구에서는 신성장동력으로 각광받고 있는 바이오 분야에 대한 미래유망 연구 및 기술에 대한 도출방법을 연구하고자 한다. 바이오 분야 논문을 수집 및 분석하고 주제를 확인하기 위해 텍스트마이닝 기법을 활용하여 주요 연구 분야를 도출하고자 한다. 텍스트마이닝 기법으로 논문등고선을 분석하여 바이오 분야의 중점 연구분야를 도출한 후, 심층분석을 통해 세부적인 연구동향 파악으로 미래유망 바이오 중점 연구테마에 대해 살펴보고자 한다.

  • PDF

LitCovid-AGAC: cellular and molecular level annotation data set based on COVID-19

  • Ouyang, Sizhuo;Wang, Yuxing;Zhou, Kaiyin;Xia, Jingbo
    • Genomics & Informatics
    • /
    • 제19권3호
    • /
    • pp.23.1-23.7
    • /
    • 2021
  • Currently, coronavirus disease 2019 (COVID-19) literature has been increasing dramatically, and the increased text amount make it possible to perform large scale text mining and knowledge discovery. Therefore, curation of these texts becomes a crucial issue for Bio-medical Natural Language Processing (BioNLP) community, so as to retrieve the important information about the mechanism of COVID-19. PubAnnotation is an aligned annotation system which provides an efficient platform for biological curators to upload their annotations or merge other external annotations. Inspired by the integration among multiple useful COVID-19 annotations, we merged three annotations resources to LitCovid data set, and constructed a cross-annotated corpus, LitCovid-AGAC. This corpus consists of 12 labels including Mutation, Species, Gene, Disease from PubTator, GO, CHEBI from OGER, Var, MPA, CPA, NegReg, PosReg, Reg from AGAC, upon 50,018 COVID-19 abstracts in LitCovid. Contain sufficient abundant information being possible to unveil the hidden knowledge in the pathological mechanism of COVID-19.

5개국 바이오헬스 산업의 기술융합과 트렌드 분석 : 특허 동시분류분석과 텍스트마이닝을 활용하여 (Technology Convergence & Trend Analysis of Biohealth Industry in 5 Countries : Using patent co-classification analysis and text mining)

  • 박수현;윤영미;김호용;김재수
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.9-21
    • /
    • 2021
  • 본 연구는 IP5국가(KR, EP, JP, US, CN)의 바이오헬스 분야 특허데이터를 기반으로 기술의 융합과 트렌드를 파악하여 해당 산업 분야의 발전 방향을 제시하는 것을 목적으로 한다. 기술융합 현황 파악을 위해 특허 동시분류분석 기반의 네트워크분석과 TF-IDF 기반의 텍스트마이닝을 주요 방법론으로 활용하였고, 분석 결과 바이오헬스 산업의 기술융합 클러스터는 크게 (A)치료용 의료기기, (B)의료데이터프로세싱, (C)생체계측용 의료기기의 세 가지 형태로 도출되었다. 또한 기술융합 결과를 토대로 한 트렌드 분석의 결과에서 우리나라는 (B)의료데이터프로세싱 분야에서 시장선도국으로 도출됨에 따라 향후 상업적 가치가 높은 특허로 시장 우위를 선점할 수 있는 가능성이 높다고 분석되었다. 특히 해당 분야는 2019년 1월 국회에서 통과된 '데이터3법'이라는 정책적 변환과 더불어, 국내 바이오헬스 기업들의 의료데이터 활용 가능성이 확대됨에 따라 해당 기술에 대한 기술융합 활성화 정책 수립과 R&D 지원 전략이 필요할 것으로 전망된다.

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.

특허정보 기반의 바이오 기술개발 트렌드 분석 및 유망기술분야 도출에 관한 연구 (A Study on Analysis of Patent Information Based Biotechnology Research Trend and Promising Research Themes)

  • 감주식;김무웅;현병환
    • 기술혁신연구
    • /
    • 제21권2호
    • /
    • pp.25-56
    • /
    • 2013
  • 과학기술이 국가 경쟁력으로 부각되면서 주요 국가들에서는 과학기술을 통한 산업발전 및 경쟁력 강화를 위해 신성장동력산업을 지정하여 효과적인 투자 및 발전전략을 수립하고 있다. 주요 신성장동력으로는 바이오, 신재생에너지 등 신산업 분야가 각광받고 있으며, 점차 치열한 경쟁구도 양상을 보이고 있다. 각 국가별로 대학 및 연구기관에서는 정기적으로 향후 파급효과를 나타낼 미래유망기술 분야를 선정하여 발표하고 있으며, 국내에서도 다양한 연구기관들이 지속적으로 유망기술 분야를 선정하여 발표하고 있다. 본 연구에서는 특허정보를 활용하여 신성장동력으로 각광받고 있는 바이오분야의 미래유망기술 분야 도출 방법을 연구하고자 한다. 특허를 통한 기술개발 동향분석을 위해 IPC 코드에 기반한 기술분류를 이용하여 바이오분야의 국내외 특허를 수집하고 텍스트마이닝 기법을 활용하여 바이오 기술개발 트렌드를 파악하고 유망기술분야를 도출하고자 한다. 텍스트 마이닝 분석을 통해 미국과 우리나라의 특허등고선을 비교분석하여 바이오분야의 전반적 기술개발 분야를 도출한 후, 국내외적으로 관심이 고조되고 있는 기술분야에 대한 심층분석을 통한 세부적인 기술 동향 파악으로 바이오 유망기술분야에 대해 살펴보고자 한다.

  • PDF

A Maximum Entropy-Based Bio-Molecular Event Extraction Model that Considers Event Generation

  • Lee, Hyoung-Gyu;Park, So-Young;Rim, Hae-Chang;Lee, Do-Gil;Chun, Hong-Woo
    • Journal of Information Processing Systems
    • /
    • 제11권2호
    • /
    • pp.248-265
    • /
    • 2015
  • In this paper, we propose a maximum entropy-based model, which can mathematically explain the bio-molecular event extraction problem. The proposed model generates an event table, which can represent the relationship between an event trigger and its arguments. The complex sentences with distinctive event structures can be also represented by the event table. Previous approaches intuitively designed a pipeline system, which sequentially performs trigger detection and arguments recognition, and thus, did not clearly explain the relationship between identified triggers and arguments. On the other hand, the proposed model generates an event table that can represent triggers, their arguments, and their relationships. The desired events can be easily extracted from the event table. Experimental results show that the proposed model can cover 91.36% of events in the training dataset and that it can achieve a 50.44% recall in the test dataset by using the event table.

StrokeMed: an integrated literature database for stroke and the differentiation of stroke syndrome

  • Kim, Young-Uk;Kim, Jin-Ho;Park, Young-Kyu;Kim, Young-Joo
    • Interdisciplinary Bio Central
    • /
    • 제2권2호
    • /
    • pp.2.1-2.4
    • /
    • 2010
  • Complex diseases, such as stroke and cancer, have two or more genetic influences and are affected by environmental factors, which complicate them. Due to the complex characteristics of these diseases, we must search and study comprehensive literature-based article resources. Some disease-related literature databases have been developed through specialized journal issues or major websites. Most of them, however, are scattered throughout a website, and users encounter difficulties in finding accurate and comprehensive information easily and quickly. We developed StrokeMed, an integrated literature database for stroke and the differentiation of stroke syndrome. The system allows users to explore PubMed search results, categorized by MeSH (Medical Subject Headings), and the differentiation of stroke syndrome in Oriental medicine. StrokeMed collects data from important sites, such as PubMed, Scirus, and Scopus, automatically to maintain higher-quality and updated content. Currently, the system indexes more than 20,000 PubMed abstracts that are related to stroke, stroke etiology, and Oriental medicine. The system provides valuable literature information to the scientific and medical fields in stroke.