• 제목/요약/키워드: Web text mining

검색결과 185건 처리시간 0.022초

분석지의 확장을 위한 소셜 빅데이터 활용연구 - 국내 '빅데이터' 수요공급 예측 - (a Study on Using Social Big Data for Expanding Analytical Knowledge - Domestic Big Data supply-demand expectation -)

  • 김정선;권은주;송태민
    • 지식경영연구
    • /
    • 제15권3호
    • /
    • pp.169-188
    • /
    • 2014
  • Big data seems to change knowledge management system and method of enterprises to large extent. Further, the type of method for utilization of unstructured data including image, v ideo, sensor data a nd text may determine the decision on expansion of knowledge management of the enterprise or government. This paper, in this light, attempts to figure out the prediction model of demands and supply for big data market of Korea trough data mining decision making tree by utilizing text bit data generated for 3 years on web and SNS for expansion of form for knowledge management. The results indicate that the market focused on H/W and storage leading by the government is big data market of Korea. Further, the demanders of big data have been found to put important on attribute factors including interest, quickness and economics. Meanwhile, innovation and growth have been found to be the attribute factors onto which the supplier puts importance. The results of this research show that the factors affect acceptance of big data technology differ for supplier and demander. This article may provide basic method for study on expansion of analysis form of enterprise and connection with its management activities.

  • PDF

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

Biotea-2-Bioschemas, facilitating structured markup for semantically annotated scholarly publications

  • Garcia, Leyla;Giraldo, Olga;Garcia, Alexander;Rebholz-Schuhmann, Dietrich
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.14.1-14.6
    • /
    • 2019
  • The total number of scholarly publications grows day by day, making it necessary to explore and use simple yet effective ways to expose their metadata. Schema.org supports adding structured metadata to web pages via markup, making it easier for data providers but also for search engines to provide the right search results. Bioschemas is based on the standards of schema.org, providing new types, properties and guidelines for metadata, i.e., providing metadata profiles tailored to the Life Sciences domain. Here we present our proposed contribution to Bioschemas (from the project "Biotea"), which supports metadata contributions for scholarly publications via profiles and web components. Biotea comprises a semantic model to represent publications together with annotated elements recognized from the scientific text; our Biotea model has been mapped to schema.org following Bioschemas standards.

텍스트마이닝을 활용한 연구동향 분석: 소셜네트워크서비스를 중심으로 (Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services)

  • 윤혜진;김창식;곽기영
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권3호
    • /
    • pp.513-519
    • /
    • 2018
  • 본 연구의 목적은 소셜네트워크서비스 주제에 관한 연구동향을 조사하는 것이다. 연구의 목적을 달성하기 위해서 웹오브사이언스 데이터베이스에서 제목에 'Social Network Service(SNS)'를 포함하는 1994년부터 2016년까지 출판된 논문 초록 308편을 분석 하였다. 본 연구에서는 텍스트마이닝 기법 중에서 최근 많이 적용되는 토픽모델링기법을 활용하였다. 토픽모델링 분석결과 20개의 토픽(신뢰, 지지, 만족 모델, 조직 지배구조, 모바일 시스템, 인터넷 마케팅, 대학생 효과, 의견 확산, 고객, 정보보호, 건강관리, 웹 협업, 방법, 학습 효과, 지식, 개인 이론, 아동 지지, 알고리즘, 미디어 참여, 문맥 시스템)이 도출되었다. 또한 시계열회귀분석 결과 모든 토픽은 상승 추세로 나타났다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

영화 흥행과 관련된 영화별 특성에 대한 군집분석 : 웹 크롤링 활용 (Clustering Analysis of Films on Box Office Performance : Based on Web Crawling)

  • 이재일;전영호;하정훈
    • 산업경영시스템학회지
    • /
    • 제39권3호
    • /
    • pp.90-99
    • /
    • 2016
  • Forecasting of box office performance after a film release is very important, from the viewpoint of increase profitability by reducing the production cost and the marketing cost. Analysis of psychological factors such as word-of-mouth and expert assessment is essential, but hard to perform due to the difficulties of data collection. Information technology such as web crawling and text mining can help to overcome this situation. For effective text mining, categorization of objects is required. In this perspective, the objective of this study is to provide a framework for classifying films according to their characteristics. Data including psychological factors are collected from Web sites using the web crawling. A clustering analysis is conducted to classify films and a series of one-way ANOVA analysis are conducted to statistically verify the differences of characteristics among groups. The result of the cluster analysis based on the review and revenues shows that the films can be categorized into four distinct groups and the differences of characteristics are statistically significant. The first group is high sales of the box office and the number of clicks on reviews is higher than other groups. The characteristic of the second group is similar with the 1st group, while the length of review is longer and the box office sales are not good. The third group's audiences prefer to documentaries and animations and the number of comments and interests are significantly lower than other groups. The last group prefer to criminal, thriller and suspense genre. Correspondence analysis is also conducted to match the groups and intrinsic characteristics of films such as genre, movie rating and nation.

텍스트마이닝을 활용한 빅데이터 기반의 디지털 트랜스포메이션 연구동향 파악 (Identifying Research Trends in Big data-driven Digital Transformation Using Text Mining)

  • 김민준
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.54-64
    • /
    • 2022
  • 빅데이터 기반의 디지털 트랜스포메이션은 데이터 및 데이터 관련 기술을 통해 기업의 성과 향상, 조직 변화, 사회 공헌 등의 목적 달성을 위해 수행하는 혁신적 프로세스를 의미한다. 성공적인 빅데이터 기반의 디지털 트랜스포메이션을 위해서는 관련 연구 현황, 주요 연구토픽, 주요 연구토픽 간의 관계를 이해하는 것이 필수적이다. 그러나 여러 연구들의 서로 다른 관점 및 이들 간 연계 가능성에 대해 이해하려는 노력은 아직 미진하다. 본 논문은 텍스트마이닝을 활용하여 관련 연구동향을 분석하고, 여러 연구의 다양한 관점을 통합적으로 이해하기 위한 기반 마련을 시도해보았다. Web of Science Core Collection에서 추출한 439편의 논문을 분석하여, 10개의 주요 연구토픽을 도출하였고, 이들 간의 관계를 분석하였다. 본 연구의 결과가 빅데이터 기반의 디지털 트랜스포메이션에 대한 통합적인 이해를 촉진하고, 성공을 위한 방향성 모색에 기여할 것으로 기대한다.

텍스트마이닝을 활용한 보건의료산업학회지의 토픽 모델링 및 토픽트렌드 분석 (Analysis on Topic Trends and Topic Modeling of KSHSM Journal Papers using Text Mining)

  • 조경원;배성권;우영운
    • 보건의료산업학회지
    • /
    • 제11권4호
    • /
    • pp.213-224
    • /
    • 2017
  • Objectives : The purpose of this study was to analyze representative topics and topic trends of papers in Korean Society and Health Service Management(KSHSM) Journal. Methods : We collected English abstracts and key words of 516 papers in KSHSM Journal from 2007 to 2017. We utilized Python web scraping programs for collecting the papers from Korea Citation Index web site, and RStudio software for topic analysis based on latent Dirichlet allocation algorithm. Results : 9 topics were decided as the best number of topics by perplexity analysis and the resultant 9 topics for all the papers were extracted using Gibbs sampling method. We could refine 9 topics to 5 topics by deep consideration of meanings of each topics and analysis of intertopic distance map. In topic trends analysis from 2007 to 2017, we could verify 'Health Management' and 'Hospital Service' were two representative topics, and 'Hospital Service' was prevalent topic by 2011, but the ratio of the two topics became to be similar from 2012. Conclusions : We discovered 5 topics were the best number of topics and the topic trends reflected the main issues of KSHSM Journal, such as name revision of the society in 2012.

환자 증상정보 기반 희귀질환 조기 발견 보조시스템 (Early Detection Assistance System for Rare Diseases based on Patient's Symptom Information)

  • 최재민;김선용
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.373-378
    • /
    • 2023
  • 희귀질환은 증상이 전형적이지 않고 진단정보가 부족하여 전문의들조차 증상을 기반으로 질환을 의심하거나 질환명을 떠올리는 데에 어려움을 겪는다. 따라서 증상이 시작한 시점에서부터 정확한 진단을 받기까지 많은 시간 및 비용이 발생하며, 이는 환자의 신체적, 정신적, 경제적 부담을 심각하게 초래한다. 환자의 증상정보를 통해 의심되는 희귀질환을 제시하여 의사의 진단에 활용할 수 있도록, 본 논문에서는 웹 크롤링 및 텍스트마이닝을 활용한 희귀질환 조기 발견 보조시스템을 제안하고 이를 구현한다.

텍스트마이닝을 이용한 정보보호 연구동향 분석 (Research Trends Analysis of Information Security using Text Mining)

  • 김태경;김창식
    • 디지털산업정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.19-25
    • /
    • 2018
  • With the development of IT technology, various services such as artificial intelligence and autonomous vehicles are being introduced, and many changes are taking place in our lives. However, if secure security is not provided, it will cause many risks, so the information security becomes more important. In this paper, we analyzed the research trends of main themes of information security over time. In order to conduct the research, 'Information Security' was searched in the Web of Science database. Using the abstracts of theses published from 1991 to 2016, we derived main research topics through topic modeling and time series regression analysis. The topic modeling results showed that the research topics were Information technology, system access, attack, threat, risk management, network type, security management, security awareness, certification level, information protection organization, security policy, access control, personal information, security investment, computing environment, investment cost, system structure, authentication method, user behavior, encryption. The time series regression results indicated that all the topics were hot topics.