• 제목/요약/키워드: Unstructured data analysis

검색결과 422건 처리시간 0.026초

Reorganizing Social Issues from R&D Perspective Using Social Network Analysis

  • Shun Wong, William Xiu;Kim, Namgyu
    • Journal of Information Technology Applications and Management
    • /
    • 제22권3호
    • /
    • pp.83-103
    • /
    • 2015
  • The rapid development of internet technologies and social media over the last few years has generated a huge amount of unstructured text data, which contains a great deal of valuable information and issues. Therefore, text mining-extracting meaningful information from unstructured text data-has gained attention from many researchers in various fields. Topic analysis is a text mining application that is used to determine the main issues in a large volume of text documents. However, it is difficult to identify related issues or meaningful insights as the number of issues derived through topic analysis is too large. Furthermore, traditional issue-clustering methods can only be performed based on the co-occurrence frequency of issue keywords in many documents. Therefore, an association between issues that have a low co-occurrence frequency cannot be recognized using traditional issue-clustering methods, even if those issues are strongly related in other perspectives. Therefore, in this research, a methodology to reorganize social issues from a research and development (R&D) perspective using social network analysis is proposed. Using an R&D perspective lexicon, issues that consistently share the same R&D keywords can be further identified through social network analysis. In this study, the R&D keywords that are associated with a particular issue imply the key technology elements that are needed to solve a particular issue. Issue clustering can then be performed based on the analysis results. Furthermore, the relationship between issues that share the same R&D keywords can be reorganized more systematically, by grouping them into clusters according to the R&D perspective lexicon. We expect that our methodology will contribute to establishing efficient R&D investment policies at the national level by enhancing the reusability of R&D knowledge, based on issue clustering using the R&D perspective lexicon. In addition, business companies could also utilize the results by aligning the R&D with their business strategy plans, to help companies develop innovative products and new technologies that sustain innovative business models.

Using a Cellular Automaton to Extract Medical Information from Clinical Reports

  • Barigou, Fatiha;Atmani, Baghdad;Beldjilali, Bouziane
    • Journal of Information Processing Systems
    • /
    • 제8권1호
    • /
    • pp.67-84
    • /
    • 2012
  • An important amount of clinical data concerning the medical history of a patient is in the form of clinical reports that are written by doctors. They describe patients, their pathologies, their personal and medical histories, findings made during interviews or during procedures, and so forth. They represent a source of precious information that can be used in several applications such as research information to diagnose new patients, epidemiological studies, decision support, statistical analysis, and data mining. But this information is difficult to access, as it is often in unstructured text form. To make access to patient data easy, our research aims to develop a system for extracting information from unstructured text. In a previous work, a rule-based approach is applied to a clinical reports corpus of infectious diseases to extract structured data in the form of named entities and properties. In this paper, we propose the use of a Boolean inference engine, which is based on a cellular automaton, to do extraction. Our motivation to adopt this Boolean modeling approach is twofold: first optimize storage, and second reduce the response time of the entities extraction.

빅데이터 양성 교육 교과과정 개선을 위한 회귀분석 기반의 만족도 조사에 관한 연구 (A Study on Satisfaction Survey Based on Regression Analysis to Improve Curriculum for Big Data Education)

  • 최현
    • 한국산업융합학회 논문집
    • /
    • 제22권6호
    • /
    • pp.749-756
    • /
    • 2019
  • Big data is structured and unstructured data that is so difficult to collect, store, and so on due to the huge amount of data. Many institutions, including universities, are building student convergence systems to foster talents for data science and AI convergence, but there is an absolute lack of research on what kind of education is needed and what kind of education is required for students. Therefore, in this paper, after conducting the correlation analysis based on the questionnaire on basic surveys and courses to improve the curriculum by grasping the satisfaction and demands of the participants in the "2019 Big Data Youth Talent Training Course" held at K University, Regression analysis was performed. As a result of the study, the higher the satisfaction level, the satisfaction with class or job connection, and the self-development, the more positive the evaluation of program efficiency.

A Quantitative Decision-making Analysis Using Fuzzy Theory in Nuclear Power Plants

  • Moosung Jae;Moon, Joo-Hyun
    • International Journal of Reliability and Applications
    • /
    • 제2권2호
    • /
    • pp.137-146
    • /
    • 2001
  • In general, analysis of the decision problems in nuclear system management involves a simultaneous consideration of various criteria and decision alternatives. Sometimes, it is a complex, unstructured, ill-defined process incorporating the multi-criteria and the data of impreciseness. To cope with this analysis, a fuzzy hierarchical analysis methodology is proposed and demonstrated with a simple example.

  • PDF

비정형 빅데이터를 이용한 치면열구전색(치아홈메우기)에 대한 인식분석 (A Study on the Perception of Pit and Fissure Sealant using Unstructured Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 연구배경: 본 연구는 치면열구전색(치아홈메우기)에 대한 전반적인 인식을 살펴봄으로써 현재 정체되어 있는 치면열구전색의 활성화를 위한 방안을 제시하고자 수행되었다. 연구방법: 치면열구전색 보장성 정책의 변화에 따른 사회적 인식을 확인하고자 5개 차수로 시기를 분류하였다. 1차시기(2009.12.1.~2010.11.30.), 2차시기(2010.12.1.~2012.9.30.), 3차시기(2012.10.1.~2013.5.5.), 4차시기(2013.5.6.~2017.9.30.), 5차시기(2017.10.1.~2022.12.31.)로 각각 설정하였다. 비정형 빅데이터 분석방법인 텍스트마이닝 분석방법을 활용하였다. 텍스톰을 사용하여 키워드를 수집 및 분석하였으며, 상위 키워드 30개의 빈도수, 의미 연결망의 구조적 특징, 중심성 분석, QAP 상관분석 및 동시출현 단어분석을 실시하였다. 연구결과: 빈도분석 결과 시기별로 상위권에 속한 키워드는 '충치', '치료', '어린이' 등이 공통적으로 나타났다. 치면열구전색의 시기별 의미연결망 구조적 특징에서 밀도지수는 모든 시기별 약 1.00으로 확인되었다. QAP 상관분석결과 1차시기와 2차시기, 4차시기와 5차시기의 상관계수가 0.834로 가장 높은 상관을 보였다. 동시출현 단어분석결과 모든 시기에 걸쳐 '충치'와 '예방'이 1위로 나타났다. 결론: 본 연구를 통해 치면열구전색은 충치예방을 위한 술식과 예방치료로써 사회적 인식이 잘 형성되었음을 알 수 있었다. 그러나 보건교육에 대한 인식은 낮았다. 정체된 치면열구전색을 활성화하기 위해서는 효과적인 교육을 강화해 나가야 하는 노력이 필요하겠다.

플립드러닝 성과를 예측하기 위한 설문조사 기반의 비정형 데이터 분석 (Survey-based unstructured data analysis to predict flipped learning performance)

  • 김차영;김윤
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.519-524
    • /
    • 2023
  • 본 연구는 IT 관련 다양한 교양과목의 플립드 러닝 적용에 있어서 운영에 대한 경험을 정리하면서, 구체적인 적용 방법을 제안한다. 그동안은 플립드 러닝에 대한 다양한 전략과 학습자 반응을 분석하는 연구들이 대부분이었다. 현재는 플립드러닝 수업을 운영하는 주체자인 교수자들이 해당 과목들을 운영하면서, 즉각적인 피드백과 적용을 할 수 있는 방안에 대한 연구가 필요한 시점이다. 이에 관한 연구들이 점차 나오고 있는데, 일반적으로 교수자 본인들의 수업 운영의 구조를 개발하거나, 토론 수업과 접목하거나, 다양한 콘텐츠 개발하기 등과 같은 다양한 전략을 적용 후, 결과를 통한 참고 자료에 대한 공유 연구가 대부분이다. 본 연구는 즉각적인 피드백을 받을 수 있는 설문조사인 비정형 데이터를 기반으로 분석하여, 다양한 전략이 해당 과목에서 어떻게 적용되고, 결과를 얻을 수 있는지 수업 운영과 동시에 분석할 수 있는 방법을 제안한다.

다이나믹 토픽 모델을 활용한 D(Data)·N(Network)·A(A.I) 중심의 연구동향 분석 (Investigation of Research Trends in the D(Data)·N(Network)·A(A.I) Field Using the Dynamic Topic Model)

  • 우창우;이종연
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.21-29
    • /
    • 2020
  • 최근 디지털 사회의 도래로 다양한 데이터가 폭발적으로 증가하고, 그중 문헌 내 주제어를 도출하는 토픽 모델링에 관한 연구가 활발히 진행되고 있다. 본 논문의 연구목표는 토픽 모델링 방법 중 하나인 DTM(Dynamic Topic Model) 모델을 적용해 D.N.A.(Data, Network, A.I) 분야에 대한 연구동향을 탐색하는데 있다. 실험 데이터는 최근 6년간(2015~2020) ICT(Information and Communication Technology) 분야 중 기술대분류가 SW·AI에 해당하는 연구과제 1,519개 사업에 대해 DTM 모델을 적용하였다. 실험결과로, D.N.A. 분야의 기술 키워드 Big data, Cloud, Artificial Intelligence와 확장된 의미의 기술 키워드 Unstructured, Edge Computing, Learning, Recognition 등이 매년 연구에 표출되었으며, 해당 키워드 들이 특정 연구과제에 종속되지 않고 다른 연구과제에서도 포괄적으로 연구되고 있음을 확인하였다. 끝으로 본 논문의 연구결과는 향후 D.N.A. 분야에 대한 정책기획·과제기획 등 연구개발 기획 과정과 기업의 기술 확보전략·마케팅 전략 등 다양한 곳에 활용될 수 있을 것으로 기대한다.

주관적 웰빙 상태 측정을 위한 비정형 데이터의 상황기반 긍부정성 분석 방법 (Analyzing Contextual Polarity of Unstructured Data for Measuring Subjective Well-Being)

  • 최석재;송영은;권오병
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.83-105
    • /
    • 2016
  • 의료IT 서비스의 유망 분야인 정신건강 증진을 위한 주관적 웰빙 서비스(subjective well-being service) 구현의 핵심은 개인의 주관적 웰빙 상태를 정확하고 무구속적이며 비용 효율적으로 측정하는 것인데 이를 위해 보편적으로 사용되는 설문지에 의한 자기보고나 신체부착형 센서 기반의 측정 방법론은 정확성은 뛰어나나 비용효율성과 무구속성에 취약하다. 비용효율성과 무구속성을 보강하기 위한 온라인 텍스트 기반의 측정 방법은 사전에 준비된 감정어 어휘만을 사용함으로써 상황에 따라 감정어로 볼 수 있는 이른바 상황적 긍부정성(contextual polarity)을 고려하지 못하여 측정 정확도가 낮다. 한편 기존의 상황적 긍부정성을 활용한 감성분석으로는 주관적 웰빙 상태인 맥락에서의 감성분석을 할 수 있는 감정어휘사전이나 온톨로지가 구축되어 있지 않다. 더구나 온톨로지 구축도 매우 노력이 소요되는 작업이다. 따라서 본 연구의 목적은 온라인상에 사용자의 의견이 표출된 비정형 텍스트로부터 주관적 웰빙과 관련한 상황감정어를 추출하고, 이를 근거로 상황적 긍부정성 파악의 정확도를 개선하는 방법을 제안하는 것이다. 기본 절차는 다음과 같다. 먼저 일반 감정어휘사전을 준비한다. 본 연구에서는 가장 대표적인 디지털 감정어휘사전인 SentiWordNet을 사용하였다. 둘째, 정신건강지수를 동적으로 추정하는데 필요한 비정형 자료인 Corpora를 온라인 서베이로 확보하였다. 셋째, Corpora로부터 세 가지 종류의 자원을 확보하였다. 넷째, 자원을 입력변수로 하고 특정 정신건강 상태의 지수값을 종속변수로 하는 추론 모형을 구축하고 추론 규칙을 추출하였다. 마지막으로, 추론 규칙으로 정신건강 상태를 추론하였다. 본 연구는 감정을 분석함에 있어, 기존의 연구들과 달리 상황적 감정어를 적용하여 특정 도메인에 따라 다양한 감정 어휘를 파악할 수 있다는 점에서 독창성이 있다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

산업용 기계 및 기구 관련 산업재해 원인분석 (Cause Analysis of Accidents Associated with Industrial Machines and Devices)

  • 최기흥
    • 한국안전학회지
    • /
    • 제33권1호
    • /
    • pp.16-21
    • /
    • 2018
  • Cause analysis of accidents associated with industrial machines and devices is essential to improve the effectiveness and the efficiency of industrial safety system in Korea. This study focuses on cause analysis of accidents associated with industrial machines and devices. In particular, analysis of abstracts of accidents which are written in descriptive format and, therefore, inherently unstructured and exhibits characteristics of big data is suggested and tested. Automatic analysis of such big data performed in this study reveals the consistent results with the manual analysis results in previous studies. Analysis results also suggest that incorporating transition from the current user-oriented indirect regulations to more manufacturer and user balanced direct regulations will guarantee more effective prevention of industrial accidents at the early stage of generation of danger.