• 제목/요약/키워드: Unstructured data analysis

검색결과 422건 처리시간 0.02초

빅데이터 수집 처리를 위한 분산 하둡 풀스택 플랫폼의 설계 (Design of Distributed Hadoop Full Stack Platform for Big Data Collection and Processing)

  • 이명호
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.45-51
    • /
    • 2021
  • 급속한 비대면 환경과 모바일 우선 전략에 따라 해마다 많은 정형/비정형 데이터의 폭발적인 증가와 생성은 모든 분야에서 빅데이터를 활용한 새로운 의사 결정과 서비스를 요구하고 있다. 그러나 매년 급속히 증가하는 빅데이터를 활용하여 실무 환경에서 적용 가능한 표준 플랫폼으로 빅데이터를 수집하여 적재한 후, 정재한 빅데이터를 관계형 데이터베이스에 저장하고 처리하는 하둡 에코시스템 활용의 참조 사례들은 거의 없었다. 따라서 본 연구에서는 스프링 프레임워크 환경에서 3대의 가상 머신 서버를 통하여 하둡 2.0을 기반으로 쇼셜 네트워크 서비스에서 키워드로 검색한 비정형 데이터를 수집한 후, 수집된 비정형 데이터를 하둡 분산 파일 시스템과 HBase에 적재하고, 적재된 비정형 데이터를 기반으로 형태소 분석기를 이용하여 정형화된 빅데이터를 관계형 데이터베이스에 저장할 수 있게 설계하고 구현하였다. 향후에는 데이터 심화 분석을 위한 하이브나 머하웃을 이용하여 머신 러닝을 이용한 클러스터링과 분류 및 분석 작업 연구가 지속되어야 할 것이다.

에지 컴퓨팅 환경에서의 상황인지 서비스를 위한 팻 클라이언트 기반 비정형 데이터 추상화 방법 (Fat Client-Based Abstraction Model of Unstructured Data for Context-Aware Service in Edge Computing Environment)

  • 김도형;문종혁;박유상;최종선;최재영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권3호
    • /
    • pp.59-70
    • /
    • 2021
  • 최근 사물인터넷의 발전으로 사용자 주변 상황을 인지하여 맞춤형 서비스를 제공하는 상황인지 시스템에 대한 관심이 증가되고 있다. 기존의 상황인지 시스템은 사용자 주위에서 생성되는 데이터를 분석하여 사용자 주변 상황을 표현하는 상황 정보로 추상화하는 기술이 사용되었다. 하지만 증가하는 사용자의 서비스 요구 사항에 따라 다양한 종류의 비정형 데이터의 사용이 증가하고, 사용자 주변에서 수집되는 데이터의 양이 많아지면서 비정형 데이터의 처리와 상황인지 서비스의 제공에 어려움이 있다. 이러한 사항은 딥러닝 응용에서 비정형 구조의 입력 데이터가 많이 사용되는 데서 찾아볼 수 있다. 기존 연구에서는 에지 컴퓨팅 환경에서 다양한 딥러닝 모델을 활용해 비정형 데이터를 상황 정보로 추상화하는 연구가 진행되었으나, 수집-전처리-분석 등과 같은 추상화 과정 간의 종속성으로 인해 제한된 종류의 딥러닝 모델만이 적용 가능하기 때문에 시스템의 기능적 확장성이 고려되어야 한다. 이에 본 논문은 에지 컴퓨팅 환경에서 딥러닝 기술을 활용한 비정형 데이터 추상화 과정의 기능적 확장성을 고려한 비정형 데이터 추상화 방법을 제안한다. 제안하는 방법은 데이터 처리가 분산되어 있는 에지 컴퓨팅 환경에서 수집과 전처리 과정을 수행할 수 있는 팻 클라이언트 기술을 사용하여 추상화 과정의 수집-전처리 과정과 분석 과정을 분리하여 수행하는 것이다. 또한 분리된 추상화 과정을 관리하기 위해 수집-전처리 과정을 수행하는 데 필요한 정보를 팻 클라이언트 프로파일로 제공하고, 분석 과정에 필요한 정보를 분석 모델 설명 언어(AMDL) 프로파일로 제공한다. 두 가지 프로파일을 통해서 추상화 과정을 독립적으로 관리하여 상황인지 시스템의 기능적 확장성을 제공한다. 실험에서는 차량 출입 통제 알림 서비스를 위한 차량 이미지 인식 모델을 대상으로 팻 클라이언트 프로파일과 AMDL 프로파일의 예제를 통해 시스템의 기능적 확장성을 보이고, 비정형 데이터의 추상화 과정별 세부사항을 보인다.

비정렬 기반의 CFD 프로그램 개발 (DEVELOPMENT OF CFD PROGRAM BASED ON UNSTRUCTURED GRID SYSTEM)

  • 이정희;이상혁;이명성;허남건
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2010년 춘계학술대회논문집
    • /
    • pp.524-529
    • /
    • 2010
  • In the present study, a CFD program is developed for the Fluid-Structure Interaction(FSI) analysis. The non-staggered, non-orthogonal, and unstructured grid system was also used to handle the complicated geometries in the program. In order to validate the capabilities of the developed CFD program, various models are investigated by using unstructured and nonorthogonal meshes. The predicted results are a good agreement with analytic solution, experimental data and commercial software. And also PISO algorithm is applied for transient flow analysis. The cyclic boundary condition and baffle cell are developed in order to improve the effectiveness of the calculation for complex geometry.

  • PDF

소규모학습그룹의 학습자 맞춤형 교육을 위한 비정형데이터분석 연구 (A study on the analysis of unstructured data for customized education of learners in small learning groups)

  • 민연아;임동균
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.89-95
    • /
    • 2020
  • 이러닝 시장이 확대됨에 따라 인공지능 기반의 학습자 맞춤형 교육에 대한 관심이 높아지고 있다. 학습자 맞춤형 교육은 학습자 분석을 위한 대량의 데이터 및 학습 콘텐츠 등의 필수 구성요소가 필요하며 이러한 데이터 수집을 위한 시간과 비용 측면의 노력이 필요하다. 본 논문에서는 소규모 학습그룹에서의 효율적으로 학습자 맞춤형 학습이 가능하도록, python 모듈들을 사용하여 비정형 학습자 데이터를 분석하였으며 이를 토대로 제시된 학습알고리즘을 통하여 학습자의 학습연속성을 유지하도록 하였다. 본 논문을 통하여 제시된 비정형 학습데이터분석을 통하여 학습관련 비정형 데이터를 정량화 하여 측정 가능하도록 하였으며 학습자 맞춤교육 제공을 위한 키워드 분석 시 90% 이상 데이터가 유의미함을 확인하였다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

텍스트 마이닝을 적용한 한국교통방송제보 비정형데이터의 분석 (Analysis of the Unstructured Traffic Report from Traffic Broadcasting Network by Adapting the Text Mining Methodology)

  • 노유진;배상훈
    • 한국ITS학회 논문지
    • /
    • 제17권3호
    • /
    • pp.87-97
    • /
    • 2018
  • 교통사고 관련 제보는 비정형 데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보의 가치를 가지고 있다. 그러나, 비정형 데이터인 교통제보가 빅 데이터로서 교통사고 통계나 교통관련 연구에 활용되지 못하였으나, 텍스트 마이닝 기법을 활용한 본 연구를 통해 비정형의 빅 데이터를 시각화하고 해석하여, 기존의 정형 데이터에서 분석하지 못한 정보를 도출할 수 있었다. 그리고 교통사고 발생으로 인한 도로상 영향을 파악할 수 있었다. 이러한 분석으로 교통제보의 트랜드를 파악하고, 운전자가 제보하는 "도로명", "지점명", "시간대"를 추출하였으며, 교통사고 발생으로 다른 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다. 향후 실제 교통사고 데이터와 결합하여 교통제보와의 상관성 분석 등을 통해 비정형 데이터의 활용방안을 모색할 계획이다.

비정형 데이터를 활용한 가뭄평가 - 보령지역을 중심으로 - (Drought evaluation using unstructured data: a case study for Boryeong area)

  • 정진홍;박동혁;안재현
    • 한국수자원학회논문집
    • /
    • 제53권12호
    • /
    • pp.1203-1210
    • /
    • 2020
  • 가뭄은 다양한 수문학적 또는 기상학적 인자들이 복합적으로 작용하여 발생하기 때문에 가뭄의 사상을 정확히 평가하는 것은 어려운 일이나, 이를 정량적으로 해석하기 위해 다양한 가뭄지수들이 개발되어 왔다. 하지만 현재 활용중인 가뭄지수들은 단일변량의 부족량을 통해 산정되며, 복합적인 원인으로 발생하는 가뭄의 사상을 정확히 판단하지 못하는 문제가 있다. 단순 단일변량의 부족을 가뭄이라고 판단하기는 어렵기 때문이다. 최근에는 빅데이터 분석에서 많이 활용되고 있는 비정형 데이터를 활용하여 지수를 개발하는 연구들이 타 분야에서 진행되고 있으며 우수성이 입증되고 있다. 따라서 본 연구에서는 기존 가뭄지수에 활용 중인 기상 및 수문정보(강수량, 댐 유입량)에 각각 비정형 데이터(뉴스데이터)를 결합하여 가뭄지수를 산정하고, 산정된 가뭄지수의 검증을 통해 가뭄해석의 활용성을 평가하고자 한다. 결합가뭄지수 산정을 위해 Clayton Copula 함수를 활용하였으며, 매개변수 추정은 교정방법을 이용하였다. 분석결과, 기존의 가뭄지수(SPI, SDI)보다 비정형 데이터를 결합한 가뭄지수가 가뭄기간을 적절히 재현하는 것으로 나타났다. 또한 Receiver Operating Characteristic (ROC) score가 기존의 가뭄지수들보다 높게 산정되어 가뭄해석에 있어 활용성이 우수하였다. 본 연구에서 산정된 결합가뭄지수는 기존 단일변량 가뭄지수의 해석적 한계를 보완하고 비정형데이터를 활용한 가뭄지수의 활용성이 우수하다는 점에서 활용성이 높다고 판단된다.

실시간 비정형객체 인식 기법 기반 지능형 이상 탐지 시스템에 관한 연구 (Research on Intelligent Anomaly Detection System Based on Real-Time Unstructured Object Recognition Technique)

  • 이석창;김영현;강수경;박명혜
    • 한국멀티미디어학회논문지
    • /
    • 제25권3호
    • /
    • pp.546-557
    • /
    • 2022
  • Recently, the demand to interpret image data with artificial intelligence in various fields is rapidly increasing. Object recognition and detection techniques using deep learning are mainly used, and video integration analysis to determine unstructured object recognition is a particularly important problem. In the case of natural disasters or social disasters, there is a limit to the object recognition structure alone because it has an unstructured shape. In this paper, we propose intelligent video integration analysis system that can recognize unstructured objects based on video turning point and object detection. We also introduce a method to apply and evaluate object recognition using virtual augmented images from 2D to 3D through GAN.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형 (A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data)

  • 하만석;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2019
  • 직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.