• 제목/요약/키워드: 빅데이터의 처리 및 분석기법

검색결과 115건 처리시간 0.025초

IoT 이기종 통신망을 위한 PDN 기반의 Fault-Tolerance 기법 연구 (A Study of Fault-Tolerance Mechanism for heterogeneous IoT Connectivity based on PDN)

  • 이재호;손봉기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.1002-1003
    • /
    • 2016
  • IoT 기술은 직접적인 사람의 제어 없이 기기 간 자율 통신을 지원하며 빅데이터와 함께 미래 ICT 시장의 큰 비중을 차지할 유망 기술로써 높게 평가되고 있다. 하지만 IoT 기술 범주에 포함되는 Zigbee, Bluetooth, Bluetooth LE, Wi-Fi 등의 기술은 상호 호환되지 않고 통신 목적의 상이하기 때문에, 각 기기들은 다수의 통신 장치를 모두 탑재하고 있으며 이에 따른 운영 효율 또한 높지 않다. 또한, 통신 기술마다 존재하는 독립된 네트워크가 상호 복잡한 서비스 활용에 연계된 환경에서 특정 부분에 장애가 발생할 경우, 서비스별 관계정보 부재로 인하여 장애 발견과 복구 및 대체 서비스 제공이 어렵다. 본고는 이러한 문제를 해결하기 위하여 각 기기간의 이기종 통신I/F 연동방안과 기기 유형별로 발생될 수 있는 환경 변화에 대한 Physicality 분석을 통하여 제공 가능한 대체 서비스 분석방안을 제시한다.

맵리듀스를 사용한 데이터 큐브의 효율적인 계산 기법 (Efficient Computation of Data Cubes Using MapReduce)

  • 이기용;박소정;박은주;박진경;최연정
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권11호
    • /
    • pp.479-486
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량 데이터를 다수의 컴퓨터로 병렬 처리하는 데 사용되는 프로그래밍 모델이다. 데이터 큐브(Data Cube)는 대용량 데이터 분석에 널리 사용되는 연산자로서, 주어진 차원 애트리뷰트들의 모든 가능한 조합에 대한 group-by들을 계산한다. 차원 애트리뷰트의 개수가 n일 때, 데이터 큐브는 총 $2^n$개의 group-by를 계산한다. 본 논문은 맵리듀스를 사용하여 데이터 큐브를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 $2^n$ 개의 group-by를 $_nC_{{\lceil}n/2{\rceil}}$개의 그룹으로 분할하고, 이 그룹들을 ${\lceil}n/2{\rceil}$개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 제안 방법은 기존 방법에 비해 맵퍼(mapper)가 생성하는 중간결과의 크기를 크게 줄임으로써 중간결과의 전송 및 정렬에 드는 비용을 크게 줄인다. 그에 따라 데이터 큐브를 계산하는 총 수행시간이 크게 감소된다. 실험을 통해 제안 방법이 기존 방법에 비해 더 빠르게 데이터 큐브를 계산함을 보인다.

빅데이터기반 디지털 트윈 활용 폭염 취약계층 예측 시스템의 설계 및 구현 (Design and Implementation of Predicting the Heatwave Vulnerable Class Using Digital Twin Based on Big Data)

  • 나형선;김종인;안진현;전대성;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.781-783
    • /
    • 2020
  • 여름철만 되면 폭염 취약계층의 피해 소식이 꾸준히 발생하고 있다. 본 연구는 폭염 취약계층을 예측하기 위한 방법으로 통신사와 공공데이터에서 유동인구데이터, 전기사용량, 온도데이터, 건물 면적, 병원 접근성 등을 활용하여 분석하였다. 디지털 트윈 기법을 활용해 분석결과 높은 온도대비 면적당 전기사용량이 적으며 동시에 유동인구가 많고 병원 접근성이 떨어질수록 폭염 취약계층일 확률이 높을 것으로 예측하였다.

SNS Big-data를 활용한 TV 광고 효과 분석 시스템 설계 (A Design of a TV Advertisement Effectiveness Analysis System Using SNS Big-data)

  • 이아름;방지선;김윤희
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.579-586
    • /
    • 2015
  • 스마트폰 보급률이 증가함과 함께 SNS(Social Networking Service) 이용자도 늘어가고 있다. SNS는 실시간으로 사람들 간의 개인적인 의견을 빠르게 주고받을 수 있다는 특징이 있어 이를 통해 개인의 반응을 실시간으로 수집, 분석이 가능하다. 한편, TV광고 효과 분석에 있어 사람들의 의견을 실시간으로 수집하고 분석하기 위해 새로운 접근 방법이 필요해졌다. 이에 본 연구에서는 트위터라는 특정 SNS를 대상으로 광고에 대한 데이터를 수집하여 실시간으로 광고 효과를 분석하는 시스템을 설계 및 구축하였다. 특히, 하둡을 이용하여 빅데이터 분석을 병렬화하여 효율적으로 수행하도록 하였으며, TV광고에 대해 언급도와 선호도, 신뢰도를 각각 분석하여 다양한 분석을 가능하게 하였다. 오피니언 마이닝 기법을 신뢰도 분석에 사용하여 분석의 정확도를 높였다. 구축한 시스템을 통해 트위터 SNS를 대상으로 TV광고에 대한 분석을 세분화하여 신속하게 처리할 수 있음을 보여주었다.

생체신호 기반의 T-SNE 를 활용한 대화 내 감정 인식 (Physiological Signal-Based Emotion Recognition in Conversations Using T-SNE)

  • 임수빈;이병천 ;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.703-705
    • /
    • 2023
  • 본 연구는 대화 중 생체신호 데이터를 활용하여 감정 인식 분야에서 더욱 정확하고 범용성이 높은 인식 기술을 제안한다. 이를 위해, 먼저 대화별 길이에 따른 측정값의 개수를 동일하게 조정하고 효과적인 생체신호 데이터의 조합을 비교 및 분석하기 위해 차원 축소 기법인 T-SNE (T-distributed Stochastic Neighbor Embedding)을 활용하여 감정 라벨의 분포를 확인한다. 또한, AutoML (Automated Machine Learning)을 이용하여 축소된 데이터로 감정을 분류 및 각성도와 긍정도를 예측하여 감정을 가장 잘 인식하는 생체신호 데이터의 조합을 발견한다.

Redis 데이터베이스에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensics Investigation of Redis Database)

  • 최재문;정두원;윤종성;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권5호
    • /
    • pp.117-126
    • /
    • 2016
  • 최근 빅 데이터나 소셜 네트워크 서비스의 활용도가 증가하면서 기존 관계형 데이터베이스의 한계를 극복한 NoSQL 데이터베이스의 수요가 꾸준히 증가하고 있다. 디지털 포렌식 관점에서 관계형 데이터베이스의 디지털 포렌식 조사 기법은 꾸준히 연구되어 왔으나 NoSQL 데이터베이스의 디지털 포렌식 조사 기법에 대한 연구는 거의 없는 실정이다. 본 논문에서는 메모리 기반의 Key-Value Store NoSQL 데이터베이스인 Redis를 소개하고 디지털 포렌식 관점에서 살펴보아야 할 아티팩트의 수집과 분석, 삭제된 데이터 복구 기법을 제안한다. 또한 제안된 데이터 복구 기법을 도구로 구현하여 복구 기법을 검증한다.

대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템 (A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data)

  • 손시운;김다솔;문양세;최형진
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.58-68
    • /
    • 2018
  • 분산 컴퓨팅이란 다수의 서버로 구성된 분산 시스템에서 데이터를 효율적으로 저장 및 처리하는 기술이다. 따라서 분산 시스템을 구성하는 서버의 상태에 따라 분산 컴퓨팅의 성능에 큰 영향을 미친다. 본 논문은 분산 시스템에서 실시간으로 발생하는 시스템 자원의 로그 데이터를 수집하고 이상을 탐지하여 결과를 시각화하는 자가 진단 시스템을 제안한다. 먼저, 자가 진단 과정을 수집, 전달, 분석, 저장, 시각화의 다섯 단계로 구분한다. 다음으로, 자가 진단 과정이 실시간성, 확장성, 고가용성의 목표를 만족하도록 실시간 자가 진단 시스템을 설계한다. 본 시스템은 대표적인 실시간 분산 기술인 Apache Flume, Apache Kafka, Apache Storm을 기반으로 구현되어 실시간성, 확장성, 고가용성의 세 가지 목표를 만족할 수 있다. 또한, 자가 진단 과정에서 로그 데이터 처리의 지연을 최소화하도록 간단하지만 효과적인 이동 평균 및 3-시그마 기반 이상 탐지 기법을 사용한다. 본 논문의 결과를 통해, 분산 시스템 내에서 서버 상태를 실시간으로 진단할 수 있는 분산 실시간 자가 진단 시스템을 구축할 수 있다.

K-means 알고리즘과 GBR 알고리즘을 이용한 정수장 응집제 투입률 결정 기법 (Determination of coagulant input rate in water purification plant using K-means algorithm and GBR algorithm)

  • 김진영;강복선;정회경
    • 한국정보통신학회논문지
    • /
    • 제25권6호
    • /
    • pp.792-798
    • /
    • 2021
  • 본 논문에서는 인공지능 기반의 빅데이터 분석과 예측을 통하여 정수장의 공정 중 약품투입곤정에서 응집제 투입률을 결정하는 알고리즘을 도출하였다. 또한, 빅데이터 기술 및 인공지능 알고리즘 적용 방법에 대한 분석 및 기존의 학문적, 기술적 자료를 검토하여 유사 분야 적용 사례를 분석 검토하였다. 이를 통한 최적 응집제 투입률 제시를 목표로 운영 근무자의 의사결정 패턴을 입력 변수와 출력변수의 관계 패턴으로 학습한 후 학습된 패턴을 실제 응집제 주입 공정에 적용하여 침전수 탁도가 목표치에 근사한 일정 수준을 유지할 수 있도록 운영이 가능하였다. 데이터 범위 산정과 전처리를 거친 변수를 선정하여 알고리즘 수행을 준비한 후 군집화와 분류 알고리즘을 적용하여 알고리즘 수행과 결과에 대한 피드백을 반복하여 학습을 진행하였다.

시간대를 고려한 SHAP 기반의 신용카드 이상 거래 탐지 (Credit Card Fraud Detection Based on SHAP Considering Time Sequences)

  • 양소연 ;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.370-372
    • /
    • 2023
  • 신용카드 부정 사용은 고객 및 기업의 신용과 재산에 막대한 손실을 미치고 있다. 이에 따라 금융사들은 이상금융거래탐지시스템을 도입하였으나 이상 거래 발생 여부를 지속적으로 모니터링하고 있기 때문에 시스템 유지에 많은 비용이 따른다. 따라서 본 논문에서는 컴퓨팅 리소스를 절약함과 동시에 성능 개선 효과를 보인 신용카드 이상 거래 탐지 알고리즘을 제안한다. CTGAN 을 활용하여 정상 거래와 이상 거래의 비율을 일부 완화하였고 XAI 기법인 SHAP 를 활용하여 유의미한 속성값을 선택하였다. 이것을 기반으로 LSTM Autoencoder를 사용하여 이상데이터를 탐지하였다. 그 결과 전통적인 비지도 학습 기법에 비해 제안 알고리즘이 우수한 성능을 보였음을 확인하였다.

Machine Learning을 이용한 무기 체계(or 구성품) 고장 유형 식별 (Identify the Failure Mode of Weapon System (or equipment) using Machine Learning)

  • 박연경;이혜원;김상문
    • 한국산학기술학회논문지
    • /
    • 제19권8호
    • /
    • pp.64-70
    • /
    • 2018
  • 무기 체계(or 구성품) 개발은 한정된 개발기간과 비용 등의 제한으로 시험 횟수가 많지 않아, 고장관련 축적된 데이터의 규모도 적다. 그러나 운용 중 발생한 고장 및 정비내역은 많은 부분 전산 데이터로 관리하고 있기 때문에 이를 활용한 무기 체계(or 구성품)의 고장원인 분석은 가능하다. 다만 다양한 무기체계의 고장 및 정비내역 작성 규격이 각 군 별, 업체별 상이하고, 고장 원인의 구체적 내역은 비정형 텍스트 데이터로 기술되어 있기 때문에 이를 분석하는데 어려움이 있었다. 그러나 오늘날 빅데이터 처리 기술과 기계학습(Machine Learning) 알고리즘의 발전, HW연산 능력의 개선과 맞물려, 상기와 같은 비정형 데이터를 처리 할 수 있는 여러 가지 방법들이 시도 되고 있으며, 주요한 연구 분야로 활발히 연구되고 있다. 본 논문에서는 국방 무기 체계(or 구성품)의 고장/정비 관련 비정형 데이터를 기계학습 기법 중 하나인 doc2vec을 적용하여 고장사례 분석 방안에 대하여 제시한다.