• 제목/요약/키워드: 빅데이터의 처리 및 분석기법

검색결과 115건 처리시간 0.029초

스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구 (A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF

Spark SQL 기반 고도 분석 지원 프레임워크 설계 (Design of Spark SQL Based Framework for Advanced Analytics)

  • 정재화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.477-482
    • /
    • 2016
  • 기업의 신속한 의사결정 및 전략적 정책 결정을 위해 빅데이터에 대한 고도 분석이 필수적으로 요구됨에 따라 대량의 데이터를 복수의 노드에 분산하여 처리하는 하둡 또는 스파크와 같은 분산 처리 플랫폼이 주목을 받고 있다. 최근 공개된 Spark SQL은 Spark 환경에서 SQL 기반의 분산 처리 기법을 지원하고 있으나, 기계학습이나 그래프 처리와 같은 반복적 처리가 요구되는 고도 분석 분야에서는 효율적 처리가 불가능한 문제가 있다. 따라서 본 논문은 이러한 문제점을 바탕으로 Spark 환경에서 고도 분석 지원을 위한 SQL 기반의 빅데이터 최적처리 엔진설계와 처리 프레임워크를 제안한다. 복수의 조건과 다수의 조인, 집계, 소팅 연산이 필요한 복합 SQL 질의를 분산/병행적으로 처리할 수 있는 최적화 엔진과 관계형 연산을 지원하는 기계학습 최적화하기 위한 프레임워크를 설계한다.

재난 위험신고 빅데이터를 활용한 사회연결망 분석 (Social Network Analysis by Utilizing Disaster Risk Big Data)

  • 한지아;정덕훈
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.45-63
    • /
    • 2016
  • 최근 기후변화 및 사회구조 변화에 따라 신종 또는 복합재난 발생빈도가 증가하고 있으며 재난예방의 중요성이 증가하고 있다. 중앙 및 지방정부에서의 재난예방활동 중 가장 대표적인 시설 안전관리에 대한 유용한 정보를 제공하기 위해 국민안전처의 "안전신문고" 주요처리사례 데이터를 활용하여 주민이 신고한 위험시설 신고내용의 키워드를 파악하여 시설간 계절 및 지역별 신고 분포 현황을 분석하였다. 이를 위해 사회 연결망 분석기법을 활용하여 시설 키워드를 중심으로 1-mode, 2-mode를 구성하였으며 계절별, 지역별로의 분포 차이를 분석하였다.

  • PDF

협업 필터링 기반의 콘텐츠 추천 시스템과 빅데이터 처리 솔루션을 이용한 상용화 개발 방향 (Content recommendation system based on the collaborative filtering and big-data solutions for its commercialization)

  • 최성우;한성희;정병희
    • 방송과미디어
    • /
    • 제19권4호
    • /
    • pp.50-59
    • /
    • 2014
  • 사용자들이 미디어를 접하는 디바이스 환경이 다양화되고 그 속에서 접할 수 있는 콘텐츠의 양은 많아졌다. 특히 급속도로 발전한 모바일 환경에서 사용자들은 개인화된 기기를 사용하여 콘텐츠를 소비하고 주변 사용자들과 경험을 공유한다. 콘텐츠 제공 서비스에서는 이러한 개인의 콘텐츠 소비 이력 및 SNS 관계에서 발생한 데이터를 분석하여 활용함으로써 콘텐츠 소비를 활성화하고자 한다. KBS에서도 이러한 동향에 맞추어 방송콘텐츠 추천검색 연구와 실시간 TV캡처 및 소셜 공유 연구를 진행하였으며, 그 과정에서 많은 양의 데이터를 효율적으로 처리하기 위한 방법의 필요성을 절감하게 되었다. 데이터 분석이 필요한 두 과제에서 진행한 내용을 기술하고 대용량 데이터 처리기법을 활용하여 상용화 서비스를 구축할 계획을 소개한다.

온라인 빅 데이터 분석 결과와 상수도 통계 비교를 통한 데이터 가치 추출 (Data value extraction through comparison of online big data analysis results and water supply statistics)

  • 홍성진;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.431-431
    • /
    • 2021
  • 4차 산업혁명의 도래로 사회기반시설물의 계획 및 운영관리에 있어 데이터 분석을 통한 가치추출에 대한 관심은 매우 높은 상황이다. 데이터의 가용성과 접근성, 정부 지원 등을 평가하는 공공데이터 개방지수에서 한국은 1점 만점에 0.93점을 획득하여 경제협력개발기구 회원국 중 1위(2019년 기준)를 할 정도로 매우 높은 수준(평균 0.60점)이다. 그러나 공식적으로 발표 및 배포되는 사회기반시설물 관련 정보와 심도 있는 연구 분석이 필요한 정보는 접근이 여전히 제한적이라 할 수 있다. 특히 대표적인 사회기반시설물인 상수도시스템은 대부분 국가중요시설로 지정되어 있어 다양한 정보를 획득하고 분석하는데 제약이 존재하며, 관련 국가통계인 상수도통계에서는 누수사고 등과 같은 비정상적 상황에 대한 사고지점, 원인 등과 같은 세부정보는 제공하고 있지 않다. 본 연구에서는 웹크롤링 및 빅데이터 분석기술을 활용하여 과거 일정기간 발생한 지자체의 상수도 누수사고 관련 뉴스를 전수조사하고 도출된 사고건수를 국가 공인 정보인 상수도통계자료와 비교·분석하였다. 독립적인 누수사고 기사를 추출하기 위해서 중복기사의 제거, 누수 관련 키워드 정립, 상수도분야 이외의 관련기사 제거 등의 절차가 필요하며, 이와 같은 기법은 R프로그래밍을 통해 구현되었다. 추가적으로 뉴스기사의 자연어 처리기반 정보추출기법을 통해 누수사고 건수 뿐만 아니라 사고발생일, 위치, 원인, 피해정도, 그리고 대상 관로의 크기 등을 획득하여 상수도 통계에서 제시하고 있는 정보보다 많은 가치를 추출하여 연계할 수 있는 방안을 제시하였다. 제시된 방법론을 국내 A광역시에 적용하여 누수사고 건수를 비교한 결과 상수도통계에서 제시하고 있는 누수발생건수와 유사한 규모의 사고건수를 뉴스기사분석을 통해 도출할 수 있었다. 제안된 방법론은 추가적인 정보의 추출이 가능하다는 점에서 향후 활용성이 높을 것으로 기대된다.

  • PDF

빅 데이터의 MapReduce를 이용한 효율적인 병렬 유전자 알고리즘 기법 (The Efficient Method of Parallel Genetic Algorithm using MapReduce of Big Data)

  • 홍성삼;한명묵
    • 한국지능시스템학회논문지
    • /
    • 제23권5호
    • /
    • pp.385-391
    • /
    • 2013
  • 빅 데이터는 일반적으로 사용되는 데이터 관리 시스템으로 데이터의 처리, 수집, 저장, 탐색, 분석을 할 수 없는 큰 규모의 데이터를 말한다. 빅 데이터 기술인 맵 리듀스(MapReduce)를 이용한 병렬 GA 연구는 Hadoop 분산처리환경을 이용하여, 맵 리듀스에서 GA를 수행함으로써 GA의 병렬처리를 쉽게 구현할 수 있다. 기존의 맵 리듀스를 이용한 GA들은 GA를 맵 리듀스에 적절히 변형하여 적용하였지만 잦은 데이터 입출력에 의한 수행시간 지연으로 우수한 성능을 보이지 못하였다. 본 논문에서는 기존의 맵 리듀스를 이용한 GA의 성능을 개선하기 위해, 맵과 리듀싱과정을 개선하여 맵 리듀스 특징을 이용한 새로운 MRPGA(MapReduce Parallel Genetic Algorithm)기법을 제안하였다. 기존의 PGA의 topology 구성과 migration 및 local search기법을 MRPGA에 적용하여 최적해를 찾을 수 있었다. 제안한 기법은 기존에 맵 리듀스 SGA에 비해 수렴속도가 1.5배 빠르며, sub-generation 반복횟수에 따라 최적해를 빠르게 찾을 수 있었다. 또한, MRPGA를 활용하여 빅 데이터 기술의 처리 및 분석 성능을 향상시킬 수 있다.

응급상황에서 자동인증지원을 위한 빅데이터 처리 및 에지컴퓨팅 기반의 의료정보플랫폼 연구 (A Study on Medical Information Platform Based on Big Data Processing and Edge Computing for Supporting Automatic Authentication in Emergency Situations)

  • 함규성;강민구;주수종
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2022
  • 최근 스마트기술의 발달로 의료정보플랫폼에서 환자의 생체데이터가 실시간으로 측정 및 데이터베이스에 축적되며, 환자의 응급상황을 판단할 수 있다. 또한, 의료진은 이동단말기를 이용하여 간단한 인증 이후 환자정보에 쉽게 접근이 가능하다. 그러나 이동단말기를 이용한 의료정보 접근에 있어 환자상황과 이동단말기를 고려한 인증에 대한 연구가 필요하다. 본 논문에서는 응급상황에서 의료진의 이동단말기를 이용한 의료정보 접근허가를 위해 빅데이터 처리 및 에지컴퓨팅 기반의 자동인증지원 의료정보플랫폼에 대해 연구하였다. 기 연구된 자동인증 시스템은 응급상황에서 사용자인증과 이동단말기인증을 동시에 수행하며, 상위 의료정보 접근권한을 인증된 의료진과 이동단말기에 부여하는 인증 시스템이다. 환자의 고혈압, 당뇨와 같은 환자상태를 고려한 응급상황을 판단하기 위해 빅데이터 처리 및 분석기법을 제안한 플랫폼에 적용하였다. 또한 환자의 빠른 응급상황 판단을 위해 에지컴퓨팅을 의료정보 서버 앞단에 두어 의료정보 서버 대신 에지컴퓨팅에서 응급상황을 판단하도록 하였다. 의료정보 서버는 입력된 환자정보와 축적된 생체데이터를 이용하여 응급상황 판단수치를 도출하고, 에지컴퓨팅에 전달하여 환자 맞춤형 응급상황을 판단하도록 하였다. 결론적으로, 제안한 의료정보플랫폼은 빅데이터 처리와 에지컴퓨팅을 통해 환자상태를 고려하고 응급상황을 빠르게 판단하였으며, 자동인증을 통해 응급상황에서의 신속한 인증과, 환자상황과 의료진의 역할에 따른 접근권한 부여를 통해 환자정보를 보호하였다.

맵리듀스 환경에서 유전자 알고리즘 기반의 동적 무기할당 알고리즘 (A Dynamic Weapon Allocation Algorithm using Genetic Algorithm in Mapreduce Environments)

  • 박준호;김지은;조길석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.469-470
    • /
    • 2014
  • 동적 무기할당 문제는 전형적인 NP-완전 문제로써 위협하는 표적에 대해 아군의 무기를 적절히 할당하는 문제이다. 이는 매우 시간 제약적인 문제로써 가능한 단 시간 내에 적절한 무기할당 및 대응을 도출하여야 하지만 매우 유동적인 전장 환경에서 이는 쉽지 않다. 최근 이와 같이 높은 복잡성을 가진 빅데이터를 기반으로 하는 응용에서 분산 처리 시스템을 활용한 분석 및 처리에 대한 연구가 큰 주목을 받고 있고, 대표적인 프레임워크로써 맵리듀스가 활용되고 있다. 그러나 맵리듀스는 전체 데이터에 대한 일괄 처리 기능만을 제공하므로 동적 데이터에 대한 유전자 알고리즘의 수행이 쉽지 않고, 최종 결과 도출에 여전히 많은 시간을 필요로 한다. 본 논문에서는 맵리듀스 환경에서 유전자 알고리즘 기반의 동적 무기할당 알고리즘을 제안한다. 제안하는 기법에서는 맵리듀스 환경에서 유전자 알고리즘의 연속적인 데이터 처리의 지원을 위해 새롭게 추가 및 제거된 무기-표적 데이터만을 분석하고, 이를 기 분석 완료된 데이터와 결합하여 최종 결과를 도출한다. 이를 통해, 신속한 동적무기할당의 수행이 가능하다.

  • PDF

아웃소싱 데이터베이스에서 집계 질의를 위한 효율적인 인증 기법 (Efficient Authentication of Aggregation Queries for Outsourced Databases)

  • 신종민;심규석
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.703-709
    • /
    • 2017
  • 아웃소싱 데이터베이스란 데이터 관리 및 질의 처리 등의 계산량이 많은 작업을 제 3자 서버에 위탁하는 것이다. 이를 통해 데이터 소유자는 비싼 인프라를 구축하지 않고 빅데이터를 관리할 수 있으며 여러 사용자로부터 받는 질의들을 빠르게 처리할 수 있다. 하지만 보안 위협이 항상 존재하는 네트워크의 특성상 제 3자 서버를 완전히 신뢰하기 어렵고, 그 서버가 처리한 결과도 신뢰하기 어렵다. 이처럼 신뢰할 수 없는 서버가 처리한 질의 결과가 정확한지 확인하는 것을 질의 인증이라고 하며 구간 질의, kNN 질의, 함수 질의 등 다양한 질의에 대한 인증 기법들이 연구되었다. 하지만 빅데이터 분석에 있어 활용도가 높은 집계 질의에 대한 깊이 있는 질의 인증 연구는 이루어지지 않았으며 기존 연구는 고차원이거나 서로 다른 값이 많은 데이터에 대해 비효율적이다. 본 연구에서는 집계 질의 인증을 위한 자료구조를 제안하고 이를 활용한 효율적인 증거 생성 방법과 증명 방법을 제안한다. 그리고 데이터의 상이 값 수, 레코드 개수, 차원 크기 등을 변경하며 진행한 실험 결과를 통해 제안한 기법의 성능이 우수함을 보였다.

점진적 빅데이터 학습기반의 전자저널 구독가치 큐레이션 서비스 (Journal Subscription Value Curation Service Based on Incremental Big Data Learning)

  • 이정원;진성일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.409-410
    • /
    • 2019
  • 점진적 빅데이터 학습 기반의 전자저널 구독가치 큐레이션 서비스는 대용량의 학술정보 처리환경을 하드웨어 기반에서 소프트웨어 기반으로 데이터를 학습함에 있어 학습 소요시간 및 메모리 부족 문제 등을 해결하기 위해 널리 사용하는 자질축소 기법에 의존하지 않고 대량의 데이터를 자유롭게 학습하고 증분 데이터 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법이다. 학술정보의 논문요약과 참고문헌의 데이터 수집 정제 분류 저장 분석을 통해 활용할 수 있는 지표를 생성하여 도서관 학교 공공기관 연구기관 등에 제공하여 기관에서 구독하고 있는 학술지가 연구에 얼마나 활용되고 있는지를 판단하는 정보 가용성을 활용한 양질의 정보원을 확보하여 불필요한 저널 구독을 중단하고 연구자가 요구하는 품질 좋은 학술정보를 제공할 수 있는 서비스로 일반적인 학술문헌 이용도 평가방법과 달리 구독 가치에 대한 지표를 제공하는 큐레이팅 방법이다.

  • PDF