• 제목/요약/키워드: 빅데이터플랫폼

검색결과 483건 처리시간 0.025초

Apache Kudu와 Impala를 활용한 Lambda Arch tecture 설계 (Lambda Architecture Design using Apache Kudu and Impala)

  • 황윤영;이필원;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.60-62
    • /
    • 2020
  • 데이터의 양은 기술의 발전으로 발생하는 크게 증가하였고 다양한 빅데이터 처리 플랫폼이 등장하고 있다. 이 중 가장 널리 사용되고 있는 품랫폼이 Apache 소프트웨어 재단에서 개발한 Hadoop이며, Hadoop은 IoT 분야에도 사용된다. 그러나 기존에 Hadoop 기반 IoT 센서 데이터 수집 분석 환경은 Hadoop의 코어 프로젝트인 HDFS의 Small File로 인한 네임노드의 과부하 문제와 Import된 데이터의 Update나 Delete가 불가능하다는 문제가 있다. 본 논문에서는 Apache Kudu와 Impala를 활용해 Lambda Architecture를 설계한다. 제안하는 Architecture는 IoT 센서 데이터를 Cold-Data와 Hot-Data로 분류해 각 성격에 맞는 스토리지에 저장하고 Batch를 동해 생성된 Batch-View와 Apache Kudu와 Impala를 통해 생성된 Real-time View를 활용해 기존 Hadoop 기반 IoT 센서 데이터 수집 분석 환경의 문제를 해결하고 사용자가 분석된 데이터에 접근하는 시간을 단축한다.

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.

OTT 플랫폼 비즈니스 모델 개발을 통한 OTT 사업자 경쟁력 분석 (An analysis of OTT operator competitiveness via OTT platform business model development)

  • 김소현;임춘성
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.303-317
    • /
    • 2021
  • 본 연구는 OTT 산업에 특화된 분석틀을 개발하여 OTT 사업자들의 경쟁력 분석을 하는 데에 목적이 있다. 비즈니스 모델, 플랫폼 비즈니스 모델, OTT 특성에 관한 기존연구를 바탕으로 OTT 플랫폼 비즈니스 모델 프레임워크를 개발하였고 관련 자료, 문헌, 내부자료의 데이터를 토대로 사례 분석을 하여 국내 OTT 사업자들이 나아가야 할 방향을 제시하였다. 연구 결과, 국내 OTT 사업자들은 발전된 AI와 빅데이터 기술을 활용해 오리지널 콘텐츠를 제작하고 플랫폼의 인프라 및 서비스의 질을 향상해야 한다. 또한, 보유한 콘텐츠를 맞춤화된 추천 시스템을 통해 충분히 활용할 수 있어야 하고 이용자들이 선호할 해당 플랫폼만의 오리지널 콘텐츠에 아낌없는 투자가 지속되어야 한다. 본 연구는 급변하는 미디어 산업 속에서 OTT 사업자들이 자신만의 경쟁전략을 수립할 수 있는 분석틀을 제공하고 사례 적용을 통해 국내 OTT 사업자들이 나아가야 할 방향성을 제시했다는 점에서 의의가 있다.

빅데이터 분석을 통해 본 한국 위키피디아의 지식형성 과정에 관한 연구 (A Study on the Knowledge Formation Process of Wikipedia in Korea through Big Data Analysis)

  • 이정연;전수현
    • 정보관리학회지
    • /
    • 제37권2호
    • /
    • pp.171-195
    • /
    • 2020
  • 본 연구는 대표적인 온라인 협업커뮤니티인 한국 위키피디아의 초기 2002년부터 2019년까지의 편집로그 빅데이터를 해체하여 공동협업과정을 시계열적으로 분석하였다. 공개된 오픈데이터의 표준화된 XML 문서편집 기록을 활용해 Phython과 R을 이용하여 분석 요소를 추출하여 이를 활용하였다. 연구 분석 결과 한국 위키피디아 편집자의 참여 방법, 데이터 내용의 특징, 문서 생성의 추이 등을 설명할 수 있었다. 소수 편집자들의 적극적 활동과 대다수 편집자들의 느슨한 참여도 밝혀졌으며, 온라인에서도 나타나는 사회 문화적 특징이 한국 위키피디아에서도 나타났다. 집단지성을 지속화시키기 위해서는 새롭고 다양한 외부자원이 필수인데 신규 진입자들이 공동편집 커뮤니티에 안착하기 위한 다각적인 고려가 필요하며, 관리자 그룹의 고착화를 탈피하여 순환구조를 통한 개방성이 필요함을 제언하였다.

클라우드 기반 한국형 스마트 온실 연구 플랫폼 설계 방안 (Research-platform Design for the Korean Smart Greenhouse Based on Cloud Computing)

  • 백정현;허정욱;김현환;홍영신;이재수
    • 생물환경조절학회지
    • /
    • 제27권1호
    • /
    • pp.27-33
    • /
    • 2018
  • 본 연구는 농업 및 정보 통신 기술의 융합을 기반으로 국내외 스마트 농장 서비스 모델을 검토하고 한국의 스마트 온실을 개선하기 위해 필요한 다양한 요인을 조사하기 위해 수행되었다. 국내 스마트 온실의 작물 생육모델 및 환경모델에 관한 연구는 제한적이었고, 연구를 위한 인프라를 구축하는 데는 많은 시간이 필요하다. 이러한 문제의 대안으로 클라우드 기반 연구 플랫폼이 필요하다. 제안된 클라우드 기반 연구 플랫폼은 통합 데이터, 생육환경모델, 구동기 제어 모델, 스마트 온실 관리, 지식 기반 전문가 시스템 및 농가 대시보드 모듈을 통해 통합적 데이터 저장 및 분석을 위한 연구 인프라를 제공한다. 또한 클라우드 기반 연구 플랫폼은 작물 생육환경, 생산성 및 액추에이터 제어와 같은 다양한 요인들 간의 관계를 정량화하는 기능을 제공하며, 연구자는 빅데이터, 기계 학습 및 인공지능을 활용하여 작물 생육 및 생장환경 모델을 분석할 수 있다.

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법 (Processing Method of Mass Small File Using Hadoop Platform)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.401-408
    • /
    • 2014
  • 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

시스템 요구사항 분석을 위한 순환적-점진적 복합 분석방법 (An Integrated Method of Iterative and Incremental Requirement Analysis for Large-Scale Systems)

  • 박지성;이재호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.193-202
    • /
    • 2017
  • 인공지능 기반 지능형 시스템의 개발에는 일반적으로 신뢰성 높은 대규모 지식처리, 지식의 통합과 인간 수준의 이해, 지식기반 인간-기계협업, 전문가 수준의 지능 서비스 등의 효과적 통합이 요구된다. 특히 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발을 목표로 하고 있는 과제의 일환으로 개발 중인 WiseKB 통합 플랫폼은 대용량 지식을 저장하여 추론과정을 통한 질의 및 응답이 가능한 대규모 지식 베이스 역할을 수행하며 이를 위하여 지식표현, 자원통합, 지식저장소, 지식베이스, 복합추론, 지식학습 등의 요소기술들의 효과적 통합이 필수적이다. 통합 플랫폼의 효율적 통합을 위해서는 정확한 요구사항 분석이 중요하며, 이는 시스템의 특성을 고려한 적절한 요구사항 분석 방법론의 적용이 필요하다. 대표적인 요구사항 분석 방법인 순차적 방법론과 순환-점진적 방법론은 WiseKB와 같은 시스템의 대규모 복합적 개발 특성을 고려할 때 다양한 요구사항을 체계적으로 파악하기에 한계가 있다. 본 논문에서는 이러한 한계를 개선하고자 순차적 방법과 순환-점진적 방법론을 결합해 각 단점을 보완하고 대규모 복합적 특성을 갖는 시스템의 요구사항 분석을 효율적으로 진행할 수 있는 통합 방법론을 제시하고, 실제 적용을 통해 그 효과를 보인다.

ICT 기반의 스마트팜 설계 (ICT-based Smart Farm Design)

  • 신봉희;전혜경
    • 융합정보논문지
    • /
    • 제10권2호
    • /
    • pp.15-20
    • /
    • 2020
  • 본 논문에 ICT 기반의 스마트 팜 설계를 제안한다. 현재 전체 인구 감소에 따라 자연적으로 농촌인구의 감소도 필연적으로 도래하고 있다. 날로 올라가는 인건비 증가에 따른 각 농가의 경제적 부담은 점점 커져간다. 이에 대한 해결책으로 컴퓨팅 자원을 활용한 스마트팜 보급의 필요성이 대두되고 있다. 제안된 시스템은 4차 산업혁명에서 떠오르고 있는 ICT 기술을 활용한다. 방대한 양의 데이터 수집을 위해 빅데이터 분석을 활용하고 수집된 자료의 관리와 효율적인 서비스 제공을 위한 플랫폼을 제안한다. 제안한 플랫폼은 SOA 서비스 레이어, 미들웨어 레이어, 리소스 풀 레이어, 물리적 리소스 레이어로 구성된다. 각 레이어가 갖고 있는 하부 구성요소를 이용하여 ICT 기반의 스마트팜 서비스는 사용자 입장에서 필요한 기능만을 서비스로 제공하기 때문에 비용을 낮출 수 있고 설치 및 관리가 용이할 것으로 여겨진다.

스트리밍 빅데이터 처리 시스템 설계 (A Design on a Streaming Big Data Processing System)

  • 김성숙;김경태;박기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.