• 제목/요약/키워드: 지역 데이터 처리

검색결과 834건 처리시간 0.029초

Hadoop 플랫폼을 이용한 교통데이터 기반 사용자 경로탐색 방법론 (A Traffic Data based User's Route Exploring Mechanism using Hadoop Platform)

  • 조원희;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.176-179
    • /
    • 2013
  • 본 연구는 최근 활성화된 스마트폰 내비게이션의 교통정보를 이용 시 상대적으로 품질이 취약한 지방지역의 빠른길 및 통행시간 정확도를 개선하는 방안에 대한 연구이다. 본 연구에서는 Hadoop기술을 이용하여 교통데이터에 대한 방대한 양의 데이터를 분석 처리한다. 특히, 실시간 교통정보가 제대로 수집되지 않는 지역의 도로 속도 정보에 대한 개선 방안으로 고객 단말로부터 올라오는 위치 데이터를 실시간으로 수집하여 전자지도 기본 속성값을 실시간 통계 데이터로 교체 반영하여 상대적으로 취약한 지방지역의 경로 품질 및 경로 탐색을 개선하는 방안을 제시하였다. 단말로부터 올라오는 많은 양의 GPS 위치정보등 대용량 데이터 처리를 위해 오픈소스프로젝트인 Hadoop플랫폼 환경에서 빅데이터 처리용 오픈소스를 활용하여 고가의 RDBMS를 대체하는 효과와 시간 단축의 효과를 기대할 수 있게 되었다.

공간 데이터 웨어하우스에서 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법 (The Extended Cube Tree for Distribution Area Query Processing in Spatial Data Warehouses)

  • 최준호;유병섭;박순영;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.76-78
    • /
    • 2004
  • 최근 원격 탐사 시스템 등이 발전함에 따라 축적된 공간 데이터의 양이 증가했고 이를 공간 데이터 웨어하우스 분야에서 의사 결정에 활용하는 방안이 중요한 이슈가 되고 있다. 기존의 활용 방법은 주어진 영역을 기준으로 공간 범위-집계를 검색하는 형태였지만, 최근 특정 성향 분석을 위해 분포 질의를 요청하고 그 결과 지역에 대한 공간 분석을 통한 의사결정의 필요성이 대두되었다. 하지만 기존의 처리 방법으로 비공간 질의를 처리하기 위해서는 모든 데이터를 검색해야 하므로 분포 질의를 처리하기 위한 비용이 증가하게 된다. 본 논문에서는 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법을 제안한다. 제안하는 기법은 분석하고자 하는 사실 테이블의 비공간 속성을 큐브 트리의 키로 사용하고, 이 속성과 관련된 공간 데이터의 포인터 집합을 관리한다. 본 논문의 제안 기법을 공간 데이터 웨어하우스에 적용함으로써 비공간 속성 질의를 통해 공간 객체를 결과로 요청하는 형태의 질의를 지원할 수 있게 되며 사실 컬럼을 계층화시킴으로서 사용자에게 좀 더 다각적인 분석을 지원할 수 있다.

  • PDF

분산 환경에서 통합 XQuery 질의 처리를 위한 조인과 통신비용에 대한 연구 (A Study of Join and Communication Cost for processing Integrated XQuery queries over Distributed Environment)

  • 최성일;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.59-63
    • /
    • 2007
  • XML은 웹 상에서 정보교환의 표준이며, 이종의 데이터를 보유하고 있는 지역 시스템들은 XML View를 이용하여 정보를 공개한다. 사용자는 XML을 위한 표준 질의어인 XQuery를 사용하여 분산된 XML View들을 대상으로 통합 XQuery질의를 생성할 수 있다. 이렇게 생성된 통합 XQuery질의는 자연스럽게 다른 지역시스템들 사이의 조인을 포함 할 수 있다. 조인은 비용이 많이 드는 연산자이므로 조인을 효율적으로 처리하는 것은 전체 질의의 성능에 큰 영향을 준다. 그러므로 조인을 효율적으로 처리하기 위한 비용을 결정하는 연구가 중요하다고 할 수 있다. SQL에서는 이와 같은 연구들이 많이 존재하며, 분산 환경에서의 조인을 효율적으로 처리하기 위해 크게 두 가지 비용을 고려한다. 그 중 하나는 지역시스템 내에서 조인을 처리하는 조인비용이며, 나머지 하나는 조인을 수행하기 위하여 다른 지역시스템으로 데이터를 전송하는 통신비용이다. 이 두 비용은 분산 조인을 처리하기 위한 중요한 요소이므로[6,7,8] 이를 측정하는 것은 통합 질의 처리를 위해서 필요한 연구라 할 수 있다. 그러나 테이블 구조의 데이터를 검색하기 위한 SQL 의 방법들을 구조적인 XML 데이터를 검색하기 위한 XQuery질의를 위해서 그대로 사용하는 것은 어려운 일이다. 본 논문에서는 분산 환경에서 통합 XQuery질의의 조인을 효율적으로 처리하기 위해 조인비용과 통신비용을 측정하는 방법을 제안한다. 본 논문의 기여는 앞서 기술한 문제점을 해결하여, XQuery 질의의 조인을 효율적으로 처리하기 위한 비용을 측정할 수 있도록 한다.

  • PDF

빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템 (Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing)

  • 김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

범위 질의 인덱싱을 이용한 스트림 데이터의 다중 질의처리 기법 (A Multi-dimensional Query Processing Scheme for Stream Data using Range Query Indexing)

  • 이동언;이윤석
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.69-77
    • /
    • 2009
  • 스트림 서비스 환경에서는 지속적으로 입력되는 막대한 양의 데이터에 대해 원하는 조건을 탐색하는 실시간 질의처리가 요구된다. 기존의 R-tee기반 질의처리 기술은 각 이벤트에 대해 트리 전체에 대해 동일한 탐색과정을 반복해야 하므로 이를 효율적으로 감당할 수 없었다. 한편 센서 측정값을 비롯한 대부분의 스트림 데이터는 매우 높은 지역성을 가지며 이를 활용하여 탐색 공간을 크게 줄일 수 있다. 따라서 본 연구에서는 스트림 데이터의 지역성을 활용하여 스트림 환경에 적합한 질의처리 기법을 제안하였다. 또한 이 프레임웍을 활용하여 스트림 환경에서 어플리케이션이 요구하는 다양한 질의처리 서비스를 개발할 수 있을 것으로 기대된다. 본 연구에서 구현한 프로토타입 시스템을 스트림 환경에 적용해 얻은 실험 결과를 통해, 스트림 환경에서 기존질의처리 기법보다 더 적합하고 효율이 크게 개선됨을 확인할 수 있었다.

맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법 (A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce)

  • 손인국;류은경;박준호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권11호
    • /
    • pp.21-27
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리 프레임워크로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스 에서의 태스크 할당은 데이터의 지역성(locality)를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스 에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 지역성으로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 지역성을 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 감소하는 것을 확인하였다.

예측로딩을 통한 온라인게임 부하 감소 기법 (A Technique for Network Load Decrease by Predicated Loading Method)

  • 김용오
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.237-240
    • /
    • 2005
  • 온라인 게임의 한 분야인 MMORPG 는 하나의 가상 공간에서 많은 캐릭터들이 자신의 역할을 수행하면서 게임을 즐기는 장르다. 많은 캐릭터들이 동시에 이동을 하거나 캐릭터가 대량으로 밀집된 지역으로 새로운 캐릭터가 이동해 올 경우에 생기는 부하가 클라이언트의 게임 프레임에 영향을 준다. 본 논문에서는 다른 지역으로 이동하면서 생기는 많은 데이터들을 미리 예측 로딩하여 지역과 지역간의 이동 시 소요되는 데이터 로딩에 따른 부하를 감소시켜 안정적인 온라인게임 플레이 환경을 유지시키는 방안을 제시한다

  • PDF

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.

데이터 값 예측기를 위한 값 지역성과 공간 지역성 혼합 (Combining Value and Spatial Locality for Value Prediction)

  • 이종찬;최재혁;김정진;최상방
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.928-930
    • /
    • 2004
  • 명령어간의 데이터 종속 관계는 동적으로 스케줄 되는 파이프라인 프로세서의 병렬 처리에 중요한 장애로 남아 있다. 마이크로프로세서의 데이터 종속에 기인한 파이프라인 대기 시간을 줄일 대표적인 두 가지 방법으로 생성 값의 지역성에 기초를 둔 데이터 값 예측과 공간 지역성에 기반으로 예측하는 주소 예측이 있다. 본 논문에서는 성능 개선을 위해 이 두 가지 기술을 독립적으로 수행하는 것 보다 혼합한 형태의 예측이 더 좋은 예측 정확성이 나타나는 것을 보인다.

다중 서버 구조를 갖는 Web 기반 음성 수집 시스템

  • 홍문기;강선미;장문수
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 2003년도 제19회 학술대회
    • /
    • pp.230-232
    • /
    • 2003
  • 음성에 관련된 연구분야에 있어서 음성 데이터 수집의 중요성은 매우 크다. 개발된 인식기나 분석기의 성능이 좋다 하더라도 실험에 사용된 음성 데이터의 질과 양에 따라서 실험 결과를 확정짓기가 어려운 점이 있다. 대개의 경우 음성 수집은 오프라인으로 이루어지는데, 실험에서 요구되는 특정 수집자에 대해서 일정 기간과 정해진 장소에서 반복 수집하는 것은 어려움이 많이 따른다. 그러므로 본 연구에서는 Web을 이용하여 음성 데이터 수집자로 하여금 다양한 시간과 장소에서 자유롭게 음성을 수집할 수 있도록 하였다. 이에 대하여 수집된 음성 데이터의 크기가 커짐에 따른 통신상에서 종종 발생하는 문제점을 개선하려는 목적으로 다중 서버를 두어 수집된 데이터는 지역 서버에 일단 저장되었다가 적절한 상황에서 메인 서버로 자동 전송하는 시스템을 구축하였다. 본 시스템은 서로 다른 실험에서 수집되는 데이터를 수집 지역서버를 지정해 줌으로서 수집자가 원하는 특정 지역 서버에서 별도로 관리할 수 있도록 구성되어 있다. 시간, 위치의 제약 없이 인터넷이 연결된 장소에서는 음성을 수집할 수 있고, 웹상 ActiveX 프로그램을 제공함으로써 일관된 끝점처리 및 잡음처리 기능을 반영할 수 있다. 또한 다양한 응용에 적절한 수집기의 인터페이스를 관리자 모드에서 변경하여 사용할 수 있도록 함으로서 넓은 층에서의 활용도를 높였다. (중략)

  • PDF