• Title/Summary/Keyword: 빅데이터 기법

Search Result 785, Processing Time 0.031 seconds

Nearest Neighbor-based Pre-processing Scheme for Advanced Skyline Query (최근접 이웃 탐색 기반의 향상된 스카이라인 질의를 위한 전처리 기법)

  • Kim, Ji-Hyun;Lee, SangMin;Jeon, Hyeongjun;Jin, ChangGyun;Kim, JiYunm;Kwon, Jin youngm;Kim, Jongwanm;Oh, Dukshinm
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.420-423
    • /
    • 2020
  • 스카이라인 질의는 객체의 속성을 기준으로 사용자의 선호에 적합한 대상을 탐색하는 기법이다. 기존 스카이라인 질의는 일괄처리 방식으로 탐색 결과를 반환하지만 대화형 앱이나 모바일 환경과 같이 잦은 위치이동 발생 시 일괄처리 방식으로 스카이라인 질의 결과를 신속하게 받기 어렵다. 최근접 이웃(Nearest Neighbor) 알고리즘은 사용자와 상호 작용이 필요한 대화형 앱에서 실시간으로 선호 객체를 탐색하여 사용자에게 전달함으로써 객체의 반환 속도를 향상시켰다. 그러나 최근접 이웃 알고리즘은 객체 탐색 과정에서 반복적인 비교 연산을 수행하여 불필요한 탐색 시간이 소요된다. 본 논문은 대화형 앱에서 신속한 스카이라인 결과를 산출하고자 연산 대상 객체의 범위를 축소함으로써 최근접 이웃 스카이라인 질의 알고리즘의 성능을 향상시킨 전처리 기법을 제안한다. 데이터 객체는 최대 40,000 개의 실험에서 제안 기법은 최근접 이웃 알고리즘보다 50% 빠른 성능을 나타내어 본 연구의 가용성이 증명되었다.

차세대 클라우드 저장 시스템을 위한 소실 복구 코딩 기법 동향

  • Kim, Jeong-Hyeon;Park, Jin-Su;Park, Gi-Hyeon;Nam, Mi-Yeong;Song, Hong-Yeop
    • Information and Communications Magazine
    • /
    • v.31 no.2
    • /
    • pp.105-111
    • /
    • 2014
  • 클라우드 컴퓨팅과 빅데이터 시대의 개막으로 클라우드에 저장되는 데이터가 급속도로 증가함에 따라 최근 클라우드 컴퓨팅의 주요한 요소로 클라우드 저장 시스템이 주목받고 있다. 클라우드 저장 시스템은 크게 두 가지 목적에 의해 동작한다. 첫 번째는 사용자에게 데이터를 소실 없이 정확하게 전달해주는 것이고, 두 번째는 네트워크 상에서 소실된 데이터를 복구해 내는 것이다. 데이터 소실은 분산 노드 내 장비의 결함, 소프트웨어 업데이트 등과 같은 요인에 의해 발생하는데, 이와 같은 데이터 소실에 대응하기 위해 소실 복구 코딩 기법을 사용한다. 본 고에서는 클라우드 저장 시스템의 요구사항들을 토대로 현재 클라우드 저장 시스템에 사용되는 다양한 코딩 기법을 살펴보고 차세대 클라우드 저장 시스템을 위한 코딩 기법에 대해 논의해본다.

Analysis of chunk server load balancing and suggest an efficient technique on Distributed FileSystem (분산 파일시스템 청크서버 로드밸런싱 기법 비교분석 및 제안)

  • Choi, Kyu-Pile;Lee, Se-Ho;Eom, Young-Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.115-117
    • /
    • 2013
  • 빅데이터 시대가 도래하고 네트워크가 발달함에 따라 다수의 클라이언트와 서버가 통신하며 사용하는 데이터량이 급증하고 있다. 과도한 데이터 부하를 해결하는 방법 중 여러 서버로 부하를 분산하는 기법을 로드밸런싱이라고 하며 이 기법에 따라 데이터가 서버에 분산되는 방식이 달라진다. 본 논문에서는 현재 사용중인 다양한 로드밸런싱 기법에 대해 분석하고 보다 효율적인 기법을 제안한다. 그리고 오픈소스 기반의 분산 파일 시스템 중 하나인 Moose File System에 제안한 기법을 적용한 경우의 효과에 대해 논의한다.

RDBMS based Efficient Method for Shortest Path Searching over Large Graphs using K-degree Index Table (대용량 그래프에서 k-차수 인덱스 테이블을 이용한 RDBMS 기반의 효율적인 최단 경로 탐색 기법)

  • Hong, Jihye;Han, Yongkoo;Lee, Young-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1186-1188
    • /
    • 2013
  • 최근 소셜 네트워크의 등장과 기술의 발달로 인해 빅 데이터가 등장하였다. 특히, 소셜 네트워크나 웹 데이터 등과 같은 빅 데이터를 이용하는 애플리케이션이 많아지고 있다. 이러한 그래프 데이터는 크기가 매우 방대하여 인-메모리 기법을 통해 연산하기 어렵다. 최근 대용량 그래프 상에서 효율적인 최단 경로 탐색을 위해 부분 최단 경로를 저장하는 인덱스 테이블을 활용한 기법이 제안되었으나, 인덱스 참조율을 고려하지 않아 비효율적이다. 본 논문에서는 인덱스 참조율이 높은 노드의 차수를 이용한 k-차수 인덱스 테이블을 이용한 효율적인 최단 경로 탐색 기법을 제안한다. 실험을 통하여 제안하는 기법이 거리 기반 인덱스를 이용한 기존의 기법에 비해 약 12% 정도 성능이 향상됨을 보였다.

Crowdsourcing based Local Traffic Event Detection Scheme (크라우드 소싱 기반의 지역 교통 이벤트 검출 기법)

  • Kim, Yuna;Choi, Dojin;Lim, Jongtae;Kim, Sanghyeuk;Kim, Jonghun;Bok, Kyoungsoo;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.4
    • /
    • pp.83-93
    • /
    • 2022
  • Research is underway to solve the traffic problem by using crowdsourcing, where drivers use their mobile devices to provide traffic information. If it is used for traffic event detection through crowdsourcing, the task of collecting related data is reduced, which lowers time cost and increases accuracy. In this paper, we propose a scheme to collect traffic-related data using crowdsourcing and to detect events affecting traffic through this. The proposed scheme uses machine learning algorithms for processing large amounts of data to determine the event type of the collected data. In addition, to find out the location where the event occurs, a keyword indicating the location is extracted from the collected data, and the administrative area of the keyword is returned. In this way, it is possible to resolve a location that is broadly defined in the existing location information or incorrect location information. Various performance evaluations are performed to prove the superiority and feasibility of the proposed scheme.

Digital forensic investigation of MongoDB (MongoDB에 대한 디지털 포렌식 조사 기법 연구)

  • Yoon, Jong-Seong;Jung, Doo-Won;Lee, Sang-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.658-661
    • /
    • 2013
  • 최근 데이터의 대용량화와 급격한 증가로 인해 빅데이터 처리를 위한 NoSQL DBMS 사용이 증가하고 있다. 그러나 기존 관계형 DBMS에 비해 NoSQL DBMS에 대한 포렌식 조사 기법에 대한 연구는 거의 없는 실적이다. 따라서, 본 논문에서는 NoSQL DBMS 중 가장 활발히 사용되고 있는 MongoDB에 대한 디지털 포렌식 조사 절차와 기법에 대해 연구하였다.

The Sensing Model of Disaster Issues based on Relevance to Disaster from Social Big Data (재난 관련도에 기반한 소셜 빅데이터에서의 재난이슈 탐지 모델)

  • Choi, Seon-Hwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.829-832
    • /
    • 2014
  • 최근 사람 간 소통채널인 소셜미디어는 매스미디어 중심의 정보유통의 흐름을 바꿔놓으며 기업, 공공기관 등에서 가치를 찾는 핵심자원으로 관심을 받고 있다. 재난관리도 기존의 정부중심 대응에서 벗어나 소셜미디어, 즉 소셜 빅데이터를 활용한 국민 참여형 재난관리의 필요성이 대두되고 있다. 본 논문에서는 재난관리를 위해 실시간 소셜 빅데이터를 모니터링하는 시스템인 국립재난안전연구원의 소셜 빅보드(Social Big Board)를 소개하고, 이 시스템의 재난이슈 탐지의 정확성 향상을 위해 새롭게 개발된 재난유형별 관련도에 기반한 재난이슈 탐지기법을 설명하며 실험 및 평가결과를 제시하고자 한다.

A Study of Big data-based Machine Learning Techniques for Wheel and Bearing Fault Diagnosis (차륜 및 차축베어링 고장진단을 위한 빅데이터 기반 머신러닝 기법 연구)

  • Jung, Hoon;Park, Moonsung
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.19 no.1
    • /
    • pp.75-84
    • /
    • 2018
  • Increasing the operation rate of components and stabilizing the operation through timely management of the core parts are crucial for improving the efficiency of the railroad maintenance industry. The demand for diagnosis technology to assess the condition of rolling stock components, which employs history management and automated big data analysis, has increased to satisfy both aspects of increasing reliability and reducing the maintenance cost of the core components to cope with the trend of rapid maintenance. This study developed a big data platform-based system to manage the rolling stock component condition to acquire, process, and analyze the big data generated at onboard and wayside devices of railroad cars in real time. The system can monitor the conditions of the railroad car component and system resources in real time. The study also proposed a machine learning technique that enabled the distributed and parallel processing of the acquired big data and automatic component fault diagnosis. The test, which used the virtual instance generation system of the Amazon Web Service, proved that the algorithm applying the distributed and parallel technology decreased the runtime and confirmed the fault diagnosis model utilizing the random forest machine learning for predicting the condition of the bearing and wheel parts with 83% accuracy.

An Efficient Log Data Management Architecture for Big Data Processing in Cloud Computing Environments (클라우드 환경에서의 효율적인 빅 데이터 처리를 위한 로그 데이터 수집 아키텍처)

  • Kim, Julie;Bahn, Hyokyung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.2
    • /
    • pp.1-7
    • /
    • 2013
  • Big data management is becoming increasingly important in both industry and academia of information science community. One of the important categories of big data generated from software systems is log data. Log data is generally used for better services in various service providers and can also be used as information for qualification. This paper presents a big data management architecture specialized for log data. Specifically, it provides the aggregation of log messages sent from multiple clients and provides intelligent functionalities such as analyzing log data. The proposed architecture supports an asynchronous process in client-server architectures to prevent the potential bottleneck of accessing data. Accordingly, it does not affect the client performance although using remote data store. We implement the proposed architecture and show that it works well for processing big log data. All components are implemented based on open source software and the developed prototypes are now publicly available.