• 제목/요약/키워드: and Sorting algorithms

검색결과 97건 처리시간 0.022초

매개변수 환경설정에 따른 타조의 외부합병정렬 성능 연구 (External Merge Sorting in Tajo with Variable Server Configuration)

  • 이종백;강운학;이상원
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.820-826
    • /
    • 2016
  • 거대한 데이터로부터 가치 있는 정보를 추출해 내는 빅데이터 기술의 필요성은 나날이 커지고 있다. 빅데이터 분석을 위해 사용되는 하둡 시스템은 맵리듀스를 통해 데이터를 처리하였으나, 맵리듀스 프레임워크는 코드 재사용성의 한계, 질의 최적화 기술의 부재 등의 단점을 보인다. 이를 극복하기 위해 SQL-on-Hadoop이라 불리는 하둡 기반의 SQL 질의 처리 기술이 주목받고 있다. SQL-on-Hadoop 기술 중 타조(Tajo)는 국내 개발진이 주축이 되어 개발되었다. 타조는 데이터 분석을 위해 외부합병정렬 알고리즘을 사용하며, 정렬 연산에 영향을 주는 매개변수로 정렬 버퍼 사이즈와 팬-아웃을 가진다. 본 논문은 타조의 정렬 연산에 영향을 미치는 매개변수인 정렬 버퍼 사이즈와 팬-아웃 값에 따른 정렬의 성능 차이를 보인다. 또한 측정한 성능에 대하여 정렬 버퍼 사이즈가 증가함에 따른 CPU 캐시 미스의 비율 증가, 팬-아웃에 따른 합병 단계 수의 변화가 성능 차이의 원인임을 보인다.

난이도-거리 상관관계 기반의 문제 인스턴스 공간 분석 (Analyzing Problem Instance Space Based on Difficulty-distance Correlation)

  • 전소영;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권4호
    • /
    • pp.414-424
    • /
    • 2012
  • 문제 인스턴스 탐색 혹은 자동 생성은 알고리즘 분석 및 테스트에 적용될 수 있으며, 하드웨어, 소프트웨어 프로그램, 계산 이론 등 다양한 수준에서 연구되어온 주제이다. 본 연구에서는 해(解) 공간에 사용된 목적값-거리 상관관계 분석을 문제 인스턴스 공간에 적용하였다. 문제 인스턴스의 목적값은 문제에 따라 알고리즘의 수행 시간과 최적해를 잘 구하는 정도로 정의하였다. 이러한 정의는 문제 인스턴스의 난이도로 해석할 수 있다. 상관관계는 3가지 측면에서 분석하였다: 첫째, 알고리즘과 거리 함수에 따른 상관관계 차이, 둘째, 알고리즘의 개선 전/후의 상관관계 변화, 셋째, 문제 인스턴스 공간과 해당 문제의 해 공간 사이의 연관성. 본 논문은 문제 인스턴스 공간에 상관계수 분석이 어떻게 적용될 수 있는지 보여주며, 문제 인스턴스 공간 분석을 본격적으로 다루는 첫번째 시도이다.

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘 (Sort-Based Distributed Parallel Data Cube Computation Algorithm using MapReduce)

  • 이수안;김진호
    • 전자공학회논문지
    • /
    • 제49권9호
    • /
    • pp.196-204
    • /
    • 2012
  • 최근 많은 응용 분야에서 대규모 데이터에 대해 온라인 다차원 분석(OLAP)을 사용하고 있다. 다차원 데이터 큐브는 OLAP 분석에서 핵심 도구로 여긴다. 본 논문에서는 맵리듀스 분산 병렬 처리를 이용하여 효율적으로 데이터 큐브를 계산하는 방법을 연구하고자 한다. 이를 위해, 맵리듀스 프레임워크에서 데이터 큐브 계산 방법으로 잘 알려진 PipeSort 알고리즘을 구현하는 효율적인 방법에 대해서 살펴본다. PipeSort는 데이터 큐브의 한 큐보이드에서 동일한 정렬 순서를 갖는 여러 큐보이드를 한 파이프라인으로 한꺼번에 계산하는 효율적인 방식이다. 이 논문에서는 맵리듀스 프레임워크에서 PipeSort의 파이프라인을 구현한 네 가지 방법을 20대의 서버에서 수행하였다. 실험 결과를 보면, 고차원 데이터에 대해서는 PipeMap-NoReduce 알고리즘이 우수한 성능을 보였으며, 저차원 데이터에 대해서는 Post-Pipe 알고리즘이 더 우수함을 보였다.

가우시안 잡음 제거를 위한 부분 집합 평균 메디안 방법에 관한 연구 (A study on the subset averaged median methods for gaussian noise reduction)

  • 이용환;박장춘
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.120-134
    • /
    • 1999
  • 영상 처리는 영상 획득, 전처리, 영역화, 인식의 단계를 거치게 되며, 영상은 데이터 전송과정이나 테이터의 획득과정 및 데이터의 처리과정에서 잡음에 의해 쉽게 훼손된다. 이러한 과정에서 발생되는 잡음으로 대표적인 것이 임펄스 잡음과 가우시안 잡음이다. 이러한 잡음을 제거하는 기존의 필터링 방법들 중에는 공간적인 처리 기법으로 평균필터, 메디안필터, 가중필터, cheikh 필터 그리고 이규철 필터 등이 있었지만 많은 연구들이 임펄스 잡음의 제거에 치우쳐져 있고, 비교적 가우시안 잡음의 제거에 대한 연구는 미비한 편이다. 본 논문에서는 가우시안 잡음의 제거를 위해서는 부분 집합의 평균 정보와 메디안 방법을 이용한 부분 집합 평균 메디안 필터를 제시한다. 이 방법에서도 고려되는 윈도우의 크기는 3$^{*}$ 3를 적용하였다. 먼저 해당 윈도우내 픽셀을 중심픽셀 및 근접한 픽셀을 포함하여 4픽셀로 구성되는 4개의 부분집합으로 구성한 후, 각각의 평균을 구하고 여기서 구해진 4 부분집합의 평균값에 대한 정보와 중심 픽셀의 값과 함께 정렬을 하여 메디안 값을 구하는 방법이다. 이를 통해 가우시안을 기존의 방법보다 더 효율적으로 제거 할 수 있었다. 제시된 알고리즘은 Sun Ultra 2에서 ANSI C 언어를 사용하여 테스트되었으며, 기존의 필터 방법과의 제시된 필터 방법간의 PSNR, MSE, RMSE 값의 비교를 통해 비교 영상과 잡음들에서의 필터 성능과 효과를 제시하였다.

  • PDF

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

Adaboost와 깊이 맵 기반의 블록 순위 패턴의 템플릿 매칭을 이용한 얼굴검출 (Face Detection Using Adaboost and Template Matching of Depth Map based Block Rank Patterns)

  • 김영곤;박래홍;문성수
    • 방송공학회논문지
    • /
    • 제17권3호
    • /
    • pp.437-446
    • /
    • 2012
  • 흑백 혹은 컬러 영상과 같은 2차원 정보를 사용한 얼굴 검출 알고리즘에 관한 연구가 수십 년 동안 이루어져 왔다. 최근에는 저가 range 센서가 개발되어, 이를 통해 3차원 정보 (깊이 정보: 카메라와 물체사이의 거리를 나타냄)를 손쉽게 이용함으로써 얼굴의 특징을 높은 신뢰도로 추출하는 것이 가능해졌다. 대부분 사람 얼굴에는 3차원적인 얼굴의 구조적인 특징이 있다. 본 논문에서는 흑백 영상과 깊이 영상을 사용하여 얼굴을 검출하는 알고리즘을 제안한다. 처음에는 흑백 영상에 adaboost를 적용하여 얼굴 후보 영역을 검출한다. 얼굴 후보 영역의 위치에 대응되는 깊이 영상에서의 얼굴 후보 영역을 추출한다. 추출된 영역의 크기를 $5{\times}5$ 영역으로 분할하여 깊이 값의 평균값을 구한다. 깊이 값들의 평균값들 간에 순위를 매김으로써 블록 순위 패턴이 생성된다. 얼굴 후보 영역의 블록 순위 패턴과 학습 데이터를 사용하여 미리 학습된 템플릿 패턴을 매칭함으로써 최종 얼굴 영역인지 아닌지를 판단할 수 있다. 제안하는 방법의 성능을 Kinect sensor로 취득한 실제 영상으로 실험하였다. 실험 결과 true positive를 잘 보존하면서 많은 false positive들을 효과적으로 제거하는 것을 보여준다.

LIBS 분광기를 이용한 폐소형가전 플라스틱 패턴 분류기의 설계 (Design of Pattern Classifier for Electrical and Electronic Waste Plastic Devices Using LIBS Spectrometer)

  • 박상범;배종수;오성권;김현기
    • 한국지능시스템학회논문지
    • /
    • 제26권6호
    • /
    • pp.477-484
    • /
    • 2016
  • 선풍기, 오디오, 전기밥솥 등의 소형 산업가전제품들은 대부분 ABS, PP, PS 등의 재질로 이루어져 있다. 색깔이 있는 플라스틱은 근적외선(NIR) 분광기에 의해 분류가 가능하지만, 반면에 검은색 플라스틱은 빛을 흡수하는 특성으로 인해 분류하기가 어렵다. 그래서 본 연구에서는 LIBS(Laser Induced Breakdown Spectroscopy) 분광기를 통해 폐소형가전 플라스틱을 선별하는 RBFNNs(Radial Basis Function Neural Networks) 패턴 분류기를 소개한다. 전처리부분에는 차원축소 알고리즘 중 하나인 PCA(Principal Component Analysis)를 사용해 처리 속도를 향상시킬 뿐만 아니라 효과적인 데이터의 특성을 추출한다. 조건부에는 FCM(Fuzzy C-Means) 클러스터링을 사용한다. 결론부에는 다항식의 형태 중 하나인 1차 선형식을 연결가중치로서 사용한다. PSO와 5-fold cross validation은 성능의 신뢰도를 향상시키고, 분류율을 높이는데 사용된다. 제안된 분류기의 성능은 최적화한 것과 최적화하지 않은 것 두 가지의 관점에서 보여준다.