• 제목/요약/키워드: 데이터 분할 기준

검색결과 209건 처리시간 0.026초

베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀 (Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression)

  • 강종경;한석원;방성완
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.217-227
    • /
    • 2022
  • 분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

키넥트를 이용한 색상 및 깊이 기반 영상 분할 기법

  • 김영배;장원동;김창수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 추계학술대회
    • /
    • pp.106-107
    • /
    • 2015
  • 본 논문에서는 색상 및 깊이 기반 영상 분할 기법을 제안한다. 계층화된 영상 분할을 수행하기 위해서 색상을 기준으로 영상을 과분할 한 후, 과분할 영역의 깊이를 기준으로 영역 병합을 수행한다. 적은 개수의 화소로 이루어진 병합 영역을 제거하기 위해서 인접한 분할 영역 중 화소 수가 많은 영역에 병합시키는 이상영역 처리 기법을 수행한다. 제안하는 영상 분할 기법을 기존의 데이터셋 및 키넥트 취득 영상에 적용하여 신뢰도 높은 객체 단위 영상 분할이 이루어짐을 확인한다.

  • PDF

다차원 데이터의 효과적인 유사도 검색을 위한 색인구조 (Index Structure for Efficient Similarity Search of Multi-Dimensional Data)

  • 복경수;허정필;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.97-99
    • /
    • 2004
  • 본 논문에서는 다차원 데이터의 유사도 검색을 효과적으로 수행하기 위한 색인 구조를 제안한다. 제안하는 색인 구조는 차원의 저주 현상을 극복하기 위한 벡터 근사 기반의 색인 구조이다. 제안하는 색인 구조는 부모 노드를 기준으로 KDB-트리와 유사한 영역 분할 방식으로 분할하고 분할된 각 영역은 데이터의 분포 특성에 따라 동적 비트를 할당하여 벡터 근사화된 영역을 표현한다. 따라서, 하나의 노드 안에 않은 영역 정보를 저장하여 트리의 깊이를 줄일 수 있다. 또한 다차원의 특징 벡터 공간에 상대적인 비트를 할당하기 때문에 군집화되어 있는 데이터에 대해서 효과적이다 제안하는 색인 구조의 우수성을 보이기 위해 다양한 실험을 통하여 성능의 우수성을 입증한다.

  • PDF

군집분석의 분할 유용도 점수의 영향 분석 (Impact Analysis of Partition Utility Score in Cluster Analysis)

  • 이계성
    • 문화기술의 융합
    • /
    • 제7권3호
    • /
    • pp.481-486
    • /
    • 2021
  • 기계학습 알고리즘은 기준 함수를 채택하여 데이터를 처리하고 학습 모델을 유도한다. 군집분석에서 사용하는 기준 함수는 어떤 형태로든지 선호성을 내포하게 되고 이를 통해 유사한 데이터끼리 묶어 준 후 이를 구성하는 변수와 값들을 특정하여 군집을 정의하게 된다. 군집분석에서 사용하는 카테고리 유용도와 분할 유용도 점수가 군집분석 결과물에 어떤 영향을 주는지를 파악하고 이들이 결과에 어떤 편향성으로 이어지는지를 분석한다. 본 연구는 군집분석에 사용되는 기준 함수의 특성에 따라 결과에 미치는 영향을 파악하기 위해 여러 데이터 세트를 이용해 실험하고 결과를 평가한다.

Lip-synch application을 위한 한국어 단어의 음소분할 (The segmentation of Korean word for the lip-synch application)

  • 강용성;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF

라이다데이터 분할 알고리즘의 시뮬레이션 기반 성능평가 (Simulation Based Performance Assessment of a LIDAR Data Segmentation Algorithm)

  • 김성준;이임평
    • 대한공간정보학회지
    • /
    • 제18권2호
    • /
    • pp.119-129
    • /
    • 2010
  • 라이다데이터를 이용한 다양한 활용알고리즘이 개발되고 있지만, 대부분의 제안된 알고리즘은 정성적인 검증만이 수행되고 있다. 알고리즘의 객관적이고 정량적인 검증을 위해서는 대상에 대한 참값(true value)을 알아야 하지만, 라이다데이터는 데이터 특성상 참값을 알기 어렵다. 본 연구에서는 모의 라이다데이터는 분할 알고리즘의 성능을 평가할 수 있는 참값을 가지고 있다는 점에 착안하여, 모의 라이다데이터를 이용하여 분할 알고리즘의 성능을 보다 객관적/정량적으로 평가해보고자 하였다. 이를 위해 먼저, 1) 분할 알고리즘의 결과를 객관적으로 가늠할 수 있는 정량적인 평가요소들을 정의하고, 2) 3차원 도시모델을 입력 데이터로 모의 라이다데이터를 생성한 후, 3) 분할알고리즘을 적용하여 객체표면을 나타내는 평면패치를 생성하였다. 마지막으로 4) 성능평가지표를 기준으로 생성된 패치에 대한 분석을 자동화하여 수행하였다.

시스템 종속 그래프를 이용한 C# 프로그램의 객체 분할 (Object Slicing of C# Programs Using System Dependence Graph)

  • 강성관
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.412-414
    • /
    • 2006
  • 프로그램 분할은 분할 기준으로써 언급된 어떤 관심의 시점에서 계산되어진 값에 잠재적으로 영향을 미치는 프로그램의 부분들을 얻어내는 방법이다. 객체 지향 프로그램의 분할(slicing)은 객체가 메소드를 호출할 때 한 객체의 모든 데이터 멤버들을 실매개변수들(actual parameters)로 전달함으로써 데이터 멤버들을 구별한다. 그러나, 실제적으로 데이터 멤버들의 일부분만이 메소드에서 사용되어진다. 또한, 기존의 분할 방법들은 한 클래스의 메소드들에 있는 문장들만을 분할하는 것이다 클래스, 객체, 상속, 다형성, 동적 바인딩과 같은 객체 지향 프로그램의 독특한 특징들 때문에 문장 분할이 객체 지향 프로그램에 적용되는 것은 부적당하다. 본 논문에서는 객체 지향 언어중 가장 최근에 나왔으며 활용도가 높아지고 있는 C# 프로그램에 시스템 종속 그래프(System Dependence Graph)를 확장 및 적용한다.

  • PDF

데이터 스트림 연속 처리 태스크의 병렬 처리 방법 (The Parallel Processing Method of the Continuous Data Stream Processing Tasks)

  • 양경아;이대우;김기헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.

대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법 (A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data)

  • 김천중;김기연;윤종현;임종태;복경수;유재수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1126-1135
    • /
    • 2014
  • 최근 대규모 RDF 데이터를 효과적으로 분산 저장 및 관리하기 위해 RDF 분할 기법의 연구가 진행되고 있다. 본 논문에서는 지속적으로 데이터의 추가 및 변경이 발생하는 동적 환경에서 부하 분산을 지원하는 RDF 동적 분할 기법을 제안한다. 제안하는 기법은 그래프 분할을 수행하기 위한 기준으로 질의에 의해 사용된 RDF 데이터의 사용 빈도에 따라 클러스터와 서브 클러스터 그룹을 생성한다. 생성된 클러스터와 서브 클러스터는 분산된 서버의 부하 및 저장되는 데이터 크기를 고려하여 분할을 수행한다. 이를 통해 지속적인 데이터 변경 및 추가로 인해 특정 서버에 대한 데이터 집중을 해결하고 서버들간에 효율적인 부하 분산을 수행한다. 성능평가를 통하여 분산 서버에서 제안하는 기법이 기존 분할 기법에 비해 질의 수행 시간이 크게 향상됨을 보인다.

Exon-Intron이론을 활용한 상황중심 데이터 스트림 분할 방안 (A Novel Way of Context-Oriented Data Stream Segmentation using Exon-Intron Theory)

  • 이승훈;서동혁
    • 한국전자통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.799-806
    • /
    • 2021
  • 사물인터넷 환경에서는 센서로부터의 이벤트 데이터가 시간의 흐름에 따라 지속적으로 보고된다. 이러한 추세로 입수되는 이벤트 데이터는 무한정 쌓이게 되므로 데이터의 효율적인 분석과 관리를 위한 방안이 필요하다. 본 연구에서는 지속적으로 보고되어 유입되는 센서로부터의 이벤트 데이터에 대하여 효과적인 선택과 활용을 뒷받침 할 수 있도록 하는 데이터 스트림 분할 방안을 제안하였다. 분석 처리를 시작할 지점을 식별하기 위한 식별자를 선정하도록 하였다. 이러한 식별자의 역할을 존치시킴으로써 분석할 대상을 명확하게 할 수 있으며 데이터 처리량을 감소시킬 수 있다. 본 연구에서 제안하는 스트림 분할을 위한 식별자는 각 스트림의 이벤트 발생을 기준으로 하기에 의미 중심의 데이터 스트림 분할 방안이라고 할 수 있다. 스트림 처리에서의 식별자의 존재는 대용량의 지속적인 데이터 유입환경에서 효율성을 제공하고 비용을 저감하는 측면에서 유용하다고 할 수 있다.