• Title/Summary/Keyword: 데이터 분할

Search Result 2,611, Processing Time 0.048 seconds

An Index Splitting Technique for Numerous Sensor Data Archiving (대용량 센서 데이터 아카이빙을 위한 색인 분할 기법)

  • Cho, Dae-Soo
    • Journal of Korea Spatial Information System Society
    • /
    • v.9 no.1
    • /
    • pp.31-43
    • /
    • 2007
  • Sensor data have the characteristics such as numerous and continuous data. Therefore, it is required to develop an index which could retrieve a specific sensor data efficiently from numerous sensed data. The index should have an efficient delete operation for the past data to support the data archiving. In this paper, we have proposed and implemented an index splitting technique to support the sensor data archiving. These splitted indexes compose of a virtual index (that is, index management component), which is shown as single tree from outside. Experimental results show that in the case of 100,000 insert operations the splitted index performs 8% better than the traditional TB-tree maximumly. And the splitted index outperforms TB-tree with retrieving queries when the region of query is small and the size of time domain is large.

  • PDF

A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering (효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘)

  • Kim, Sung-Eun;Ryu, Joung-Woo;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

Text segmentation using concept hierarchy tree (계층적 개념 트리를 이용한 문서 분할 기법)

  • 이병희;최익규;박승규;김인구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.166-168
    • /
    • 2003
  • 문서 분할 기법은 문서 내에 존재하는 다양한 주제들을 자동적으로 추출하는 기법이다. 이 분야의 연구는 크게 사전적 관계에 근거한 기법과 통계적 데이터에 근거한 기법으로 나누어져 연구되어 왔다. 사전적 관계에 의한 기법은 단어들의 사전적 의미와 관계에 근거한 기법이고 통계적 데이터에 의한 기법은 주로 단어들의 분포를 이용한 기법이다. 여기에는 몇가지 문제점이 있는데 사전적 관계에 근거한 경우에는 분산된 주제들을 통합하여 추출하기 어렵고. 통계적 데이터에 근거한 기법은 정확한 주제의 개수를 찾기 어렵다는 점이다. 본 논문에서는 계층적 개념 트리를 이용하여 보다 정확한 개수의 주제들을 찾아낼 수 있는 문서 분할 기법에 대해 소개 하고자 한다.

  • PDF

Fuzzy Clustering Algorithm to Predict Cancer Class Using Gene Expression Data (유전자 발현 데이터를 이용한 암의 클래스 예측을 위한 퍼지 클러스터링 알고리즘)

  • 원홍희;유시호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.757-759
    • /
    • 2003
  • 암의 치료법은 같은 종류의 암이라 해도 그 하부 클래스에 따라 매우 다르기 때문에 암의 클래스를 예측하는 것은 그 정확한 치료를 위하여 매우 중요하다. 유전자 발현 데이터를 이용한 암의 분류에 있어 기존의 연구들은 각 데이터를 하나의 클러스터에 소속시키는 하드 분할(hard partition)에 의한 분할 방식을 사용하는 하드 클러스터링을 사용하였다. 하지만 일반적으로 유전자 발현 암 데이터와 같은 실세계의 데이터는 쉽게 나뉘어지기 힘들거나 클러스터 간의 경계가 분명하지 않기 때문에 하드 클러스터링 기법은 주어진 데이터의 성질을 손실시킬 수 있는데 반해, 퍼지 클러스터링 기법은 각 데이터가 소속 정도에 따라 여러 개의 클러스터에 속할 수 있도록 분할하기 때문에 이러한 손실을 최소화할 수 있다. 따라서 본 논문에서는 퍼지 클러스터링의 대표적인 방법인 fuzzy c-means 클러스터링을 적용하여 암의 클래스를 예측하고, 다양한 하드 클러스터링 방법과 비교함으로써 퍼지 클러스터링의 성능을 검증하였다.

  • PDF

Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression (베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀)

  • Kang, Jongkyeong;Han, Seokwon;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.217-227
    • /
    • 2022
  • Quantile regression is widely used in many fields based on the advantage of providing an efficient tool for examining complex information latent in variables. However, modern large-scale and high-dimensional data makes it very difficult to estimate the quantile regression model due to limitations in terms of computation time and storage space. Divide-and-conquer is a technique that divide the entire data into several sub-datasets that are easy to calculate and then reconstruct the estimates of the entire data using only the summary statistics in each sub-datasets. In this paper, we studied on a variable selection method using Bayes information criteria by applying the divide-and-conquer technique to the penalized quantile regression. When the number of sub-datasets is properly selected, the proposed method is efficient in terms of computational speed, providing consistent results in terms of variable selection as long as classical quantile regression estimates calculated with the entire data. The advantages of the proposed method were confirmed through simulation data and real data analysis.

Selectivity Estimation for Spacial Data Distribution and Query Size (공간 데이터 분포와 질의 크기를 고려한 선택률 추정)

  • 문현수;이미란;황환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.77-79
    • /
    • 2000
  • 공간 데이터베이스에서의 질의에 대한 선택률 추정에 대해서는 많은 연구가 있었지만 공간 데이터베이스에서의 공간 질의에 대한 선택률 추정이 매우 중요함에도 불구하고 이에 대한 연구는 아직 미흡한 상태이다. 이 논문에서는 공간 검색 조건의 정확한 선택률 추정을 위해 공간 데이터 분포를 통계 데이터로 저장하고 이를 이용하여 선택률을 추정하는 방법을 제안하고 구현하였다. 공간 질의에 대한 선택률 추정을 위해서 기존의 통계 데이터를 작성하는 방법으로 균등 분할 방법과 비균등 분할 방법이 사용되고 있지만 보다 정확한 선택률을 추정하기 위해서 본 논문에서는 새로운 통계 데이터 작성 방법인 크기별 분할 방법을 제안하였다. 각 방법의 성능은 다양한 파라미터에 대한 선택률 오차를 산출하여 평가하였다.

  • PDF

Dataset Augmentation on Fallen Person Objects in a Autonomous Driving Tractor Environment (자율주행 트랙터 환경에서 쓰러진 사람에 대한 데이터 증강)

  • Hwapyeong Baek;Hanse Ahn;Heesung Chae;Yongwha Chung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.553-556
    • /
    • 2023
  • 데이터 증강은 데이터 불균형 문제를 해결하기 위해 일반화 성능을 향상시킨다. 이는 과적합 문제를 해결하고 정확도를 높이는 데 도움을 준다. 과적합을 해결하기 위해서 본 논문에서는 분할 마스크 라벨링을 자동화하여 효율성을 높이고, RoI를 활용한 분할 Copy-Paste 데이터 증강 기법을 제안한다. 본 논문의 제안 방법을 적용한 결과 YOLOv8 모델에서 기존의 분할, 박스 Copy-Paste 데이터 증강 기법과 비교해서 쓰러진 사람 객체에 대한 정확도가 10.2% 증가함으로써 제안한 방법이 일반화 성능을 높이는 데 효과가 있음을 확인하였다.

LiDAR Data Segmentation Using Aerial Images for Building Modeling (항공영상에 의한 LiDAR 데이터 분할에 기반한 건물 모델링)

  • Lee, Jin-Hyung;Lee, Dong-Cheon
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.28 no.1
    • /
    • pp.47-56
    • /
    • 2010
  • The use of airborne LiDAR data obtained by airborne laser scanners has increased in the field of spatial information such as building modeling. LiDAR data consist of irregularly distributed 3D coordinates and lack visual and semantic information. Therefore, LiDAR data processing is complicate. This study suggested a method of LiDAR data segmentation using roof surface patches from aerial images. Each segmented patch was modeled by analyzing geometric characteristics of the LiDAR data. The optimal functions could be determined with segmented data that fits various shapes of the roof surfaces as flat and slanted planes, dome and arch types. However, satisfiable segmentation results were not obtained occasionally due to shadow and tonal variation on the images. Therefore, methods to remove unnecessary edges result in incorrect segmentation are required.

Object Slicing of C# Programs Using System Dependence Graph (시스템 종속 그래프를 이용한 C# 프로그램의 객체 분할)

  • Kang Sung-Kwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.412-414
    • /
    • 2006
  • 프로그램 분할은 분할 기준으로써 언급된 어떤 관심의 시점에서 계산되어진 값에 잠재적으로 영향을 미치는 프로그램의 부분들을 얻어내는 방법이다. 객체 지향 프로그램의 분할(slicing)은 객체가 메소드를 호출할 때 한 객체의 모든 데이터 멤버들을 실매개변수들(actual parameters)로 전달함으로써 데이터 멤버들을 구별한다. 그러나, 실제적으로 데이터 멤버들의 일부분만이 메소드에서 사용되어진다. 또한, 기존의 분할 방법들은 한 클래스의 메소드들에 있는 문장들만을 분할하는 것이다 클래스, 객체, 상속, 다형성, 동적 바인딩과 같은 객체 지향 프로그램의 독특한 특징들 때문에 문장 분할이 객체 지향 프로그램에 적용되는 것은 부적당하다. 본 논문에서는 객체 지향 언어중 가장 최근에 나왔으며 활용도가 높아지고 있는 C# 프로그램에 시스템 종속 그래프(System Dependence Graph)를 확장 및 적용한다.

  • PDF

A Proposal for a True VOD Service Combining Patching with a Data Segmented NVOD (데이터 분할방식의 NVOD에 패칭을 결합한 참 VOD 서비스의 제안)

  • Ji, Yong-Jin;Kim, Nam-Hoon;Park, Ho-Hyun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.3
    • /
    • pp.458-468
    • /
    • 2009
  • The patching technique has been used for removing initial waiting time of NVOD. The technique was applicable only to time segmented NVOD services. However, data segmented NVOD methods have been known to have less initial waiting time or use less server's bandwidths than the time segmented NVODs. Therefore, we expect that if patching is applied to a data segmented NVOD, a more efficient NVOD service will be possible. But there has not been such approach. In this paper, we propose a new VOD scheduling algorithm that combines the patching technique with a data segmented NVOD, thus it uses less server's bandwidths and removes initial waiting time, hence makes a true VOD service possible. The proposed technique also absorbs the storage overhead necessary for client buffering incurred by patching into the data segmentation policy of the NVOD scheduling, hence does not need any extra overhead of the client's resource. Therefore, it is also applicable to the case that the client has resource limits.