• Title/Summary/Keyword: 데이터 논문

Search Result 41,647, Processing Time 0.061 seconds

Effective Time Interval Clustering Algorithm of Data Stream Environment (데이터 스트림 환경에서 임의 시간 구간에 대한 효율적 클러스터링 알고리즘)

  • Jang Joo-Hyun;Moon Yang-Sae;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.43-45
    • /
    • 2006
  • 최근에 데이터의 양이 방대하게 늘어남에 따라 이러한 데이터의 처리를 위한 여러 연구들이 진행되어지고 있다. 이 중에 데이터들 간의 군집 관계를 파악하기 위하여 사용되는 클러스터링에 관한 연구가 많이 수행되었는데, 이중 BIRCH는 대용량의 데이터를 처리하는데 있어서 적합한 모델로 제시되고 있다. 하지만 BIRCH는 데이터 스트림 환경에서 클러스터링은 효과적이지 못한 단점을 가지고 있다. 본 논문은 데이터 스트림 환경에서 과거의 임의 시간구간에 대한 클러스터링을 수행하는 방법을 제안한다. 이를 위하여 CF-트리를 일정 시간 마다 생성 및 저장하고 이를 이용하여 사용자가 원하는 시간 구간에 대해 동안의 클러스터링을 수행한다. 본 논문에서는 임의 시간구간에 대한 효율적인 클러스터링을 위해 기존의 CF-트리 노드 구조에 추가 데이터를 사용하는 $CF^{\delta}$-트리를 제안한다. 그리고 ${\delta}$에 대한 연구를 통해, 근사적 접근법을 제안하였다.

  • PDF

An Implementation of Complex Pollutant Analysis Data Management System on Electronic Industrial Process (전자산업공정의 복합오염물질 분석 데이터 관리 시스템 구현)

  • Lee, Sang-Jun;Lee, Won-Joo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.01a
    • /
    • pp.117-118
    • /
    • 2012
  • 본 논문에서는 전자산업공정에서 발생하는 복합오염물질을 측정하고, 분석 관리하는 복합오염물질 분석 관리시스템을 설계하고 구현한다. 이 시스템은 측정기와 분석 및 관리 소프트웨어로 구성된다. 측정기는 복합오염물질을 검출하여 각 오염물질의 수치를 컴퓨터에 전송하는 기능을 제공한다. 분석 및 관리 소프트웨어는 검사, 데이터 관리, 뷰어 등의 모듈로 구성한다. 검사 모듈은 측정기에서 전송된 측정 데이터를 화면에 출력하고, 그 측정 데이터의 정상 기준치 초과 여부를 결정한다. 데이터 관리 모듈은 측정기에서 측정된 방대한 데이터를 데이터베이스에 저장하고 관리하는 기능을 제공한다. 뷰어 모듈은 데이터베이스에 저장된 측정데이터를 그래프 또는 차트 양식으로 출력하는 기능을 제공한다. 본 논문에서 구현한 복합오염물질 분석 관리 시스템은 실제 복합오염물질을 측정하는데 그치지 않고, 그 측정 데이터를 분석하고, 데이터베이스화하여 지속적으로 관리할 수 있는 장점이 있다.

  • PDF

Generating Adaptive Fuzzy Classification Rules using An Efficient Evolutionary Algorithm (효율적인 진화알고리즘을 이용한 적응형 퍼지 분류 규칙 생성)

  • Ryu, Joung-Woo;Kim, Sung-Eun;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.769-771
    • /
    • 2005
  • 데이터 특성이 연속적이고 애매할 때 퍼지규칙으로 분류 규칙을 표현하는 것은 매우 유용하고 효과적이다. 그러나 일반적으로 정확하지 않은 데이터 특성에 대해서 소속함수를 결정한다는 것은 어려운 일이다. 본 논문에서는 진화알고리즘을 이용하여 효과적인 퍼지 분류 규칙을 자동으로 생성하는 방법을 제안한다. 제안한 방법에서 규칙의 정확성과 이해성을 고려하여 최적화된 소속함수를 생성하기 위해 진화알고리즘을 사용한다. 먼저 지도 군집화로 진화를 위한 초기 소속함수를 생성한다. 진화알고리즘은 전역적 최적 해를 찾는데 효과적이다. 그러나 시간에 대한 효율성이 낮다. 특히 모델 최적화 문제에서는 개체 평가 단계에서 많은 시간이 소요된다. 따라서 본 논문에서는 전체 데이터를 여러 개의 부분 데이터들로 나누고 개체들은 전체 데이터 대신 매번 부분 데이터를 임의적으로 선택하여 개체를 평가함으로써 수행 시간을 단축시킬 수 있는 진화 방법을 제안한다. 제안한 퍼지 분류 규칙 생성 방법의 타당성을 검증하기 위한 실험 데이터로 UCI에서 제공하는 데이터들을 사용하였으며, 실험 결과는 기존 방법에 비해 평균적으로 더 효과적임을 확인하였다.

  • PDF

Enhanced Metadata Model for Growing Data (데이터 웨어하우스의 성장에 따른 문제 해결을 위한 개선된 메타데이타 모델)

  • 박석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.386-388
    • /
    • 1998
  • 본 논문에서는 필드의 추가, 삭제에 의해 데이터 큐브의 확장과 서로 다른 시간구간의 뷰가 존재함을 밝히고 이에 따른 두 가지 문제점을 제안한다. 첫째 새로 추가된 필드에 따라 이전 데이터를 변화할 것인가\ulcorner 둘째 필드의 추가로 불필요해진 실체화된 뷰를 계속 유지할 것인가\ulcorner 이를 해결하기 위해 메타데이타를 통하여 데이터 큐브의 재구성이나 불필요한 뷰의 실체와 없이 다른 시간구간의 실체화된 뷰를 효과적으로 사용하는 기법을 제안한다. 본 논문에서 제안한 기법은 시간 축을 고려함으로써 데이터 큐브의 격자구조를 따라 의존관계의 뷰들을 부분적으로 사용하고 결과를 결합하는 방식이다. 성능평가를 통하여 데이터 웨어하우스의 변화 시 기존의 기법보다 좋은 질의처리 성능을 가짐을 보인다. 보다 빠른 질의처리를 위하여 데이터 큐브를 사용하고, 큐브를 구성하는 뷰들을 실체화 한다. 하지만 새로운 필드의 추가나 삭제와 같은 데이터 웨어하우스의 변화, 성장에 의해 구조변화 등의 문제가 발생하고, 이에 대하여 적절해 대응할 필요가 있다.

A Content-based Load Balancing Algorithm for Metadata Servers in Cluster File System (클러스터 파일 시스템의 메타데이터 서버를 위한 내용 기반 부하 분산 알고리즘)

  • Jang Jun-Ho;Han Sae-Young;Park Sung-Yong
    • The KIPS Transactions:PartA
    • /
    • v.13A no.4 s.101
    • /
    • pp.323-334
    • /
    • 2006
  • A metadata service is one of the important factors to affect the performance of cluster file systems. We propose a content-based load balancing algorithm that dynamically distributes client requests to appropriate metadata servers based on the types of metadata operations. By replicating metadatas and logging update messages in each server, rather than moving metadatas across servers, we significantly reduced the response time and evenly distributed client's requests among metadata servers.

Detailed filter model of C2C e-commerce platform (C2C 전자상거래 플랫폼의 상세 필터 모델)

  • Kim, Seong-Ik;Park, Koo-Rack;Kim, Jae-Woong;Lee, Yun-Yeol;Kim, Dong-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.85-86
    • /
    • 2021
  • 본 논문에서는 사용자 간 거래를 제공하는 플랫폼에서 제목 데이터를 활용한 상세 필터 모델을 제안한다. 이 모델은 상세 필터링을 제공하지 않는 플랫폼으로 인해 대규모 데이터에서 사용자가 원하는 데이터를 찾는 불편함을 덜어준다. 상세 필터링을 일부 제공할 경우 관리자가 주기적으로 변경된 데이터로 갱신해야 하는 과정이 있지만, 제안 모델을 활용할 경우, 수집된 데이터를 활용하여 필터링을 구성하기 때문에 관리자의 불필요한 리소스를 줄일 수 있다. 또한 등록된 데이터를 활용하여 필터 데이터를 구성하기 때문에 결과가 없는 필터가 노출되지 않고, 사용자가 없는 결과를 찾게 되는 헛수고를 덜 수 있다. 본 논문에서는 제목 데이터를 활용하여 상세 필터 모델을 적용하여 사용자가 원하는 상품을 구매하기 위한 접근이 용이하다.

  • PDF

Hand Gesture recognition through NAS and time series classification (시계열 데이터 분류와 NAS를 통한 손동작 인식)

  • Kim, Gi-Duk;Kim, Mi-Sook;Lee, Hackman
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.221-223
    • /
    • 2021
  • 본 논문에서는 손동작 데이터에서 추출한 데이터를 다변수 시계열 데이터 분류를 자동으로 찾는 NAS 모델에 적용하여 손동작 인식 모델을 찾는 방법을 제안한다. NAS를 통해 모델을 구하는 과정은 프로그래머의 시간과 노력을 절감시켜준다. 손동작 인식을 위해 DHG-14/28 데이터셋과 SHREC'17 Track 데이터셋에 논문에서 제안한 방법을 적용하여 손동작 인식 정확도가 기존의 모델보다 높은 손동작 인식률을 얻음을 실험을 통하여 확인하였다. 실험에서 DHG-14/28 데이터셋의 손동작 인식 정확도는 96.38%, 96.63%, SHREC'17 Track 데이터셋의 정확도는 96.88%, 96.57%를 얻었다.

  • PDF

Novel Intent Category Discovery using Contrastive Learning (대조학습을 활용한 새로운 의도 카테고리 발견)

  • Seungyeon Seo;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF

Development of Enterprise-Level Data Pipeline Monitoring System (엔터프라이즈 레벨의 데이터 파이프라인 모니터링 시스템 개발)

  • So-Young Chae;Ji-Su Park;Hye-Mi Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.331-334
    • /
    • 2023
  • 데이터 처리 과정에서 데이터 손실 및 장애 상황을 감지하고 예방하기 위한 모니터링 시스템의 필요성이 증가하고 있다. 복잡한 데이터 파이프라인에서 각 단계를 실시간으로 관찰하고 문제 상황에 신속하게 대응하기 위해서는 종합적인 모니터링 시스템을 구축하는 것이 중요하다. 본 논문에서는 엔터프라이즈 레벨의 파이프라인 모니터링 시스템을 개발하여 데이터 파이프라인의 안정성을 향상하고 데이터의 신뢰성을 높이고자 하였다. 모니터링을 데이터, 애플리케이션, 운영, 그리고 외부서비스 및 인프라 관점으로 분류 및 설계하고 각 관점에 따라 어떤 방식으로 활용되었는지 소개한다. 본 논문에서 개발한 모니터링 시스템을 통해 비즈니스 및 연구 분야의 데이터 처리 작업을 보다 효과적으로 관리하고, 문제 상황을 조기에 탐지하여 안정성을 향상시킬 수 있을 것으로 기대된다.

An Integrated Framework for Data Quality Management of Traffic Data Warehouses (고품질 데이터를 지원하는 교통데이터 웨어하우스 구축 기법)

  • Hwang, Jae-Il;Park, Seung-Yong;Nah, Yun-Mook
    • Journal of Korea Spatial Information System Society
    • /
    • v.10 no.4
    • /
    • pp.89-95
    • /
    • 2008
  • In this paper, we propose an integrated techniques for managing data quality in traffic data warehousing environments. We describe how to collect and construct the traffic data warehouses from the operational databases, such as FTMS and ARTIS. We explain how to configure the traffic data warehouses efficiently. Also, we propose a quality management techniques to provide high quality traffic data for various analytical transactions. Proposed techniques can contribute in providing high quality traffic data to the traffic related users and researcher, thus reducing data preprocessing and evaluation cost.

  • PDF