• Title/Summary/Keyword: 중요 데이터

Search Result 18,413, Processing Time 0.042 seconds

A Load Shedding Technique over a Data Stream of Tuples (튜플 데이터 스트림에서 과부하 처리 기법)

  • Chang, Joong-Hyuk;Park, Nam-Hun;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.109-112
    • /
    • 2005
  • 수행 과정에서의 성능 측면에서 기존의 데이터 스트림 처리 방법들은 주로 수행 과정에서의 저장 공간 사용량 및 데이터 객체당 수행 시간을 줄이는데 초점을 맞추고 있다. 이들 방법들에서 일정 시간 내에 처리될 수 있는 데이터 객체의 수보다 많은 데이터 객체가 발생된다면, 그들 중 일부는 실시간으로 처리되지 못한다. 본 논문에서는 튜플 데이터 스트림에서 발생빈도 기반의 중요 튜플 선별 방법을 제안한다. 이는 해당 데이터 스트림 처리 과정에서 전처리 과정으로 간주할 수 있다. 제안된 방법에서는 데이터 스트림의 변화를 고려하여 중요 튜플 선별을 위한 임계값을 적응적으로 조절한다. 이를 지원하기 위해서 튜플의 발생빈도 예측 방법을 제시한다.

  • PDF

Extraction of Important Areas Using Feature Feedback Based on PCA (PCA 기반 특징 되먹임을 이용한 중요 영역 추출)

  • Lee, Seung-Hyeon;Kim, Do-Yun;Choi, Sang-Il;Jeong, Gu-Min
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.13 no.6
    • /
    • pp.461-469
    • /
    • 2020
  • In this paper, we propose a PCA-based feature feedback method for extracting important areas of handwritten numeric data sets and face data sets. A PCA-based feature feedback method is proposed by extending the previous LDA-based feature feedback method. In the proposed method, the data is reduced to important feature dimensions by applying the PCA technique, one of the dimension reduction machine learning algorithms. Through the weights derived during the dimensional reduction process, the important points of data in each reduced dimensional axis are identified. Each dimension axis has a different weight in the total data according to the size of the eigenvalue of the axis. Accordingly, a weight proportional to the size of the eigenvalues of each dimension axis is given, and an operation process is performed to add important points of data in each dimension axis. The critical area of the data is calculated by applying a threshold to the data obtained through the calculation process. After that, induces reverse mapping to the original data in the important area of the derived data, and selects the important area in the original data space. The results of the experiment on the MNIST dataset are checked, and the effectiveness and possibility of the pattern recognition method based on PCA-based feature feedback are verified by comparing the results with the existing LDA-based feature feedback method.

Supervised Feature Weight Optimization for Data Mining (데이터마이닝에서 교사학습에 의한 속성 가중치 최적화)

  • 강명구;차진호;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

Morphological Surface Model (형태적 특성을 고려한 지형 모델)

  • 최미나;김시완;김학철;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.238-240
    • /
    • 2002
  • 지리정보시스템이 널리 사용됨에 따라 여러 다양한 기능들이 요구되고 있다. 특히, 2차원이 아닌 지표면의 고도를 가진 지형데이터를 표현하고 분석하는 기능이 지리정보시스템의 중요한 기능으로 요구되어지고 있다. 현재 지형데이터를 표현하는데 가장 많이 이용되는 모델은 DEM, TIN, 등고데이터가 있는데 각각의 모델은 응용분야에 따라 장단점을 가진다. 지리정보시스템에서 사용되는 실제의 지형데이터가 대용량이기 때문에, 데이터를 분석하는데 드는 비용이 매우 클 뿐만 아니라 분석을 위한 데이터 로드에도 상당한 비용이 든다. 그러므로 최대한 적은 데이터 양으로 지형을 표현하는 것이 지리정보시스템에서는 매우 중요하다. 본 논문에서는 데이터 양을 줄임과 동시에 지형의 중요 정보를 최대한 보존하는 형태적 지형 모델을 제안한다. 실험에 따르면, 제안한 모델은 TIN에 비해 데이터의 양이 작을 뿐만 아니라 지형의 주요 형태적 정보를 유지함으로써 연산의 정확성도 높이는 장점을 보인다.

  • PDF

First things first: Task Agnostic Data Pipeline Process for Human-in-the-loop (Human-in-the-loop 데이터 파이프라인 : 딥러닝을 위한 데이터 제작의 틀)

  • Eujeong Choi;Chanjun Park
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.559-561
    • /
    • 2022
  • Data-centric AI의 발전으로 데이터의 중요성이 나날이 커져가고 있다. 학계, 기업, 정부 모두에서 데이터의 중요성을 인지하여 다양한 연구와 정책이 개발되고 있다. 물론 데이터를 활용하는 능력도 중요하지만, 데이터를 제작하는 능력도 매우 중요한 요소 중 하나이다. 이러한 흐름에 비추어 본 논문은 데이터 제작이 필요한 경우 과제의 도메인과 무관하게 범용적으로 적용 가능하며 데이터를 쉽고 빠르게 효율적으로 구축할 수 있는 human-in-the-loop 데이터 파이프라인을 제안하고자 한다. 이를 통해 기업이 데이터를 설계하고, 제작하는데 드는 시간과 비용 절감하게 하여 운영 효율화를 돕고자 한다.

  • PDF

Different Load Shedding using utilization of Spatial over Data Stream (데이터 스트림에서 공간의 이용도를 이용한 차등적 부하제한 기법)

  • Kim, Ho;Baek, Sung-Ha;Lee, Dong-Wook;Shin, Soong-Sun;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.340-343
    • /
    • 2009
  • u-GIS 환경에서 GeoSensor로부터 수집되는 시공간 데이터는 데이터 스트림의 특징을 포함한다. 데이터 스트림은 다양한 입력 속도로 끊임없이 입력되고, 데이터의 크기 또한 가변적이다. 이런 이유로 한정적인 메모리와 처리능력의 시스템은 과부하 현상이 발생한다. 이를 해결하기 위해 초과되는 데이터를 버려 메모리 초과를 방지하는 기법들이 연구되고 있다. 공간질의는 공간과 위치 값을 기반으로 이루어지는 연산으로 공간질의 정확도는 공간과 위치 정보를 통해 보장된다. 그러나 기존 기법인 랜덤부하제한 기법과 의미적부하제한 기법은 공간질의가 요구하는 공간과 위치 값에 대해 고려하지 않고 삭제하기 때문에 공간질의에 대한 정확도가 감소하는 문제를 갖는다. 본 논문에서는 공간의 이용도를 이용하여 차등적 비율을 적용한 부하제한 기법은 연구하였다. 이 기법은 등록된 공간질의의 영역 겹침 정도에 따라 중요 레벨을 증가시키고, 이를 토대로 시공간 데이터의 중요도를 파악하여 중요도마다 주어진 비율에 의하여 차등적으로 삭제한다. 결과적으로 기존 기법보다 다소 높은 Drop rate를 통해 질의 처리 속도를 빠르게 회복시켰으며, 중요 데이터를 최대한 유지하여 Error rate를 감소시켰다.

Personalized Private Information Security Method on Smartphone. (스마트폰 환경에서 개인정보 보안 기법)

  • Jeong, MinKyoung;Choi, Okkyung;Yeh, HongJin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.751-754
    • /
    • 2011
  • 최근 개인이 작성한 글과 사진, 동영상 등의 자료를 시간과 장소에 따라 저장 할 수 있는 라이프 로그 서비스들이 증가하고 있다. 이러한 정보들은 개인의 일상생활을 기록하는 것으로 민감한 프라이버시임에도 불구하고 관리에 취약하다. 스마트폰 환경에서 데이터를 저장하기 위해 SQLite를 이용하고, 이를 암호화하기 위한 방안으로 SEE와 SQLCipher가 있지만 전체 데이터를 암호화하는 방식으로 중요하지 않은 데이터까지 암호화하여 저장한다. 본 논문은 개인 정보 보호를 위한 방안으로 SQLite에서 SEED 암호를 이용하여 주요한 개인 정보를 컬럼 단위로 암호화한다. 즉 라이프로그 데이터를 개인 프라이버시 중요도에 따라 분류하고, 분류된 데이터 중에서 중요한 데이터만 선택적으로 암복호화 함으로써 기존 데이터 암호화 방식에 비해 암복호화에 소모되는 연산 시간을 감소시키고 라이프로그 데이터의 개인 정보 보안을 강화시키고자 한다.

글로벌리포트 / 'XML 오픈기술'…비즈니스 극대화에 중요한 역할

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.5 s.120
    • /
    • pp.140-141
    • /
    • 2003
  • 산재해 있는 수많은 데이터를 적용해 통합된 결과를 도출해 내기 위해서는 많은 시간과 노력이 들어간다. 이 경우 데이터 상호교환 문제의 해결책으로 '데이터 전달용 XML'이 역할을 할 수 있을 것이다. 외국 제약회사의 사례를 통해 XML을 통해 데이터 상호교환의 중요한 역할 을 들여다보자. 의사, 실험실과 병원, 환자, 제약사들간의 엄청난 '임상 실험 데이터'는 효율적인 데이터 상호교환을 가능케 한다고 한다.

  • PDF

An Efficient Recovery Technique using Global Buffer on SAN Environments (SAN 환경에서의 전역 버퍼를 이용한 효율적인 회복 기법)

  • Park, Chun-Seo;Kim, Gyeong-Bae;Lee, Yong-Ju;Park, Seon-Yeong;Sin, Beom-Ju
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.375-384
    • /
    • 2001
  • The shared disk file systems use a technique known as file system journaling to support recovery of metadata on the SAN(Storage Area Network). In the existing journaling technique, the metadata that is dirtied by one host must be updated to disk space before some hosts access it. The system performance is decreased because the disk access number is increased. In this paper, we describe a new recovery technique using a global buffer to decrease disk I/O. It transmits the dirtied metadata into the other hosts through Fibre Channel network on the SAN instead of disk I/O and supports recovery of a critical data by journaling a data as well as metadata.

  • PDF

Protective Mechanism for Sensitive Data using Lightweight Process Tracking (경량화 프로세스 추적을 통한 중요 데이터 유출 방지)

  • Kang, Koo-Hong
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.5
    • /
    • pp.33-39
    • /
    • 2009
  • As the usage of computers and mobile handsets is popularized, the processing and storing of private and business data are increased. Hence we note that these sensitive data should never be transferred out of these personal devices without user's permission. In this paper, we propose a simple method to prevent transferring the sensitive data out of personal computing devices through their networking interfaces. The proposed method determines which processes invoke open system call related to the sensitive data, and then traces them within a specific duration. The proposed scheme has advantage over the existing ones using authentication or encryption because it could be still working well independent upon the new attack technologies or the latest vulnerabilities of hardware and software. In order to verify the proposed algorithm, we test it by implementing the necessary codes at the user and kernel spaces of Linux.