• Title/Summary/Keyword: 데이터 정제

Search Result 466, Processing Time 0.039 seconds

Implementation and Performance Evaluation of Parallel Multi-way Spatial Join (병렬 다중 공간 조인 알고리즘의 구현 및 성능평가)

  • 류우석;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.123-125
    • /
    • 1998
  • 지리 정보 시스템이서 다중 공간 조인과 같은 많은 기하 계산을 필요로 하는 질의를 처리하기 위해서는 질의에 대한 병렬화 작업을 통해 실행 시간을 최소화 하는 것이 필수적이다. 다중 공간 조인은 정제에서 많은 시간을 소비하므로 여과와 정제를 분리하여 각각을 수행하는 것이 정제 시간을 단축하게 되고 따라서 좋은 성능을 나타낼 수 있다. 그러므로 다중 공간 조인을 병렬화 하기 위해서는 다중 공간 여과와 정제 각각에 대해 병렬 실행 계획을 세우는 것이 중요하다. 이 논문에서는 우선적으로 병렬 공간 여과를 수행하기 위한 두가지 알고리즘, 즉 blush tree을 사용한 다중 공간 여과와 pipelining을 사용한 다중 공간 여과의 병렬화를 비교한다. 그리고, 다중 공간 여과의 결과로서 생성되는 중간 결과 테이블에서 데이터의 중복에 따라 정제 성능의 저하가 발생되는데, 이를 효율적으로 제거하기 위한 두가지 그래프 생성 알고리즘을 제안하고 이를 비교한다. 그리고, 생성된 그래프에서 병렬 정제를 수행하기 위한 여러 가지 분할 알고리즘을 제안하고 이를 비교 평가한다. 이런 일련의 작업을 통해 우수한 성능의 병렬 다중 공간 조인 방법을 제안하고 성능 평가를 통해 최적의 병렬 수행 방법을 도출한다.

Data Cleansing Algorithm for reducing Outlier (데이터 오·결측 저감 정제 알고리즘)

  • Lee, Jongwon;Kim, Hosung;Hwang, Chulhyun;Kang, Inshik;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.10a
    • /
    • pp.342-344
    • /
    • 2018
  • This paper shows the possibility to substitute statistical methods such as mean imputation, correlation coefficient analysis, graph correlation analysis for the proposed algorithm, and replace statistician for processing various abnormal data measured in the water treatment process with it. In addition, this study aims to model a data-filtering system based on a recent fractile pattern and a deep learning-based LSTM algorithm in order to improve the reliability and validation of the algorithm, using the open-sourced libraries such as KERAS, THEANO, TENSORFLOW, etc.

  • PDF

Join Query Performance Optimization Based on Convergence Indexing Method (융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화)

  • Zhao, Tianyi;Lee, Yong-Ju
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.1
    • /
    • pp.109-116
    • /
    • 2021
  • Since RDF (Resource Description Framework) triples are modeled as graph, we cannot directly adopt existing solutions in relational databases and XML technology. In order to store, index, and query Linked Data more efficiently, we propose a convergence indexing method combined R*-tree and K-dimensional trees. This method uses a hybrid storage system based on HDD (Hard Disk Drive) and SSD (Solid State Drive) devices, and a separated filter and refinement index structure to filter unnecessary data and further refine the immediate result. We perform performance comparisons based on three standard join retrieval algorithms. The experimental results demonstrate that our method has achieved remarkable performance compared to other existing methods such as Quad and Darq.

A Data Preprocessing Framework for Improving Estimation Accuracy of Battery Remaining Time in Mobile Smart Devices (모바일 스마트 장치 배터리의 잔여 시간 예측 향상을 위한 데이터 전처리 프레임워크)

  • Tak, Sungwoo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.4
    • /
    • pp.536-545
    • /
    • 2020
  • When general statistical regression methods are applied to predict the battery remaining time of a mobile smart device, they yielded the poor accuracy of estimating battery remaining time as the deviations of battery usage time per battery level became larger. In order to improve the estimation accuracy of general statistical regression methods, a preprocessing task is required to refine the measured raw data with large deviations of battery usage time per battery level. In this paper, we propose a data preprocessing framework that preprocesses raw measured battery consumption data and converts them into refined battery consumption data. The numerical results obtained by experimenting the proposed data preprocessing framework confirmed that it yielded good performance in terms of accuracy of estimating battery remaining time under general statistical regression methods for given refined battery consumption data.

Enhancing Database Efficiency using Knowledge Base Dependent Multistage Address Cleansing Technique (데이터베이스 효율성 강화를 위하여 지식베이스를 이용한 다단계 주소 정제 방안)

  • Cho, Jae-Ik;Lee, Tae-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.415-418
    • /
    • 2005
  • 데이터베이스는 인터넷 사이버 공간에서 사용자 개인 정보와 활용 정보 등을 저장, 관리 하고 있다. 저장된 불필요한 많은 양의 데이터를 삭제 하거나 혹은 올바른 정보로 수정하여 데이터베이스를 운영한다면 데이터베이스의 유지 보수에 필요한 비용을 감소 시킬 수 있으며, 데이터의 오류로 발생할 수 있는 우편 발송이나 기타 사용자 관리 등에서의 부차적인 손실 또한 막을 수 있는 이점이 있다. 이를 위하여 본 논문에서는 데이터베이스에서 사용자 주소를 올바른 주소로 정제해 줄 수 있도록 지식기반을 이용한 다단계 정제방안에 대해 제안한다.

  • PDF

Unified Framework Design of RFID & Workflow System (RFID & 워크플로우 관리 시스템 통합 프레임워크 설계)

  • Ahn, Hyung-Jin;Lee, Ki-Won;Park, Min-Jae;Kim, Kwang-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.340-345
    • /
    • 2006
  • RFID 기술을 이루는 핵심 컴포넌트라 할 수 있는 RFID 미들웨어는 태그(Tag)로부터 수신된 대량의 EPC 데이터에 대한 정제를 통하여 응용 프로그램이 요구하는 데이터 형태로의 선처리 기능을 수행하는 역할을 담당하는 소프트웨어 플랫폼이다. RFID 미들웨어로부터 수집, 정제된 데이터들은 해당 데이터들과 연관되는 비즈니스 애플리케이션들이 요구하는 정보에 대한 키로써의 역할을 하게 된다. 이와 같은 태그로부터 수신된 대량의 EPC 데이터와 실제 응용 측이 요구하는 정보와의 맵핑을 통하여 비즈니스 애플리케이션들의 의미있는 데이터로써 활용된다. 이러한 데이터들이 사용되는 비즈니스 프로세스 영역에서의 업무들의 일련의 절차들을 통한 자동화 처리 구성이 가능할 경우, 절차들을 구성하는 단위 업무들과 직접적으로 연계되는 비즈니스 애플리케이션들에 대한 워크플로우를 처리 담당하는 비즈니스 미들웨어와 애플리케이션의 처리에 필요한 관련 데이터와의 연동 방안을 고려하여 통합된 모델을 구성하는 것이 가능하다. 본 논문에서는 RFID 기술의 활용 도메인을 엔터프라이즈 영역에 초점을 맞추고, 비즈니스 업무의 처리 대상이 되는 정보 및 자산들에 대한 데이터 수집 및 관리를 담당하는 RFID 측과 비즈니스 관련 데이터를 바탕으로 실제 비즈니스 프로세스를 구성하는 단위 업무들의 자동화 처리를 담당하는 워크플로우 측과의 연계 방안에 대한 기술 및 통합 프레임워크를 제시하고자 한다.

  • PDF

Automatic Product Attribute Extraction from Reviews Using Web Search Engine (상품평 데이터와 웹 검색엔진을 이용한 상품별 평가항목 자동 추출)

  • Lee, Woo-Chul;Lee, Hyun-Ah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.107-110
    • /
    • 2008
  • 상품평은 인터넷 쇼핑 이용자들의 최종 구매결정에 큰 영향을 미치는 것으로 알려져 있다. 많은 쇼핑몰에서 상품평 활성화를 위해 노력하고 있지만, 상품평을 모으는 것에만 주력할 뿐 기존에 수집된 상품평을 제공하는 방법에 있어서는 원시적인 수준에 그치고 있다. 상품평을 좀 더 효율적으로 제공하려면 사용자들이 상품평에서 찾게 될 평가항목들을 미리 예측하여 그 항목에 따라 상품평을 분류/요약해서 제공하는 방법을 생각할 수 있다. 본 논문에서는 상품평과 웹 검색엔진을 이용하여 각 상품별 평가항목들을 자동으로 추출하는 방법을 제안한다. 상품평 데이터의 특성상 노이즈가 많기 때문에 먼저 데이터를 정제하고, 정제된 상품평 데이터를 형태소 분석하여 후보명사들을 선택한다. 선택된 후보명사를 웹 검색엔진에 질의하여 반환된 결과 값으로 상품 카테고리와 후보명사 간 연관도를 계산하여 평가항목을 추출한다. 실험은 5개 상품 카테고리의 170,294개 실제 상품평을 대상으로 각 카테고리별 평가항목을 추출하였다.

Early Separation of Filter and Refinement Steps in Spatial Query Optimization (공간 질의 최적화에서 여과 및 정제 단게의 조기 분리)

  • Park, Ho-Hyeon;Lee, Chan-Geun;Lee, Yong-Ju;Jeong, Jin-Wan
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.3
    • /
    • pp.353-364
    • /
    • 1999
  • 공간 데이터베이스는 일반 관계형 데이터베이스나 객체지향 데이터베이스에 비해 다음과 같은 특징을 가진다. 첫째, 공간 데이터베이스에서의 질의는 공간 질의와 비공간 질의가 섞여서 들어 온다. 둘째, 공간 질의는 비공간 질의에 비해 데이터의 복잡성과 방대함으로 인해 주로 2 단계(여과 단계 및 정제 단계)로 나누어 처리되었다. 셋째, 공간 객체들은 대부분 공간 색인을 가지고 있다. 본 논문에서는 이러한 공간 데이터베이스의 특성을 잘 반영하는 질의 최적화 기법을 제안한다. 첫 번째 방법으로 질의 수행 단계 이전의 최적화 단계에서부터 여과 및 정제를 분리하여 생각하는 것이다. 두 번째 방법으로는 복잡한 질의에 대해서 각각의 공간 연산을 여과/정제 단계로 분리한후 여러 정제 단계 연산들을 합쳐 한꺼번에 처리 할수 있고 여러 여과 단계 연산들도 마찬가지로 합쳐질 수 있다. 본 논문에서는 또한 여과/정제를 질의 최적화 단계에서 분리한 여과/정제 조기 분리 (ESFAR) 최적화 기법에 대한 규칙 기반 질의 최적화 기법을 제안한다.

Word Sense Disambiguation Using Knowledge Embedding (지식 임베딩 심층학습을 이용한 단어 의미 중의성 해소)

  • Oh, Dongsuk;Yang, Kisu;Kim, Kuekyeng;Whang, Taesun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.272-275
    • /
    • 2019
  • 단어 중의성 해소 방법은 지식 정보를 활용하여 문제를 해결하는 지식 기반 방법과 각종 기계학습 모델을 이용하여 문제를 해결하는 지도학습 방법이 있다. 지도학습 방법은 높은 성능을 보이지만 대량의 정제된 학습 데이터가 필요하다. 반대로 지식 기반 방법은 대량의 정제된 학습데이터는 필요없지만 높은 성능을 기대할수 없다. 최근에는 이러한 문제를 보완하기 위해 지식내에 있는 정보와 정제된 학습데이터를 기계학습 모델에 학습하여 단어 중의성 해소 방법을 해결하고 있다. 가장 많이 활용하고 있는 지식 정보는 상위어(Hypernym)와 하위어(Hyponym), 동의어(Synonym)가 가지는 의미설명(Gloss)정보이다. 이 정보의 표상을 기존의 문장의 표상과 같이 활용하여 중의성 단어가 가지는 의미를 파악한다. 하지만 정확한 문장의 표상을 얻기 위해서는 단어의 표상을 잘 만들어줘야 하는데 기존의 방법론들은 모두 문장내의 문맥정보만을 파악하여 표현하였기 때문에 정확한 의미를 반영하는데 한계가 있었다. 본 논문에서는 의미정보와 문맥정보를 담은 단어의 표상정보를 만들기 위해 구문정보, 의미관계 그래프정보를 GCN(Graph Convolutional Network)를 활용하여 임베딩을 표현하였고, 기존의 모델에 반영하여 문맥정보만을 활용한 단어 표상보다 높은 성능을 보였다.

  • PDF

Design and Implementation of IoT Middleware Using Data Refinement Scheme based on IETF CoAP (IETF CoAP 기반의 데이터 정제 기법을 이용한 IoT 미들웨어 설계 및 구현)

  • Wang, Jian;SaKong, June;Kwak, Ho-Young;Kim, DoHyun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.15 no.6
    • /
    • pp.123-128
    • /
    • 2015
  • Recently, a communication protocol for connectivity between various sensors and actuators is issue the key technology in IoT(Internet of Things). IETF(Internet Engineering Task Force) CoAP(Constrained Application Protocol) protocol supports the communication between things like sensors and actuator nodes in a limited environment. Smart-phone will work for the data processing of the sensors and the management of IoT nodes at the next generation communication environment. In this paper, we design the connection for smart-phone and IoT node based using IETF CoAP protocol, and implement the middleware with the proposed data refinement on smart-phone. The middleware detects and eliminates a error data and duplicated data using the proposed data refinement. The proposed data refinement scheme supports to transfer a reliability information in the constrained environment.