• 제목/요약/키워드: 데이터 정제

검색결과 470건 처리시간 0.031초

실시간 RFID 미들웨어에서의 태그 데이터 고속 필터링 방법 (A method for high-speed event processing in the real-time RFID middleware systems)

  • 박미선;김용진;유민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.435-436
    • /
    • 2009
  • RFID 시스템의 미들웨어는 태그에서 생성된 방대한 양의 데이터를 리더를 통해 전달받는다. RFID 미들웨어는 이러한 데이터를 정제하여 응용 애플리케이션에 전달하는 기능을 담당한다. 하지만 태그 데이터 정제 과정에서 발생되는 지연 시간은 RFID 미들웨의 응답성을 저하시킨다. 본 논문은 EPCglobal 의 RFID 미들웨어 표준인 ALE 에 의거하여 태그 데이터에 대한 다수의 필터링 조건들이 주어진 RFID 미들웨어 환경에서 실시간으로 수집되는 대용량의 태그에 대한 고속 필터링 엔진을 설계한다. 이를 위하여 Intermediate node 들이 key 값을 저장하는 Binary Search Tree 형태를 구성하여 태그를 필터링하는 방법을 제안한다. 결과로써 기존의 순차적인 RFID 데이터 필터링에 비해 고속의 필터링 성능을 보이며 특히 필터의 수가 증가할수록 필터링의 효율이 높아짐을 보인다.

병렬 다중 공간 조인 알고리즘의 구현 및 성능평가 (Implementation and Performance Evaluation of Parallel Multi-way Spatial Join)

  • 류우석;김진덕;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.123-125
    • /
    • 1998
  • 지리 정보 시스템이서 다중 공간 조인과 같은 많은 기하 계산을 필요로 하는 질의를 처리하기 위해서는 질의에 대한 병렬화 작업을 통해 실행 시간을 최소화 하는 것이 필수적이다. 다중 공간 조인은 정제에서 많은 시간을 소비하므로 여과와 정제를 분리하여 각각을 수행하는 것이 정제 시간을 단축하게 되고 따라서 좋은 성능을 나타낼 수 있다. 그러므로 다중 공간 조인을 병렬화 하기 위해서는 다중 공간 여과와 정제 각각에 대해 병렬 실행 계획을 세우는 것이 중요하다. 이 논문에서는 우선적으로 병렬 공간 여과를 수행하기 위한 두가지 알고리즘, 즉 blush tree을 사용한 다중 공간 여과와 pipelining을 사용한 다중 공간 여과의 병렬화를 비교한다. 그리고, 다중 공간 여과의 결과로서 생성되는 중간 결과 테이블에서 데이터의 중복에 따라 정제 성능의 저하가 발생되는데, 이를 효율적으로 제거하기 위한 두가지 그래프 생성 알고리즘을 제안하고 이를 비교한다. 그리고, 생성된 그래프에서 병렬 정제를 수행하기 위한 여러 가지 분할 알고리즘을 제안하고 이를 비교 평가한다. 이런 일련의 작업을 통해 우수한 성능의 병렬 다중 공간 조인 방법을 제안하고 성능 평가를 통해 최적의 병렬 수행 방법을 도출한다.

데이터 오·결측 저감 정제 알고리즘 (Data Cleansing Algorithm for reducing Outlier)

  • 이종원;김호성;황철현;강인식;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.342-344
    • /
    • 2018
  • 본 논문에서는 기존 오 결측 데이터 분석 기법인 평균 대체법, 상관계수 수치분석, 그래프 상관성 분석 및 통계 전문가 분석 등 통계적 방법으로 대체 가능성을 조사하여 정수처리 공정에서 계측되는 각종 이상 데이터를 정제하기 위한 방법을 다양한 분석연구로 진행하였다. 또한 물 정보 데이터 오 결측 저감 정제 알고리즘의 신뢰성 및 검증에 있어 분위수 패턴과 딥러닝 기반의 LSTM 알고리즘으로 동작하는 시스템을 모델링하고, Keras, Theano, Tensorflow 등의 오픈 소스 라이브러리로 구현할 수 있는 체계를 연구하였다.

  • PDF

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

모바일 스마트 장치 배터리의 잔여 시간 예측 향상을 위한 데이터 전처리 프레임워크 (A Data Preprocessing Framework for Improving Estimation Accuracy of Battery Remaining Time in Mobile Smart Devices)

  • 탁성우
    • 한국정보통신학회논문지
    • /
    • 제24권4호
    • /
    • pp.536-545
    • /
    • 2020
  • 모바일 스마트 장치 배터리의 잔여 시간을 예측하기 위해 범용 통계적 회귀 기법을 적용한 경우, 배터리 잔량별 배터리 사용 시간의 편차가 커질수록 범용 통계적 회귀 기법의 예측 정확도가 낮아진다. 따라서 범용 통계적 회귀 기법의 예측 정확도를 향상시키기 위해서는 배터리 잔량별 배터리 사용 시간의 편차가 큰 원 측정 데이터를 가공 처리하여 정제된 데이터로 변환시키는 작업이 필요하다. 이에 본 논문에서는 원 측정 데이터를 정제된 데이터로 가공 처리하는 데이터 전처리 프레임워크를 제안하였다. 제안한 프레임워크를 통해 가공 처리하여 정제된 데이터를 범용 통계적 회귀 기법에 적용한 결과, 범용 통계적 회귀 기법의 예측 정확도가 향상됨을 확인하였다.

데이터베이스 효율성 강화를 위하여 지식베이스를 이용한 다단계 주소 정제 방안 (Enhancing Database Efficiency using Knowledge Base Dependent Multistage Address Cleansing Technique)

  • 조재익;이태경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.415-418
    • /
    • 2005
  • 데이터베이스는 인터넷 사이버 공간에서 사용자 개인 정보와 활용 정보 등을 저장, 관리 하고 있다. 저장된 불필요한 많은 양의 데이터를 삭제 하거나 혹은 올바른 정보로 수정하여 데이터베이스를 운영한다면 데이터베이스의 유지 보수에 필요한 비용을 감소 시킬 수 있으며, 데이터의 오류로 발생할 수 있는 우편 발송이나 기타 사용자 관리 등에서의 부차적인 손실 또한 막을 수 있는 이점이 있다. 이를 위하여 본 논문에서는 데이터베이스에서 사용자 주소를 올바른 주소로 정제해 줄 수 있도록 지식기반을 이용한 다단계 정제방안에 대해 제안한다.

  • PDF

RFID & 워크플로우 관리 시스템 통합 프레임워크 설계 (Unified Framework Design of RFID & Workflow System)

  • 안형진;이기원;박민재;김광훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.340-345
    • /
    • 2006
  • RFID 기술을 이루는 핵심 컴포넌트라 할 수 있는 RFID 미들웨어는 태그(Tag)로부터 수신된 대량의 EPC 데이터에 대한 정제를 통하여 응용 프로그램이 요구하는 데이터 형태로의 선처리 기능을 수행하는 역할을 담당하는 소프트웨어 플랫폼이다. RFID 미들웨어로부터 수집, 정제된 데이터들은 해당 데이터들과 연관되는 비즈니스 애플리케이션들이 요구하는 정보에 대한 키로써의 역할을 하게 된다. 이와 같은 태그로부터 수신된 대량의 EPC 데이터와 실제 응용 측이 요구하는 정보와의 맵핑을 통하여 비즈니스 애플리케이션들의 의미있는 데이터로써 활용된다. 이러한 데이터들이 사용되는 비즈니스 프로세스 영역에서의 업무들의 일련의 절차들을 통한 자동화 처리 구성이 가능할 경우, 절차들을 구성하는 단위 업무들과 직접적으로 연계되는 비즈니스 애플리케이션들에 대한 워크플로우를 처리 담당하는 비즈니스 미들웨어와 애플리케이션의 처리에 필요한 관련 데이터와의 연동 방안을 고려하여 통합된 모델을 구성하는 것이 가능하다. 본 논문에서는 RFID 기술의 활용 도메인을 엔터프라이즈 영역에 초점을 맞추고, 비즈니스 업무의 처리 대상이 되는 정보 및 자산들에 대한 데이터 수집 및 관리를 담당하는 RFID 측과 비즈니스 관련 데이터를 바탕으로 실제 비즈니스 프로세스를 구성하는 단위 업무들의 자동화 처리를 담당하는 워크플로우 측과의 연계 방안에 대한 기술 및 통합 프레임워크를 제시하고자 한다.

  • PDF

상품평 데이터와 웹 검색엔진을 이용한 상품별 평가항목 자동 추출 (Automatic Product Attribute Extraction from Reviews Using Web Search Engine)

  • 이우철;이현아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.107-110
    • /
    • 2008
  • 상품평은 인터넷 쇼핑 이용자들의 최종 구매결정에 큰 영향을 미치는 것으로 알려져 있다. 많은 쇼핑몰에서 상품평 활성화를 위해 노력하고 있지만, 상품평을 모으는 것에만 주력할 뿐 기존에 수집된 상품평을 제공하는 방법에 있어서는 원시적인 수준에 그치고 있다. 상품평을 좀 더 효율적으로 제공하려면 사용자들이 상품평에서 찾게 될 평가항목들을 미리 예측하여 그 항목에 따라 상품평을 분류/요약해서 제공하는 방법을 생각할 수 있다. 본 논문에서는 상품평과 웹 검색엔진을 이용하여 각 상품별 평가항목들을 자동으로 추출하는 방법을 제안한다. 상품평 데이터의 특성상 노이즈가 많기 때문에 먼저 데이터를 정제하고, 정제된 상품평 데이터를 형태소 분석하여 후보명사들을 선택한다. 선택된 후보명사를 웹 검색엔진에 질의하여 반환된 결과 값으로 상품 카테고리와 후보명사 간 연관도를 계산하여 평가항목을 추출한다. 실험은 5개 상품 카테고리의 170,294개 실제 상품평을 대상으로 각 카테고리별 평가항목을 추출하였다.

공간 질의 최적화에서 여과 및 정제 단게의 조기 분리 (Early Separation of Filter and Refinement Steps in Spatial Query Optimization)

  • 박호현;이찬근;이용주;정진완
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.353-364
    • /
    • 1999
  • 공간 데이터베이스는 일반 관계형 데이터베이스나 객체지향 데이터베이스에 비해 다음과 같은 특징을 가진다. 첫째, 공간 데이터베이스에서의 질의는 공간 질의와 비공간 질의가 섞여서 들어 온다. 둘째, 공간 질의는 비공간 질의에 비해 데이터의 복잡성과 방대함으로 인해 주로 2 단계(여과 단계 및 정제 단계)로 나누어 처리되었다. 셋째, 공간 객체들은 대부분 공간 색인을 가지고 있다. 본 논문에서는 이러한 공간 데이터베이스의 특성을 잘 반영하는 질의 최적화 기법을 제안한다. 첫 번째 방법으로 질의 수행 단계 이전의 최적화 단계에서부터 여과 및 정제를 분리하여 생각하는 것이다. 두 번째 방법으로는 복잡한 질의에 대해서 각각의 공간 연산을 여과/정제 단계로 분리한후 여러 정제 단계 연산들을 합쳐 한꺼번에 처리 할수 있고 여러 여과 단계 연산들도 마찬가지로 합쳐질 수 있다. 본 논문에서는 또한 여과/정제를 질의 최적화 단계에서 분리한 여과/정제 조기 분리 (ESFAR) 최적화 기법에 대한 규칙 기반 질의 최적화 기법을 제안한다.