• 제목/요약/키워드: 데이터 정제

검색결과 466건 처리시간 0.03초

병렬 다중 공간 조인 알고리즘의 구현 및 성능평가 (Implementation and Performance Evaluation of Parallel Multi-way Spatial Join)

  • 류우석;김진덕;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.123-125
    • /
    • 1998
  • 지리 정보 시스템이서 다중 공간 조인과 같은 많은 기하 계산을 필요로 하는 질의를 처리하기 위해서는 질의에 대한 병렬화 작업을 통해 실행 시간을 최소화 하는 것이 필수적이다. 다중 공간 조인은 정제에서 많은 시간을 소비하므로 여과와 정제를 분리하여 각각을 수행하는 것이 정제 시간을 단축하게 되고 따라서 좋은 성능을 나타낼 수 있다. 그러므로 다중 공간 조인을 병렬화 하기 위해서는 다중 공간 여과와 정제 각각에 대해 병렬 실행 계획을 세우는 것이 중요하다. 이 논문에서는 우선적으로 병렬 공간 여과를 수행하기 위한 두가지 알고리즘, 즉 blush tree을 사용한 다중 공간 여과와 pipelining을 사용한 다중 공간 여과의 병렬화를 비교한다. 그리고, 다중 공간 여과의 결과로서 생성되는 중간 결과 테이블에서 데이터의 중복에 따라 정제 성능의 저하가 발생되는데, 이를 효율적으로 제거하기 위한 두가지 그래프 생성 알고리즘을 제안하고 이를 비교한다. 그리고, 생성된 그래프에서 병렬 정제를 수행하기 위한 여러 가지 분할 알고리즘을 제안하고 이를 비교 평가한다. 이런 일련의 작업을 통해 우수한 성능의 병렬 다중 공간 조인 방법을 제안하고 성능 평가를 통해 최적의 병렬 수행 방법을 도출한다.

데이터 오·결측 저감 정제 알고리즘 (Data Cleansing Algorithm for reducing Outlier)

  • 이종원;김호성;황철현;강인식;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.342-344
    • /
    • 2018
  • 본 논문에서는 기존 오 결측 데이터 분석 기법인 평균 대체법, 상관계수 수치분석, 그래프 상관성 분석 및 통계 전문가 분석 등 통계적 방법으로 대체 가능성을 조사하여 정수처리 공정에서 계측되는 각종 이상 데이터를 정제하기 위한 방법을 다양한 분석연구로 진행하였다. 또한 물 정보 데이터 오 결측 저감 정제 알고리즘의 신뢰성 및 검증에 있어 분위수 패턴과 딥러닝 기반의 LSTM 알고리즘으로 동작하는 시스템을 모델링하고, Keras, Theano, Tensorflow 등의 오픈 소스 라이브러리로 구현할 수 있는 체계를 연구하였다.

  • PDF

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

모바일 스마트 장치 배터리의 잔여 시간 예측 향상을 위한 데이터 전처리 프레임워크 (A Data Preprocessing Framework for Improving Estimation Accuracy of Battery Remaining Time in Mobile Smart Devices)

  • 탁성우
    • 한국정보통신학회논문지
    • /
    • 제24권4호
    • /
    • pp.536-545
    • /
    • 2020
  • 모바일 스마트 장치 배터리의 잔여 시간을 예측하기 위해 범용 통계적 회귀 기법을 적용한 경우, 배터리 잔량별 배터리 사용 시간의 편차가 커질수록 범용 통계적 회귀 기법의 예측 정확도가 낮아진다. 따라서 범용 통계적 회귀 기법의 예측 정확도를 향상시키기 위해서는 배터리 잔량별 배터리 사용 시간의 편차가 큰 원 측정 데이터를 가공 처리하여 정제된 데이터로 변환시키는 작업이 필요하다. 이에 본 논문에서는 원 측정 데이터를 정제된 데이터로 가공 처리하는 데이터 전처리 프레임워크를 제안하였다. 제안한 프레임워크를 통해 가공 처리하여 정제된 데이터를 범용 통계적 회귀 기법에 적용한 결과, 범용 통계적 회귀 기법의 예측 정확도가 향상됨을 확인하였다.

데이터베이스 효율성 강화를 위하여 지식베이스를 이용한 다단계 주소 정제 방안 (Enhancing Database Efficiency using Knowledge Base Dependent Multistage Address Cleansing Technique)

  • 조재익;이태경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.415-418
    • /
    • 2005
  • 데이터베이스는 인터넷 사이버 공간에서 사용자 개인 정보와 활용 정보 등을 저장, 관리 하고 있다. 저장된 불필요한 많은 양의 데이터를 삭제 하거나 혹은 올바른 정보로 수정하여 데이터베이스를 운영한다면 데이터베이스의 유지 보수에 필요한 비용을 감소 시킬 수 있으며, 데이터의 오류로 발생할 수 있는 우편 발송이나 기타 사용자 관리 등에서의 부차적인 손실 또한 막을 수 있는 이점이 있다. 이를 위하여 본 논문에서는 데이터베이스에서 사용자 주소를 올바른 주소로 정제해 줄 수 있도록 지식기반을 이용한 다단계 정제방안에 대해 제안한다.

  • PDF

RFID & 워크플로우 관리 시스템 통합 프레임워크 설계 (Unified Framework Design of RFID & Workflow System)

  • 안형진;이기원;박민재;김광훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.340-345
    • /
    • 2006
  • RFID 기술을 이루는 핵심 컴포넌트라 할 수 있는 RFID 미들웨어는 태그(Tag)로부터 수신된 대량의 EPC 데이터에 대한 정제를 통하여 응용 프로그램이 요구하는 데이터 형태로의 선처리 기능을 수행하는 역할을 담당하는 소프트웨어 플랫폼이다. RFID 미들웨어로부터 수집, 정제된 데이터들은 해당 데이터들과 연관되는 비즈니스 애플리케이션들이 요구하는 정보에 대한 키로써의 역할을 하게 된다. 이와 같은 태그로부터 수신된 대량의 EPC 데이터와 실제 응용 측이 요구하는 정보와의 맵핑을 통하여 비즈니스 애플리케이션들의 의미있는 데이터로써 활용된다. 이러한 데이터들이 사용되는 비즈니스 프로세스 영역에서의 업무들의 일련의 절차들을 통한 자동화 처리 구성이 가능할 경우, 절차들을 구성하는 단위 업무들과 직접적으로 연계되는 비즈니스 애플리케이션들에 대한 워크플로우를 처리 담당하는 비즈니스 미들웨어와 애플리케이션의 처리에 필요한 관련 데이터와의 연동 방안을 고려하여 통합된 모델을 구성하는 것이 가능하다. 본 논문에서는 RFID 기술의 활용 도메인을 엔터프라이즈 영역에 초점을 맞추고, 비즈니스 업무의 처리 대상이 되는 정보 및 자산들에 대한 데이터 수집 및 관리를 담당하는 RFID 측과 비즈니스 관련 데이터를 바탕으로 실제 비즈니스 프로세스를 구성하는 단위 업무들의 자동화 처리를 담당하는 워크플로우 측과의 연계 방안에 대한 기술 및 통합 프레임워크를 제시하고자 한다.

  • PDF

상품평 데이터와 웹 검색엔진을 이용한 상품별 평가항목 자동 추출 (Automatic Product Attribute Extraction from Reviews Using Web Search Engine)

  • 이우철;이현아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.107-110
    • /
    • 2008
  • 상품평은 인터넷 쇼핑 이용자들의 최종 구매결정에 큰 영향을 미치는 것으로 알려져 있다. 많은 쇼핑몰에서 상품평 활성화를 위해 노력하고 있지만, 상품평을 모으는 것에만 주력할 뿐 기존에 수집된 상품평을 제공하는 방법에 있어서는 원시적인 수준에 그치고 있다. 상품평을 좀 더 효율적으로 제공하려면 사용자들이 상품평에서 찾게 될 평가항목들을 미리 예측하여 그 항목에 따라 상품평을 분류/요약해서 제공하는 방법을 생각할 수 있다. 본 논문에서는 상품평과 웹 검색엔진을 이용하여 각 상품별 평가항목들을 자동으로 추출하는 방법을 제안한다. 상품평 데이터의 특성상 노이즈가 많기 때문에 먼저 데이터를 정제하고, 정제된 상품평 데이터를 형태소 분석하여 후보명사들을 선택한다. 선택된 후보명사를 웹 검색엔진에 질의하여 반환된 결과 값으로 상품 카테고리와 후보명사 간 연관도를 계산하여 평가항목을 추출한다. 실험은 5개 상품 카테고리의 170,294개 실제 상품평을 대상으로 각 카테고리별 평가항목을 추출하였다.

공간 질의 최적화에서 여과 및 정제 단게의 조기 분리 (Early Separation of Filter and Refinement Steps in Spatial Query Optimization)

  • 박호현;이찬근;이용주;정진완
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.353-364
    • /
    • 1999
  • 공간 데이터베이스는 일반 관계형 데이터베이스나 객체지향 데이터베이스에 비해 다음과 같은 특징을 가진다. 첫째, 공간 데이터베이스에서의 질의는 공간 질의와 비공간 질의가 섞여서 들어 온다. 둘째, 공간 질의는 비공간 질의에 비해 데이터의 복잡성과 방대함으로 인해 주로 2 단계(여과 단계 및 정제 단계)로 나누어 처리되었다. 셋째, 공간 객체들은 대부분 공간 색인을 가지고 있다. 본 논문에서는 이러한 공간 데이터베이스의 특성을 잘 반영하는 질의 최적화 기법을 제안한다. 첫 번째 방법으로 질의 수행 단계 이전의 최적화 단계에서부터 여과 및 정제를 분리하여 생각하는 것이다. 두 번째 방법으로는 복잡한 질의에 대해서 각각의 공간 연산을 여과/정제 단계로 분리한후 여러 정제 단계 연산들을 합쳐 한꺼번에 처리 할수 있고 여러 여과 단계 연산들도 마찬가지로 합쳐질 수 있다. 본 논문에서는 또한 여과/정제를 질의 최적화 단계에서 분리한 여과/정제 조기 분리 (ESFAR) 최적화 기법에 대한 규칙 기반 질의 최적화 기법을 제안한다.

지식 임베딩 심층학습을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation Using Knowledge Embedding)

  • 오동석;양기수;김규경;황태선;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-275
    • /
    • 2019
  • 단어 중의성 해소 방법은 지식 정보를 활용하여 문제를 해결하는 지식 기반 방법과 각종 기계학습 모델을 이용하여 문제를 해결하는 지도학습 방법이 있다. 지도학습 방법은 높은 성능을 보이지만 대량의 정제된 학습 데이터가 필요하다. 반대로 지식 기반 방법은 대량의 정제된 학습데이터는 필요없지만 높은 성능을 기대할수 없다. 최근에는 이러한 문제를 보완하기 위해 지식내에 있는 정보와 정제된 학습데이터를 기계학습 모델에 학습하여 단어 중의성 해소 방법을 해결하고 있다. 가장 많이 활용하고 있는 지식 정보는 상위어(Hypernym)와 하위어(Hyponym), 동의어(Synonym)가 가지는 의미설명(Gloss)정보이다. 이 정보의 표상을 기존의 문장의 표상과 같이 활용하여 중의성 단어가 가지는 의미를 파악한다. 하지만 정확한 문장의 표상을 얻기 위해서는 단어의 표상을 잘 만들어줘야 하는데 기존의 방법론들은 모두 문장내의 문맥정보만을 파악하여 표현하였기 때문에 정확한 의미를 반영하는데 한계가 있었다. 본 논문에서는 의미정보와 문맥정보를 담은 단어의 표상정보를 만들기 위해 구문정보, 의미관계 그래프정보를 GCN(Graph Convolutional Network)를 활용하여 임베딩을 표현하였고, 기존의 모델에 반영하여 문맥정보만을 활용한 단어 표상보다 높은 성능을 보였다.

  • PDF

IETF CoAP 기반의 데이터 정제 기법을 이용한 IoT 미들웨어 설계 및 구현 (Design and Implementation of IoT Middleware Using Data Refinement Scheme based on IETF CoAP)

  • 왕건;사공준;곽호영;김도현
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.123-128
    • /
    • 2015
  • 최근 IoT(Internet of Things)에서 다양한 사물을 인터넷에 연결하여 정보를 교환하는 통신 프로토콜에 대한 관심이 집중되고 있다. 현재 IETF(Internet Engineering Task Force) 표준화 기구에서는 제한된 환경에서 센서나 구동체와 같은 사물 간의 통신을 지원하는 CoAP(Constrained Application Protocol) 프로토콜을 표준으로 채택하고 있다. 향후 IoT 환경에서 서버뿐만 아니라 스마트 폰에서 센서로 부터 데이터를 수집하거나, 구동체에게 명령을 전달하고, 사물을 관리하는 역할을 담당할 것으로 예상된다. 본 논문에서는 IETF CoAP 을 기반으로 스마트 폰과 IoT 노드사이의 연결 구성을 설계하고, 스마트 폰에서 데이터 정제 기능을 갖는 미들웨어를 설계하고 구현한다. 제안된 데이터 정제 기법을 이용하여 송수신 과정에서 발생하는 오류 데이터와 중복 데이터를 확인하고 제거함으로써 제한된 외부 환경에서 신뢰성 있는 정보를 전달하는 데 기여할 것이다.