• 제목/요약/키워드: 데이터의 질

검색결과 2,256건 처리시간 0.051초

XML 레이블링 기법을 이용한 XML 조각 스트림에 대한 질의 처리 (Query Processing over XML Fragment Stream Using an XML Labelling Scheme)

  • 이상욱;김진;강현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.113-117
    • /
    • 2006
  • 유비쿼터스 컴퓨팅의 실현을 위해서는 이동 단말기의 자원 및 컴퓨팅 파워의 효율적 사용이 필수적이다. 특히, 이동 단말기에 내장된 소프트웨어의 수행에 있어 메모리 효율성, 에너지 효율성, 그리고 처리 효율성이 요구된다. 본 논문은 자원이 제약되어 있는 이동 단말기에서의 XML 데이터에 대한 질의 처리 기술에 관한 것이다. 메모리 용량이 크지 않은 단말기의 경우 대량의 XML 데이터에 대한 질의 처리를 수행하기 위해서는 XML 스트림 질의 처리 기술이 활용되어야 한다. 최근에 제시된 XFrag 기법은 홀-필러(hole-filler) 모델을 이용하여 XML 데이터를 XML 조각(fragment)으로 분할(fragmentation)하여 스트림으로 전송하고 처리할 수 있는 기법이다. 이는 메모리 효율성이 요구되는 이동 단말기에서 전체 XML 문서를 재구성하지 않고 XML 데이터에 대한 질의 처리를 가능하게 한다. 그러나 홀-필러 모델을 사용할 경우 홀과 필러에 대한 부가적인 정보를 저장해야 하므로 메모리 효율성이 높지 못하다. 본 논문에서는 XML 데이터의 구조 정보를 표현하는 XML 레이블링(labelling) 기법을 이용하여 XML 데이터를 조각으로 분할하여 조각 스트림에 대한 질의 처리를 수행하는 기법을 제시한다. 구현 및 성능 실험 결과 본 논문에서 제시한 기법이 기존의 XFrag 기법보다 메모리 사용량과 처리 시간 양면 모두에서 우수한 것으로 나타났다.

  • PDF

공간 데이터스트림의 입력 빈도와 데이터 밀집도 기반의 동적 부하제한 기법 (Dynamic Load Shedding Scheme based on Input Rate of Spatial Data Stream and Data Density)

  • 정원일
    • 한국산학기술학회논문지
    • /
    • 제16권3호
    • /
    • pp.2158-2164
    • /
    • 2015
  • u-GIS 환경에서는 실시간으로 유입되는 공간 데이터 스트림으로 인해 발생되는 부하를 제한하기 위한 연구가 계속되고 있다. 그러나 기존의 비공간 데이터 기반의 부하 제한 기법은 공간 데이터의 특성을 고려하지 않아 공간 질의 처리의 정확도를 감소시킨다. 또한, 공간 데이터 기반의 부하 제한 기법도 공간 데이터 스트림의 입력 빈도 변화와 공간 데이터의 밀집도를 반영하지 않아 질의 처리 정확도와 질의 처리 성능이 저하되는 문제가 존재한다. 이에 본 논문에서는 u-GIS 환경에서 부하 발생 빈도를 최소화하고 연속 질의 처리 성능과 정확도를 향상시키기 위해 공간 데이터의 밀집도와 공간데이터스트림의 입력 변화량을 이용하여 동적으로 부하를 제한하는 기법을 제안한다. 제안 기법에서는 부하제한 요구시 공간 이용도에 따라 질의에 참여할 확률이 낮은 데이터를 샘플링함으로써 연속 질의 처리 결과의 정확도와 질의 처리 속도를 향상시킬 수 있다.

궤적 데이터의 효율적인 연산 및 질의 처리 방법 연구 (A Study on the Method for Efficient Operation and Query Processing of the Trajectory Data)

  • 유기현;양평우;조현구;남광우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.175-178
    • /
    • 2015
  • 최근 모바일 장비 및 시스템의 발달로 위치정보와 이동 객체에 관련된 많은 서비스들이 연구되고 있다. 궤적은 이동 객체가 시간에 따라 변하는 위치정보들의 모음이다. 기존의 데이터베이스 시스템에서는 이동 객체 데이터 타입을 지원하지 않는다. 이 논문에서는 공간 데이터베이스로 많이 활용되고 있는 PostgreSQL/PostGIS 상에서 궤적 데이터의 연산 및 질의 처리가 가능한 확장형 모듈로써 PostTrajectory를 제안하고 있다. 또한, 궤적 데이터에 대한 다양한 질의 요구 조건들을 충족시킬 수 있는 함수들을 구현하여 궤적 데이터의 효율적인 질의 처리를 가능하게 하였다.

  • PDF

데이터웨어하우스에서 단순화된 격자를 이용한 데이터큐크의 실체뷰 선택 (Materialized View Selection for Datacube using Simplified Lattice in Datawarehouse)

  • 장지숙;서은주;이전영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.604-612
    • /
    • 1999
  • 데이터웨어하우스는 데이터분석을 위한 특수 목적의 데이터베이스로, 주로 데이터분석을 위한 질의(이하 OLAP 질의)가 던져진다. 그런데 OLAP질의는 수백만개의 레코드를 가지 테이블에 대해 하나 이상의 aggregation 함수와 group-by 연산자가 포함되므로, 질의 처리 시간은 수 분에서 수 시간이 걸린다. 이를 개선하기위하여 데이터 큐브를 구현함에 있어서의 문제는 디스크 공간이 한정되어 있기 때문에 평균 질의 처리 시간이 훨씬 짧아진다하더라도 모든 셀들을 실체화할수 없다. 따라서 한정된 디스크 공간을 최대한 활용하면서 가능한 빠른 평균 질의 처리 시간을 얻을 수 있도록 데이터 큐브의 일부만을 실체화 시켜야한다. 본 논문의 주제와 관련된 연구로는 Harinarayan[4] 이 제안한 greedy 알고리즘이 있다. 이 알고리즘은 1) 데이터 큐브를 격자구조로 표현한후, 2) 격자의 위에서부터 아래로 차례로 뷰들을 방문하면서 방문한 뷰가 실체화되 경우 데이터 큐브에 주는 이익을 계산한다. 3) 그 중 가장 이익이 큰 것을 선택한다. 3) 그중 가장 이익이 큰 것을 선택한다. 2)와 3)의 과정은 k개의 뷰를 선택할 경우, k번 반복된다. 이 알고리즘의 운영 시간은 데이터 큐브를 구성하는 뷰의 개수가 n개이고 그 중에서 k개를 실체화할 경우에 O(kn2)이다. 본 논문에서는 운영 시간을 향상시킨 수정된 greedy 알고리즘을 제안한다. 알고리즘 내부에서 실체화할 뷰를 선택할 때 격자를 단순화시킨 트리를 사용함으로써, 알고리즘 운영시간을 O(kn2)에서 O(kn)으로 향상시켰다.

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할 (Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization)

  • 황환규;김현국
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.23-30
    • /
    • 2004
  • 공간 질의 크기에 대한 근사치를 구하기 위해서는 입력 데이터 공간을 분할한 후 분할된 영역에 대하여 질의 결과 크기를 추정한다. 본 논문에서는 데이터 편재가 심한 공간 데이터에 대한 질의 크기 추정의 문제를 논의한다. 공간을 분할하는 기법으로 관계 데이터베이스에서 많이 사용되는 너비 균등, 높이 균등 히스토그램에 해당되는 면적 균등, 개수 균등 분할에 대한 방법을 검토하고 공간 인덱싱에 기초한 공간 분할방법에 대해서 알아본다. 본 논문에서는 공간 순서화 기법인 힐버트 공간 채움 곡선을 이용한 공간 분할을 제안한다. 제안한 방법과 기존의 방법을 실제 데이터와 인위 데이터를 사용하여 편재된 공간 데이터에 대한 질의 결과 크기의 추정에 대한 정확도를 비교한다. 본 실험에서 힐버트 채움 곡선에 의한 공간 분할이 공간 질의 크기 버켓 수의 변화, 데이터 위치 편재도의 변화, 데이터 크기의 변화에 대해서 기존의 분할 방법보다 질의 결과 크기 추정에 대해서 우수한 성능을 보였다.

데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법 (A Distributed SPARQL Query Processing Scheme Considering Data Locality and Query Execution Path)

  • 김병훈;김대윤;고건식;노연우;임종태;복경수;이병엽;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.275-283
    • /
    • 2017
  • 시맨틱 웹 서비스의 증가로 인해 RDF 데이터가 대용량화되고 있다. 대용량 RDF 데이터를 효율적으로 활용하기 위하여 다양한 분산 저장 및 질의 처리기법들이 연구되고 있다. 본 논문에서는 대용량 RDF 데이터의 데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법을 제안한다. 제안하는 기법은 질의 처리 시의 조인 비용 및 통신비용을 감소시키기 위해 분산 저장된 RDF 데이터의 지역성 및 질의 수행 경로를 고려한다. 분산 환경에서 SPARQL 질의를 처리할 때 데이터 지역성을 고려하여 WHERE절을 기준으로 해당 질의를 여러 개의 서브 질의로 분할한다. 제안하는 기법은 분할된 서브 질의들을 인덱스를 통해 연관 노드들끼리 그룹화 하여 처리함으로써 데이터 통신비용을 감소시킬 수 있다. 또한 그룹 화된 서브 질의 처리 시 불필요한 조인 및 대기 시간을 감소시키기 위해 데이터 파싱 비용, 노드별 데이터 통신량 및 대기 시간 등을 고려한 효율적인 질의 수행 경로를 생성한다. 다양한 성능평가를 통해 제안하는 기법이 기존 기법보다 우수함을 보인다.

OWL 데이터 검색을 위한 효율적인 저장 스키마 구축 방법 (A Storage Schema Construction Technique For Efficient Retrieval of OWL Data)

  • 우은미;박명제;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.7-9
    • /
    • 2005
  • 온톨로지 언어를 기반으로 하는 시맨틱 웹 상에서 온톨로지 데이터에 대한 질의를 효율적으로 처리하기 위해서는 질의 처리에 효과적인 저장 스키마의 구축이 필요하다. 본 논문에서는 온톨로지 데이터의 검색을 위한 효과적인 저장 스키마 구축 기법을 제안하고자 한다. 아울러 본 논문에서 제안하는 저장 스키마를 위한 질의 기법을 제안하고자 한다. 온톨로지 데이터를 추출할 때에는 계층 구조를 기반으로 질의 수행을 해야 한다. 따라서 본 논문에서는 계층 정보를 유지하기 위해 별도의 XML 문서를 기존의 넘버링 기법을 기반으로 생성하여 하위 정보의 추출을 효과적으로 지원하고자 한다. 실험을 통한 질의 처리 성능을 통해서 본 논문에서 제안하는 저장 스키마 기법과 질의 처리 기법이 효과적임을 보인다.

  • PDF

대용량 데이터 처리를 위한 질의 컬럼셋과 수평 파티션의 통합 방법 (Integrating Query Column-Sets and Horizontal Partitions on Very Large Data)

  • 정문영;이태휘;김성수;송혜원;원종호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.521-522
    • /
    • 2016
  • 분산된 테이터에 대한 질의 처리에서는 중간 데이터를 전송하는 단계에서 많은 디스크 I/O 및 네트워크 트래픽을 야기할 수 있다. 따라서, 질의에 필요하지 않은 데이터를 미리 필터링하면 불필요한 I/O 및 네트워크 전송을 줄일 수 있어 질의 처리 성능을 높일 수 있다. 이 논문에서는 질의 컬럼셋과 수평 파티션 방법을 통합하여 질의 처리에 불필요한 데이터를 초기 단계에 미리 필터링하여 질의 처리 성능을 높이는 방법을 제안한다.

RDF/S 및 OWL 문서에 대한 키워드 검색 알고리즘 (A New Keyword Search Algorithm for RDF/S and OWL Documents)

  • 김학수;손진현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.321-324
    • /
    • 2009
  • XML 또는 RDBMS 에서의 키워드 검색은 기존의 정보 검색처럼 데이터의 구조 또는 질의 언어에 대한 사전 지식 없이 질의 처리를 수행하는 연구 분야 중의 하나이다. 오늘날 키워드 검색을 효율적으로 처리하기 위해 제안된 연구들은 그래프 기반의 질의 처리에 기반한 기법들에 초점을 두고 있다. 이러한 접근들은 XML 또는 RDBMS 안에 존재하는 데이터를 그래프 구조에 기반한 데이터로 변환한 다음에 그래프 탐색을 통해서 모든 질의 키워드를 포함하는 결과들을 찾는다. 그러나 기존의 기법들을 RDF/S 또는 OWL 문서와 같은 복잡한 그래프 구조에 적용하기에는 질의 성능 측면에서 많은 문제점을 가지고 있다. 또한, 온톨로지 언어의 의미적 단위로서의 RDF 트리플을 고려하지 않기 때문에 질의 결과에 대한 신뢰성을 보장할 수 없다. 이러한 관점에서 본 논문은 RDF/S 또는 OWL 저장소에서 효율적이고 의미적인 키워드 검색을 위한 인덱싱 기법 및 알고리즘을 설계한다.