• Title/Summary/Keyword: 청크

Search Result 41, Processing Time 0.026 seconds

A Bitmap Index for Chunk-Based MOLAP Cubes (청크 기반 MOLAP 큐브를 위한 비트맵 인덱스)

  • Lim, Yoon-Sun;Kim, Myung
    • Journal of KIISE:Databases
    • /
    • v.30 no.3
    • /
    • pp.225-236
    • /
    • 2003
  • MOLAP systems store data in a multidimensional away called a 'cube' and access them using way indexes. When a cube is placed into disk, it can be Partitioned into a set of chunks of the same side length. Such a cube storage scheme is called the chunk-based MOLAP cube storage scheme. It gives data clustering effect so that all the dimensions are guaranteed to get a fair chance in terms of the query processing speed. In order to achieve high space utilization, sparse chunks are further compressed. Due to data compression, the relative position of chunks cannot be obtained in constant time without using indexes. In this paper, we propose a bitmap index for chunk-based MOLAP cubes. The index can be constructed along with the corresponding cube generation. The relative position of chunks is retained in the index so that chunk retrieval can be done in constant time. We placed in an index block as many chunks as possible so that the number of index searches is minimized for OLAP operations such as range queries. We showed the proposed index is efficient by comparing it with multidimensional indexes such as UB-tree and grid file in terms of time and space.

A Z-Index based MOLAP Cube Storage Scheme (Z-인덱스 기반 MOLAP 큐브 저장 구조)

  • Kim, Myung;Lim, Yoon-Sun
    • Journal of KIISE:Databases
    • /
    • v.29 no.4
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP is a technology that accelerates multidimensional data analysis by storing data in a multidimensional array and accessing them using their position information. Depending on a mapping scheme of a multidimensional array onto disk, the sliced of MOLAP operations such as slice and dice varies significantly. [1] proposed a MOLAP cube storage scheme that divides a cube into small chunks with equal side length, compresses sparse chunks, and stores the chunks in row-major order of their chunk indexes. This type of cube storage scheme gives a fair chance to all dimensions of the input data. Here, we developed a variant of their cube storage scheme by placing chunks in a different order. Our scheme accelerates slice and dice operations by aligning chunks to physical disk block boundaries and clustering neighboring chunks. Z-indexing is used for chunk clustering. The efficiency of the proposed scheme is evaluated through experiments. We showed that the proposed scheme is efficient for 3~5 dimensional cubes that are frequently used to analyze business data.

Natural Language Inference using Dependency Parsing (의존 구문 분석을 활용한 자연어 추론)

  • Kim, Seul-gi;Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.189-194
    • /
    • 2021
  • 자연어 추론은 두 문장 사이의 의미 관계를 분류하는 작업이다. 본 논문에서 제안하는 의미 추론 방법은 의존 구문 분석을 사용하여 동일한 구문 정보나 기능 정보를 가진 두 개의 (피지배소, 지배소) 어절 쌍에서 하나의 어절이 겹칠 때 두 피지배소를 하나의 청크로 만들어주고 청크 기준으로 만들어진 의존 구문 분석을 사용하여 자연어 추론 작업을 수행하는 방법을 의미한다. 이러한 의미 추론 방법을 통해 만들어진 청크와 구문 구조 정보를 Biaffine Attention을 사용하여 한 문장에 대한 청크 단위의 구문 구조 정보를 반영하고 구문 구조 정보가 반영된 두 문장을 Bilinear을 통해 관계를 예측하는 시스템을 제안한다. 실험 결과 정확도 90.78%로 가장 높은 성능을 보였다.

  • PDF

Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model (Maximum Entropy 모델을 이용한 나열 및 병렬형 인식)

  • Lim, Soo-Jong;Lee, Chang-Ki;Hur, Jeong;Jang, Myoung-Gil
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

A MOLAP Cube Storage Scheme for Fast Query Processing (고속 질의처리를 위한 MOLAP 큐브 저장구조)

  • Lim, Yoon-Sun;Yang, Hye-Yeong;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.127-129
    • /
    • 2001
  • 데이터 웨어하우스의 데이터를 다차원적으로 분석하여 그 결과를 온라인으로 사용자에게 제공하는 것을 OLAP 이라고 하고, 이 때 데이터를 큐브라고 불리는 배열에 저장해 두고 데이터를 위치정보를 통해 엑세스하는 시스템을 MOLAP 시스템이라고 한다. OLAP 연산 도중에 디스크로부터 읽어야 하는 데이터의 양을 감소시키기 위해 큐브를 압축된 청크 단위로 저장하는 방안이 이미 제안되고 있으나, 큐브의 데이터 분포, 청크와 디스크 블록의 크기 관계 등을 고려하여 디스크 엑세스를 줄이는 방안에 관한 연구는 아직 소개된 바가 없다. 본 연구에서는 청크들을 밀도를 기준으로하여 군집화 하고, 큐브내의 인접 청크들을 가능한 한 동일한 디스크 블록에 속하게 함으로써, OLAP의 주요 연산인 슬라이스, 다이스와 같은 연산의 속도를 향상시키는 방안을 제시한다. 제안한 저장구조는 실험을 통해 그 효율성을 증명하였다.

  • PDF

Chunk Placement Scheme on Distributed File System Using Deduplication File System (중복제거 파일 시스템을 적용한 분산 파일 시스템에서의 청크 배치 기법)

  • Kim, Keonwoo;Kim, Jeehong;Eom, Young Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.68-70
    • /
    • 2013
  • 대량의 데이터를 효과적으로 저장하고 관리하기 위해서 클라우드 스토리지 시스템에서는 분산 파일 시스템 기술이 이용되고 있다. 그러나 데이터가 증가함에 따라 분산 파일 시스템을 이용함에도 스토리지 확장 비용이 증가하게 된다. 본 논문에서는 분산 파일 시스템의 스토리지 확장 비용을 줄이기 위해서 우리는 중복제거 파일 시스템을 적용한 분산 파일 시스템에서의 청크 배치 기법을 제안한다. 오픈 소스 기반의 분산 파일 시스템인 MooseFS 에 중복제거 파일 시스템인 lessfs 를 적용함으로써 스토리지의 가용공간을 늘릴 수 있으며, 이는 스토리지 확장 비용을 줄이는 효과를 가져온다. 또한, 동일한 청크는 같은 청크 서버에 배치 시킴으로써 중복제거 기회를 높인다. 실험을 통해서 제안 시스템의 중복제거량과 성능에 대해서 평가한다.

Transaction Update method based on Fuzzy Chunk for QoS Performance Improvement of Mobile Streaming Service (모바일 스트리밍 서비스의 QoS 개선을 위한 퍼지 청크 기반의 트랜잭션 갱신방법)

  • Jeong, Taeg-Won;Lee, Chong-Deuk
    • Journal of Digital Contents Society
    • /
    • v.9 no.4
    • /
    • pp.543-550
    • /
    • 2008
  • There exist many QoS problems such as delay and jitter for mobile streaming due to limited bandwidth. This paper proposed a transaction update method based on Fuzzy chunk to solve the problems. The proposed method updated a transaction, which is classified as a read or an update, using Fuzzy filtering. A chunk block is rearranged according to the fuzziness which is classified as better relevance for fuzziness greater than 0.8, relevance for fuzziness between 0.5 and 0.7, and less irrelevance for fuzziness less than 0.5. According to the simulation result for the rearranged chunk block, the proposed method has better performance than those of RBM(Randon Based method), DBM(Distance Based Method), and FBM(Frequency Based Method).

  • PDF

Performance Evaluation of QUIC-based Data Transmission for Block Re-encoding (블록 재인코딩을 위한 QUIC 기반 데이터 전송 성능 평가)

  • Youn-Ji Noh;Myungcheol Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.248-249
    • /
    • 2023
  • 블록체인의 데이터 중복 저장 문제를 해결하기 위해 소거 코드 기반의 분산 저장 방법이 제안되었고, 이에 따라 청크 데이터의 효율적인 전파가 중요해졌다. 본 연구는 이를 위해 QUIC 프로토콜을 도입하여 청크 데이터의 신속한 전파 기능을 구현하였다. 더불어 Reed-Solomon 코드 기반 시스템에서 QUIC 프로토콜의 효용성을 검증한 결과, QUIC 프로토콜은 분산 저장 시스템에서 청크 데이터 전파와 재인코딩 성능에 결정적 역할을 수행함을 확인하였다. 이는 QUIC 프로토콜이 블록체인과 같은 네트워크 환경에서 효과적으로 사용될 수 있음을 나타낸다.

A Study on Optimal Parameter of Chunk in RAG based on Document Characteristics (문서 특징에 따른 RAG의 최적 청크 설정에 대한 연구)

  • Geumsang Lee;Jaehwan Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.792-793
    • /
    • 2024
  • RAG는 정보 검색과 셍성 모델을 결합하여 주어진 주제나 질문에 관련된 지식을 생성하는 방법이다. 본 연구는 RAG의 성능을 높이기 위해 문서 내 문장의 평균 길이에 따른 청크의 크기와 오버랩 크기를 비교하여 최적화한다. 이를 통해 참조 문서의 특징에 맞춘 RAG를 개발할 수 있고, 다양한 종류의 글에 대해 맞춤형 답변을 제공할 수 있을 것으로 예상된다.

  • PDF

Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese (확장청크와 세분화된 문장부호에 기반한 중국어 최장명사구 식별)

  • Bai, Xue-Mei;Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.320-328
    • /
    • 2009
  • In general, there are two types of noun phrases(NP): Base Noun Phrase(BNP), and Maximal-Length Noun Phrase(MNP). MNP identification can largely reduce the complexity of full parsing, help analyze the general structure of complex sentences, and provide important clues for detecting main predicates in Chinese sentences. In this paper, we propose a 2-phase hybrid approach for MNP identification which adopts salient features such as expanded chunks and classified punctuations to improve performance. Experimental result shows a high quality performance of 89.66% in $F_1$-measure.