• 제목/요약/키워드: 청크

검색결과 41건 처리시간 0.023초

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

Z-인덱스 기반 MOLAP 큐브 저장 구조 (A Z-Index based MOLAP Cube Storage Scheme)

  • 김명;임윤선
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP(multi-dimensional online analytical processing)은 데이타의 다차원적 분석 기술로서, 이는 질의 처리 속도를 높이기 위해 데이타를 큐브(cube)라고 불리는 다차원 배열에 저장하고 배열 인덱스를 사용하여 데이타를 엑세스한다. 큐브는 다양한 방식으로 디스크에 저장될 수 있으며 이 때 사용되는 방식에 따라 MOLAP의 주요 연산인 슬라이스와 다이스 연산 속도가 크게 영향을 받는다. 이러한 연산들을 효율적으로 처리하기 위해 다차원 배열을 작은 크기의 청크로 나누고 이 들 중에서 희박한 청크들을 압축하여 저장하는 기법이 [1]에 제안되어 있다. 이 방식에서는 청크들을 행우선 순서로 디스크에 저장한다. 본 연구에서는 청크들을 밀도와 인접도 기준으로 배치시킴으로써 슬라이스와 다이스 연산 속도를 향상시키는 방법을 제시한다. 청크 밀도를 이용하여 청크들을 디스크 블록 경계에 가능한 한 맞추었고, Z 인덱싱을 사하여 인접한 저밀도 청크들을 군집화 함으로써 디스크 I/O의 속도를 높였다. 제안한 큐브 저장 방식은 일반적 비즈니스 데이타의 분석에 흔히 사용되는 3~5차원의 큐브 저장에 효율적이라는 것을 실험적으로 보였다.

의존 구문 분석을 활용한 자연어 추론 (Natural Language Inference using Dependency Parsing)

  • 김슬기;김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2021
  • 자연어 추론은 두 문장 사이의 의미 관계를 분류하는 작업이다. 본 논문에서 제안하는 의미 추론 방법은 의존 구문 분석을 사용하여 동일한 구문 정보나 기능 정보를 가진 두 개의 (피지배소, 지배소) 어절 쌍에서 하나의 어절이 겹칠 때 두 피지배소를 하나의 청크로 만들어주고 청크 기준으로 만들어진 의존 구문 분석을 사용하여 자연어 추론 작업을 수행하는 방법을 의미한다. 이러한 의미 추론 방법을 통해 만들어진 청크와 구문 구조 정보를 Biaffine Attention을 사용하여 한 문장에 대한 청크 단위의 구문 구조 정보를 반영하고 구문 구조 정보가 반영된 두 문장을 Bilinear을 통해 관계를 예측하는 시스템을 제안한다. 실험 결과 정확도 90.78%로 가장 높은 성능을 보였다.

  • PDF

Maximum Entropy 모델을 이용한 나열 및 병렬형 인식 (Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model)

  • 임수종;이창기;허정;장명길
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

고속 질의처리를 위한 MOLAP 큐브 저장구조 (A MOLAP Cube Storage Scheme for Fast Query Processing)

  • 임윤선;양혜영;김명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.127-129
    • /
    • 2001
  • 데이터 웨어하우스의 데이터를 다차원적으로 분석하여 그 결과를 온라인으로 사용자에게 제공하는 것을 OLAP 이라고 하고, 이 때 데이터를 큐브라고 불리는 배열에 저장해 두고 데이터를 위치정보를 통해 엑세스하는 시스템을 MOLAP 시스템이라고 한다. OLAP 연산 도중에 디스크로부터 읽어야 하는 데이터의 양을 감소시키기 위해 큐브를 압축된 청크 단위로 저장하는 방안이 이미 제안되고 있으나, 큐브의 데이터 분포, 청크와 디스크 블록의 크기 관계 등을 고려하여 디스크 엑세스를 줄이는 방안에 관한 연구는 아직 소개된 바가 없다. 본 연구에서는 청크들을 밀도를 기준으로하여 군집화 하고, 큐브내의 인접 청크들을 가능한 한 동일한 디스크 블록에 속하게 함으로써, OLAP의 주요 연산인 슬라이스, 다이스와 같은 연산의 속도를 향상시키는 방안을 제시한다. 제안한 저장구조는 실험을 통해 그 효율성을 증명하였다.

  • PDF

중복제거 파일 시스템을 적용한 분산 파일 시스템에서의 청크 배치 기법 (Chunk Placement Scheme on Distributed File System Using Deduplication File System)

  • 김건우;김지홍;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.68-70
    • /
    • 2013
  • 대량의 데이터를 효과적으로 저장하고 관리하기 위해서 클라우드 스토리지 시스템에서는 분산 파일 시스템 기술이 이용되고 있다. 그러나 데이터가 증가함에 따라 분산 파일 시스템을 이용함에도 스토리지 확장 비용이 증가하게 된다. 본 논문에서는 분산 파일 시스템의 스토리지 확장 비용을 줄이기 위해서 우리는 중복제거 파일 시스템을 적용한 분산 파일 시스템에서의 청크 배치 기법을 제안한다. 오픈 소스 기반의 분산 파일 시스템인 MooseFS 에 중복제거 파일 시스템인 lessfs 를 적용함으로써 스토리지의 가용공간을 늘릴 수 있으며, 이는 스토리지 확장 비용을 줄이는 효과를 가져온다. 또한, 동일한 청크는 같은 청크 서버에 배치 시킴으로써 중복제거 기회를 높인다. 실험을 통해서 제안 시스템의 중복제거량과 성능에 대해서 평가한다.

모바일 스트리밍 서비스의 QoS 개선을 위한 퍼지 청크 기반의 트랜잭션 갱신방법 (Transaction Update method based on Fuzzy Chunk for QoS Performance Improvement of Mobile Streaming Service)

  • 정택원;이종득
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권4호
    • /
    • pp.543-550
    • /
    • 2008
  • 모바일 스트리밍은 대역폭 제한으로 인하여 서비스 지연 및 지터 등의 QoS에 많은 문제점이 발생되고 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 퍼지 청크 기반의 트랜잭션 갱신 기법을 제안하였다. 스트리밍 서비스를 위해서 트랜잭션을 읽기와 갱신으로 구분하였으며, 이들 트랜잭션들의 갱신을 위해서 퍼지 필터링을 수행하였다. 그리고 퍼지 적합도에 따라 $0{\sim}0.5$는 비적합, $0.5{\sim}0.7$은 보통, 0.8이상은 적합으로 구분하여 청크 블록을 재배치하였으며 재배치된 청크 블록에 대해서 시뮬레이션 평가를 수행하였다. 그 결과 제안된 기법이 RBM(Randon Based method), DBM(Distance Based Method), FBM(Frequency Based Method) 기법에 비해서 성능이 증가됨을 알 수 있었다.

  • PDF

블록 재인코딩을 위한 QUIC 기반 데이터 전송 성능 평가 (Performance Evaluation of QUIC-based Data Transmission for Block Re-encoding)

  • 노윤지 ;이명철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.248-249
    • /
    • 2023
  • 블록체인의 데이터 중복 저장 문제를 해결하기 위해 소거 코드 기반의 분산 저장 방법이 제안되었고, 이에 따라 청크 데이터의 효율적인 전파가 중요해졌다. 본 연구는 이를 위해 QUIC 프로토콜을 도입하여 청크 데이터의 신속한 전파 기능을 구현하였다. 더불어 Reed-Solomon 코드 기반 시스템에서 QUIC 프로토콜의 효용성을 검증한 결과, QUIC 프로토콜은 분산 저장 시스템에서 청크 데이터 전파와 재인코딩 성능에 결정적 역할을 수행함을 확인하였다. 이는 QUIC 프로토콜이 블록체인과 같은 네트워크 환경에서 효과적으로 사용될 수 있음을 나타낸다.

문서 특징에 따른 RAG의 최적 청크 설정에 대한 연구 (A Study on Optimal Parameter of Chunk in RAG based on Document Characteristics)

  • 이금상;이재환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.792-793
    • /
    • 2024
  • RAG는 정보 검색과 셍성 모델을 결합하여 주어진 주제나 질문에 관련된 지식을 생성하는 방법이다. 본 연구는 RAG의 성능을 높이기 위해 문서 내 문장의 평균 길이에 따른 청크의 크기와 오버랩 크기를 비교하여 최적화한다. 이를 통해 참조 문서의 특징에 맞춘 RAG를 개발할 수 있고, 다양한 종류의 글에 대해 맞춤형 답변을 제공할 수 있을 것으로 예상된다.

  • PDF

확장청크와 세분화된 문장부호에 기반한 중국어 최장명사구 식별 (Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese)

  • 백설매;이금희;김동일;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.320-328
    • /
    • 2009
  • 일반적으로 명사구는 기본명사구와 최장명사구로 분류되는데 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 정확한 지배용언을 찾아내는데 중요한 역할을 하게 된다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 자질로 사용한 두 단계 최장명사구 식별 기법을 제안한다. 제안한 기법은 기본모델보다 2.65% 향상된 평균 89.66%($F_1$-measure)의 우수한 성능을 보인다.