• Title/Summary/Keyword: 온라인 다차원 분석

Search Result 48, Processing Time 0.03 seconds

Effective Cube Computation using Multidimensional File Structure in OLAP (OLAP에서 다차원 파일 구조를 사용한 큐브 생성 방법)

  • 김학경;김진호;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.199-201
    • /
    • 2003
  • 온라인 분석처리 시스템의 핵심 기술인 큐브를 효과적으로 산출하기 위한 많은 연구들이 이루어 졌다. 이러한 연구는 크게 온라인 분석처리 시스템의 결과 데이터를 저장하는 방식에 의해 MOLAP과 ROLAP으로 구분하여 이루어 졌다. 최근에 온라인 분석처리 시스템에서 큐브 산출에 대한 연구로 다중키 엑세스를 효율적으로 처리하는 다차원 파일 구조를 사용하여 집계 연산의 효율을 높이는 연구가 이루어졌다. 본 논문은 이러한 연구들을 바탕으로 다차원 파일 구조를 사용하여 효과적으로 큐브를 산출하고 결과 값을 미리 저장하는 일반적인 방법을 제안한다.

  • PDF

Study on Designing and Implementing Online Customer Analysis System based on Relational and Multi-dimensional Model (관계형 다차원모델에 기반한 온라인 고객리뷰 분석시스템의 설계 및 구현)

  • Kim, Keun-Hyung;Song, Wang-Chul
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.4
    • /
    • pp.76-85
    • /
    • 2012
  • Through opinion mining, we can analyze the degree of positive or negative sentiments that customers feel about important entities or attributes in online customer reviews. But, the limit of the opinion mining techniques is to provide only simple functions in analyzing the reviews. In this paper, we proposed novel techniques that can analyze the online customer reviews multi-dimensionally. The novel technique is to modify the existing OLAP techniques so that they can be applied to text data. The novel technique, that is, multi-dimensional analytic model consists of noun, adjective and document axes which are converted into four relational tables in relational database. The multi-dimensional analysis model would be new framework which can converge the existing opinion mining, information summarization and clustering algorithms. In this paper, we implemented the multi-dimensional analysis model and algorithms. we recognized that the system would enable us to analyze the online customer reviews more complexly.

A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse (데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법)

  • Lee Jong-Hak
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.3
    • /
    • pp.297-312
    • /
    • 2005
  • Aggregation is an operation that plays a key role in multidimensional OLAP (MOLAP) systems of data warehouse. Existing aggregation operations in MOLAP have been proposed for file structures such as multidimensional arrays. These tile structures do not work well with skewed distributions. This paper presents a physical design methodology for storage structures ni MOLAP that use the multidimensional tile organizations adapting to a skewed distribution. In uniform data distribution, we first show that the performance of multidimensional analytical processing is highly affected by the similarity of the shapes between query regions and page regions in the domain space of the multidimensional file organizations. And than, in skewed distributions, we reflect the effect of data distributions on the design by using the shapes of the normalized query regions that are weighted with data density of those query regions. Finally, we demonstrate that the physical design methodology theoretically derived is indeed correct in real environments. In the two-dimensional file organizations, the results of experiments indicate that the performance of the proposed method is enhanced by more than seven times over the conventional method. We expect that the performance will be more enhanced when the dimensionality is more than two. The result confirms that the proposed physical design methodology is useful in a practical way.

  • PDF

Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes (다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석)

  • Kim, Namsoo;Lee, Suan;Jo, Sunhwa;Kim, Jinho
    • Journal of Information Technology and Architecture
    • /
    • v.11 no.1
    • /
    • pp.63-73
    • /
    • 2014
  • As the advance of WWW, unstructured data including texts are taking users' interests more and more. These unstructured data created by WWW users represent users' subjective opinions thus we can get very useful information such as users' personal tastes or perspectives from them if we analyze appropriately. In this paper, we provide various analysis efficiently for unstructured text documents by taking advantage of OLAP (On-Line Analytical Processing) multidimensional cube technology. OLAP cubes have been widely used for the multidimensional analysis for structured data such as simple alphabetic and numberic data but they didn't have used for unstructured data consisting of long texts. In order to provide multidimensional analysis for unstructured text data, however, Text Cube model has been proposed precently. It incorporates term frequency and inverted index as measurements to search and analyze text databases which play key roles in information retrieval. The primary goal of this paper is to apply this text cube model to a real data set from in an Internet site sharing hotel information and to provide multidimensional analysis for users' reviews on hotels written in texts. To achieve this goal, we first build text cubes for the hotel review data. By using the text cubes, we design and implement the system which provides multidimensional keyword search features to search and to analyze review texts on various dimensions. This system will be able to help users to get valuable guest-subjective summary information easily. Furthermore, this paper evaluats the proposed systems through various experiments and it reveals the effectiveness of the system.

A Design Method of Storage Structures for MOLAP Systems (MOLAP 시스템을 위한 다차원 저장구조의 설계기법)

  • Lee Jong-Hak;Lee Seong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.130-132
    • /
    • 2005
  • 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상까지 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

SQL Extensions for Handling Spreadsheets and PIVOT tables in OLAP Environment (OLAP 환경에서 스프레드시트와 피벗 테이블을 다루기 위한 SQL의 확장)

  • Shin, Sung-Hyun;Kim, Jin-Ho;Moon, Yang-Sae;Kim, Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.21-25
    • /
    • 2008
  • 온라인 분석 처리(On-Line Analytical Processing: OLAP)은 데이터 웨어하우스로부터 다차원 데이터를 분석하거나 의사 결정을 위한 유용한 정보를 제공하고 있다. 데이터 분석을 위해, OLAP에서는 다차원 데이터를 표현한 스프레드시트(spreadsheet) 또는 피벗 테이블(PIVOT table)을 널리 사용하고 있다. 스프레드시트와 피벗 테이블은 서로 유사한 형태로써 분석의 기준이 되는 애트리뷰트들이 많은 구조이다. 사용자들은 흔히 사용되고 있는 SQL 구문을 이용하여 스프레드시트 또는 피벗 테이블에서 손쉬운 데이터 분석을 요구한다. 그러나, RDBMS에서 제공하는 SQL 구문의 사용으로, 이는 다차원 데이터를 효과적으로 분석할 수 없다. 그 이유는 SQL 구문이 다양한 데이터 분석의 목적으로 사용되거나, 요약된 집계 정보를 도출하는 데 한계가 있기 때문이다. 따라서, 본 연구에서는 SQL 구문을 확장하여 다차원 데이터를 표현한 스프레드시트를 손쉽게 조작하고, 요약된 집계를 계산하는 셀(cell) 구문을 제안한다. 이 방법은 스프레드시트와 피벗 테이블에서 행과 열이 교차하는 좌표(coordinate)를 이용하여, 특정 셀의 조작 및 선택한 부분/전체 영역에 대한 집계 정보를 계산하는 방법이다. 결과적으로, RDBMS에서 사용되는 SQL 구문이 친숙한 사용자들이 제안한 셀 구문을 이용하면, 다양한 관점에 따라 손쉽게 스프레드시트와 피벗 테이블을 다룰 수 있을 것으로 사료된다.

  • PDF

A One-Pass Aggregation Algorithm using the Disjoint-Inclusive Partition Multidimensional Files in Multidimensional OLAP (다차원 온라인 분석처리에서 분리-포함 분할 다차원 파일 구조를 사용한 원-패스 집계 알고리즘)

  • Lee, Yeong-Gu;Mun, Yang-Se;Hwang, Gyu-Yeong
    • Journal of KIISE:Databases
    • /
    • v.28 no.2
    • /
    • pp.153-167
    • /
    • 2001
  • 다차원 온라인 분석처리(Multidimensional On-Line Analytical Processing: MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열 구조를 기반으로 한 파일 구조에 대해서 연구되어 왔다. 이러한 파일 구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 집계 알고리즘을 제안한다. 먼저, 새로운 분리-포함 분할이라는 개념을 사용한 집계 연산 처리 모델을 제안한다. 집계 연산 처리에서 분리-포함 분할 개념을 사용하면 페이지들의 액세스 순서를 미리 알아 낼 수 있다는 특징을 가진다. 그리고, 제안한 모델에 기반하여 원-패스 버퍼 크기(one-pass buffer size)를 사용하여 집계 연산을 처리하는 원-패스 집계 알고리즘을 제안한다. 원-패스 버퍼 크기란 페이지 당 한 번의 디스크 액세스를 보장하기 위해 필요한 최소 버퍼 크기이다. 또한, 제안한 집계 연산 처리 모델 하에서 제안된 알고리즘이 최소의 원-패스 버퍼 크기를 갖는다는 것을 증명한다. 마지막으로, 많은 실험을 통하여 이론적으로 구한 원-패스 버퍼 크기가 실제 환경에서 정확히 동작함을 실험적으로 확인하였다. 리 알고리즘은 미리 알려진 페이지 액세스 순서를 이용하는 버퍼 교체 정책을 사용함으로써 최적의 원-패스 버퍼 크기를 달성한다. 제안하는 알고리즘을 여 러 집계 질의가 동시에 요청되는 다사용자 환경에서 특히 유용하다. 이는 이 알고리즘이 정규화 된 디스크 액세스 횟수를 1.0으로 유지하기 위해 반드시 필요한 크기의 버퍼만을 사용하기 때문이다.

  • PDF

A Bitmap Index for Chunk-Based MOLAP Cubes (청크 기반 MOLAP 큐브를 위한 비트맵 인덱스)

  • Lim, Yoon-Sun;Kim, Myung
    • Journal of KIISE:Databases
    • /
    • v.30 no.3
    • /
    • pp.225-236
    • /
    • 2003
  • MOLAP systems store data in a multidimensional away called a 'cube' and access them using way indexes. When a cube is placed into disk, it can be Partitioned into a set of chunks of the same side length. Such a cube storage scheme is called the chunk-based MOLAP cube storage scheme. It gives data clustering effect so that all the dimensions are guaranteed to get a fair chance in terms of the query processing speed. In order to achieve high space utilization, sparse chunks are further compressed. Due to data compression, the relative position of chunks cannot be obtained in constant time without using indexes. In this paper, we propose a bitmap index for chunk-based MOLAP cubes. The index can be constructed along with the corresponding cube generation. The relative position of chunks is retained in the index so that chunk retrieval can be done in constant time. We placed in an index block as many chunks as possible so that the number of index searches is minimized for OLAP operations such as range queries. We showed the proposed index is efficient by comparing it with multidimensional indexes such as UB-tree and grid file in terms of time and space.

Web Information Extraction and Multidimensional Analysis Using XML (XML을 이용한 웹 정보 추출 및 다차원 분석)

  • Park, Byung-Kwon
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.5
    • /
    • pp.567-578
    • /
    • 2008
  • For analyzing a huge amount of web pages available in the Internet, we need to extract the encoded information in web pages. In this paper, we propose a method to extract and convert web information from web pages into XML documents for multidimensional analysis. For extracting information from web pages, we propose two languages: one for describing web information extraction rules based on the object-oriented model, and another for describing regular expressions of HTML tag patterns to search for target information. For multidimensional analysis on XML documents, we propose a method for constructing an XML warehouse and various XML cubes from it like the way we do for relational data. Finally, we show the validness of our method through the application to US patent web pages.

  • PDF

Ubiquitous Data Warehosue;Integrating RFID with Mutidimensional Online Analysis (유비쿼터스 데이터 웨어하우스;RFID와 다차원 온라인 분석의 통합)

  • Cho, Dai-Yon
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2005.05a
    • /
    • pp.215-221
    • /
    • 2005
  • 최근 RFID가 비즈니스의 여러 분야에서 추적시스템을 중심으로 도입되기 시작하고 있으며, 이러한 시스템들이 기업에 괄목할만한 효율성의 중가와 비용의 감소를 가져올 것으로 기대되고 있다. 한편, 기업의 대용량 정보저장고로 사용되어 온 데이터 웨어하우스는 생태적으로 과거의 정적인 데이터를 분석하도록 디자인 되었으며, 온라인 분석도구인 OLAP은 데이터 웨어하우스에 저장된 정적 데이터를 분석하는 도구로 사용됨으로 의사결정 지원의 역할을 하고 있다. 그렇다면 RFID를 통하여 실시간으로 수집되는 정보가 OLAP과 결합할 경우 그 정보는 추적과 같은 단순한 정보분석이 아니라 실시간 기반의 보다 중요한 의사결정을 위하여 사용될 수 있을 것이다. 본 연구에서는 데이터 웨어하우스의 정보소스를 확장하기 위한 노력의 일환으로 RFID와 데이터 웨어하우스의 통합모델을 제안한다. 그와 함께 RFID 기기를 통하여 수집된 실시간 기반의 동적인 정보를 분석할 수 있는 OLAP을 제시하고 있다. 그리고 이러한 개념을 프로토타입으로 구현함으로서 유비쿼터스 컴퓨팅 기술의 핵심을 이루고 있는 RFID가 데이터 웨어하우스에 정보소스를 제공할 수 있으며 온라인 분석도구와 결합될 경우 보다 강력한 의사결정 지원도구가 될 수 있음을 보여 준다.

  • PDF