• 제목/요약/키워드: 집계연산

검색결과 58건 처리시간 0.025초

데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법 (Efficient Creation of Data Cube Using Hash Table in Data Warehouse)

  • 김형선;유병섭;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법 (Data Cube Generation Method Using Hash Table in Spatial Data Warehouse)

  • 이연;김형선;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1381-1394
    • /
    • 2006
  • 축적된 데이터를 기반으로 의사결정을 지원하는 데이터 웨어하우스에서 빠른 응답을 제공하기 위하여 데이터큐브 생성기법에 대한 많은 연구가 진행되었다. 대표적으로 다차원 배열을 사용한 기법과 hyper-tree를 기반으로 하는 H-cubing 기법이 연구되었다. 하지만 전자는 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하여 데이터의 양이 많아질수록 메모리 사용이 증가하였으며 후자는 hyper-tree를 기반으로 모든 튜플을 트리로 구축하여 트리 구축비용이 증가하였다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터큐브 생성 기법을 제안한다. 제안 기법은 데이터큐브 생성 시 가중치 맵핑 테이블과 레코드 해쉬 테이블을 사용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장한다. 따라서 데이터큐브의 생성속도가 향상되며 해쉬 테이블 만을 유지하여 메모리 사용량이 감소한다. 이는 성능평가를 통해 기존 기법보다 데이터의 빠른 검색과 데이터큐브 생성 요청에 빠른 응답을 보였다.

  • PDF

공간 데이터웨어하우스에서 통합된 다차원 개념 계층 지원을 위한 데이터 큐브 색인 (Data Cude Index to Support Integrated Multi-dimensional Concept Hierarchies in Spatial Data Warehouse)

  • 이동욱;백성하;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1386-1396
    • /
    • 2009
  • 공간 데이터 웨어하우스에서 의사 결정 지원을 위한 공간 데이터 큐브는 크기가 방대하기 때문에 이를 효율적으로 관리하고 질의 처리의 수행 속도를 높이기 위한 공간 데이터 큐브 색인 기법이 요구된다. 제안된 데이터 큐브 색인 기법들 중 Hierarchical Dwarf는 사실 테이블의 튜플 필드 값의 중복을 이용하여 큐브를 압축하여 저장 비용과 질의응답 속도 면에서는 우수하지만 공간 차원을 지원하지 않으며, OLAP-favored Search 기법은 R-tree기반으로 공간 차원에 대한 계층적 집계 값을 제공하고 공간 OLAP 연산을 지원하지만 공간 및 비공간 차원들을 통합한 의사결정을 지원하지 못한다. 본 논문에서는 통합된 다차원 개념 계층지원을 위한 데이터 큐브 색인을 제안한다. 이는 개념 계층에 대한 정보와 사실 테이블에 지장된 튜플들을 참조하여 각각의 차원에 대해 생성된 개념 계층 트리들이 연결되어 통합된 색인이다. 이 때, 중복되는 개념계층 트리가 존재할 경우 이를 공유함으로써 저장 비용을 줄인다. 특히 제안 기법은 공간 및 비공간 차원이 통합된 개념 계층 트리들을 사용하므로, 공간 및 비공간 차원에 대한 OLAP 연산 비용이 감소한다.

  • PDF

그래프 트랜스포머 기반 농가 사과 품질 이미지의 그래프 표현 학습 연구 (A Study about Learning Graph Representation on Farmhouse Apple Quality Images with Graph Transformer)

  • 배지훈;이주환;유광현;권경주;김진영
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.9-16
    • /
    • 2023
  • 최근 농가의 사과 품질 선별 작업에서 인적자원의 한계를 극복하기 위해 합성곱 신경망(CNN) 기반 시스템이 개발되고 있다. 그러나 합성곱 신경망은 동일한 크기의 이미지만을 입력받기 때문에 샘플링 등의 전처리 과정이 요구될 수 있으며, 과도 샘플링의 경우 화질 저하, 블러링 등 원본 이미지의 정보손실 문제가 발생한다. 본 논문에서는 위 문제를 최소화하기 위하여, 원본 이미지의 패치 기반 그래프를 생성하고 그래프 트랜스포머 모델의 랜덤워크 기반 위치 인코딩 방법을 제안한다. 위 방법은 랜덤워크 알고리즘 기반 위치정보가 없는 패치들의 위치 임베딩 정보를 지속적으로 학습하고, 기존 그래프 트랜스포머의 자가 주의집중 기법을 통해 유익한 노드정보들을 집계함으로써 최적의 그래프 구조를 찾는다. 따라서 무작위 노드 순서의 새로운 그래프 구조와 이미지의 객체 위치에 따른 임의의 그래프 구조에서도 강건한 성질을 가지며, 좋은 성능을 보여준다. 5가지 사과 품질 데이터셋으로 실험하였을 때, 다른 GNN 모델보다 최소 1.3%에서 최대 4.7%의 학습 정확도가 높았으며, ResNet18 모델의 23.52M보다 약 15% 적은 3.59M의 파라미터 수를 보유하여 연산량 절감에 따른 빠른 추론 속도를 보이며 그 효과를 증명한다.

자연환경 평가 -II. 국내 자연공원과 울릉도의 식물군을 이용하여- (Assessment of Natural Environment - II. Based on the Plant Taxa of the Natural Parks and Ulleung island-)

  • 김철환;이희천
    • 환경생물
    • /
    • 제19권1호
    • /
    • pp.49-58
    • /
    • 2001
  • 여러 자연공원의 환경을 비교ㆍ분석하기 위하여 분포범위에 따라 5개의 등급으로 구분된 환경평가를 위한 식물군을 이용하였다. 식물군의 각 등급의 중요도에 따라 V등급을 구성하는 식물에는 20점, W등급 10점, III등급 5점, II등급 3.3점 그리고 I등급의 식물군에는 2.5점의 점수를 각각 부여하였다. 조사된 자연공원지역의 식물군에 따른 전체 평가점수의 순서는 한라산, 설악산, 지리산, 덕유산, 울릉도, 소백산, 오대산, 팔공산, 치악산, 태백산, 속리산, 주왕산, 가야산, 두륜산, 계룡산, 북한산, 내변산, 월악산, 내장산, 청량산, 내 연산, 명지산, 조계산, 무등산, 월출산, 금오산, 주흘산, 비슬산, 황매산, 장안산, 선운산, 모악산, 선암산, 칠갑산 및 기백산 순으로 나타났다. 상대적으로 식물군에 따른 자연환경은 1,000점 이상을 얻는 한라산-덕유산은 아주 우수한 것으로 평가되며 700-1000점을 얻는 울릉도-오대산은 비교적 우수하고 500-700점을 얻는 팔공산-가야산은 우수하다고 판단하였다. 그리고 300-500점을 얻는 두륜산-무등산은 보통으로 평가하였으며 300점 이하의 점수를 얻는 월출산-기백산은 열세 지역으로 평가할 수 있었다. 일반적으로 국립공원의 식물군의 평가점수가 도립과 국립공원보다는 높은 것으로 나타났다. 한편, 울릉도는 총 150개의 환경평가를 위한 식물군이 분포하고 그에 따른 평점은 882.9점으로 집계되어 IUCN의 기준에 따른 환경부의 자연생태계 보전형에 포함되는 것으로 예상되었다. 아울러 여러 자연환경을 감안하면 자연풍경자원 우수형에도 포함되는 것으로 나타났다. 따라서 울릉도는 다른 국립공원과 비교해 손색이 없는 것으로 판단되어 국립공원으로의 지정을 적극적으로 검토해야 할 것으로 보였다.의 우수성의 판단을 의미하는 편견에 미치는 영향력이 가장 크게 나타났다.안을 통해 기밀성 침해의 우려가 있는 메시지 명령어를 차단하고, 기능 명령어 차단에 의한 자원의 기밀성을 해결하였다.성 다한증 발생을 비교한 결과 교통가지 절제술에서 보상성 다한증 발생의 유의한 감소를 보여 보상성 다한증을 감소시키기 위해서는 교통가지 절제술이 우수함을 알 수 있었다.게 나타났다. 그러므로 식도열공을 통한 식도절제술은 주변 장기에 침범이 없고 암의 길이가 비교적 짧고 술 전 전신상태가 좋지 않아 호흡기계 합병증 등이 우려되는 환자에게 선택적으로 시행한다면 좋은 결과를 얻을 수 있으리라 사료된다. 그리고 두 술식은 집도외간의 기호와 경험에도 좌우될 수 있다고 하겠다.<0.05), 면류(p<0.01)와 종류별로는 덮밥, 짜장밥(p<0.01), 해장국, 컵라면(p<0.05) 등에 대해 유의한 차이가 있었으며 모두 26세 이상이 가장 많이 이용하는 것으로 조사되었다. 즉석가공식품을 접하게 된 동기는 'TV광고', '호기심 ', '친구/가족들의 권유와 소개', '신문이나 잡지광고', '인터넷광고 및 홍보' 등의 순이었으며, 즉석가공식품의 구매장소로는 '편의점'을 가장 많이 이용하였고 그 다음으로 '동네 인근슈퍼', '대형마트', '백화점 ' 등의 순으로 나타났다. 위의 결과로 볼 때 즉석가공식품의 이용률이 계속적으로 증대되고 있으나 남자가 여자보다 또는 비조리전공학생이 조리관련전공 학생보다 즉석가공식품을 선호하는 것으로 나타나 세분화 고객에 대한 제품 개발과 홍보방안을 고려 해 보아야 할 것으로 사료된다 또한 대학생들은 일부 즉석가공 식품에 대해서 상대적으로 기호도와 이용도가 높은 것으로 나타났는데, 대학생들의 인터넷 사용율이 높은 점을 이용한 인터넷상의 적극적인

  • PDF

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.