• 제목/요약/키워드: 데이터웨어하우징

검색결과 62건 처리시간 0.025초

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

웹 서비스를 이용한 바이오 서열 정보 데이터베이스 및 통합 검색 시스템 개발 (Development of Integrated Retrieval System of the Biology Sequence Database Using Web Service)

  • 이수정;용환승
    • 정보처리학회논문지D
    • /
    • 제11D권4호
    • /
    • pp.755-764
    • /
    • 2004
  • 최근, 바이오 관련 장비, 기술들이 발전함에 따라, 바이오 관린 데이터나 그것을 제공하는 호스트들이 급속하게 증가하고 있나. 또한, 이러한 데이터들은 개발 커뮤니티들의 수만큼, 분산되고 이질적인 면을 가시고 있어서, 바이오 관련 데이터베이스의 통합과 연동기능의 세공이 중요한 문제가 되고 있다. 그러나, 현재까지 진행되고 있는 많은 통합 연구 시스템의 대부분이 링크기반, 데이터웨어하우징 구축 기반으로 하고 있어서, 데이터 스키마나 데이터의 변경시, 실시간 업데이트와 같은 문제점을 보인다. 이러한 비효율적인 면을 개선시키고자, 플랫폼. 스키마의 변화에 구애 받지 않고 서비스를 가능하게 하는 웹 서비스 기술을 이용한 통합 시스템이 제안되고 있다. 본 논문에서도 이러한 흐름에 맞추어, 웹 서비스를 이용한 바이오 서열 데이터의 데이터베이스와, 통합 검색 시스템을 개발하였다 개발된 시스템은 BSML을 포함한 다양한 포맷의 데이터로 서열정보를 제공하며, 또한 외부 데이터베이스의 검색을 병렬로 처리하여, 검색 성능을 향상시키도록 하였다.

데이터 웨어하우징의 성공적 구현에 영향을 미치는 요인 (Factors Affecting the Implementation Success of Data Warehousing Systems)

  • 김병곤;박순창
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제17권4호
    • /
    • pp.51-77
    • /
    • 2008
  • Empirical studies on the implementation of data warehousing systems(DWS) are few while there exist a number of researches on the implementation of IS. This article intends to examine the factors affecting the implementation success. of DWS. It adopts the empirical analysis of a sample of 112 responses from DWS practitioners. The study results suggest several implications for researchers and practitioners. When the support from top management becomes great, the implementation success of DWS in organizational aspects is more likely. The support of resources increases the implementation success of DWS in project aspects, while it is not significantly related to the implementation success of DWS in organizational aspects. The user involvement in systems implementation, however, affects the implementation success of DWS in organizational and project aspects. Prototyping for the DWS implementation positively affects the implementation success of DWS. This indicates that the extent of understanding the requirements and the communication among project members increases also the implementation success of DWS. The extent of consulting activities in DWS projects increases the implementation success of DWS in project aspects. The continuous support of consulting activities and technology transfers enhances the adherence to the project schedule, preventing the exceeding of the project budget and ensuring the implementation of the intended system functions.

데이터 웨어하우징의 구현특성요인과 품질간의 관계에 관한 실증적 연구 (An Empirical Investigation of the Factors Affecting Data Warehousing Success)

  • 김병곤
    • 정보학연구
    • /
    • 제8권3호
    • /
    • pp.83-103
    • /
    • 2005
  • The IT implementation literature suggests that various implementation factors play critical roles in the success of an information system; however, there is little empirical research about the implementation of data warehousing has unique characteristics that may impact the importance of factors that apply to it. in this study, a cross-sectional survey investigated a model of data warehousing success. Data warehousing managers and data suppliers from 51 organizations completed paired mail questionnaires on implementation factors and the success of the warehouse. The results from a regression analysis of the data identified relationships between the system quality and data quality factors and perceived net benefits. It was found that management support and resources help to address organizational issues that arise during warehouse implementations, resources, user participation, and highly-skilled project team members increase the likelihood that warehousing projects will finish on-time, on-budget, with the right functionality; and diverse, unstandardized source systems and poor development technology will increase the technical issues that project teams must overcome. The implementation's success with organizational and project issues, in turn, influence the system quality of the data warehouse; however, data quality is best explained by factors not included in the research model.

  • PDF

SVM 워크로드 분류기를 통한 자동화된 데이터베이스 워크로드 식별 (Automatic Identification of Database Workloads by using SVM Workload Classifier)

  • 김소연;노홍찬;박상현
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.84-90
    • /
    • 2010
  • 데이터베이스 시스템의 응용분야가 데이터웨어하우징에서 전자상거래에 이르기까지 광범위해지면서 데이터베이스 시스템이 대형화되었다. 이로 인해 데이터베이스 시스템의 성능 향상을 위한 튜닝이 중요한 논점이 되었다. 데이터베이스 시스템의 튜닝은 워크로드 특성을 고려하여 수행할 필요가 있다. 그러나 복합적인 데이터베이스 환경에서 워크로드를 식별하기는 어려우므로 자동적인 식별 방법이 요구된다. 본 논문에서는 데이터베이스 워크로드를 자동적으로 식별하는 SVM 워크로드 분류기를 제안한다. TPC-C와 TPC-W 성능 평가에서 자원할당 파라미터 변경에 따른 워크로드 데이터를 수집하여 SVM을 통해 분류 한다. SVM의 커널별 커널 파라미터와 오류 허용 임계치 값인 C의 조정을 통하여 최적의 SVM 워크로드 분류기를 선택한다. 제안한 SVM 워크로드 분류기와 Decision Tree, Naive Bayes, Multilayer Perceptron, K-NN 분류기의 분류 성능을 비교한 결과, SVM 워크로드 분류기가 다른 기계 학습 분류기보다 9% 이상 향상된 분류 성능을 보였다.

CS-트리 : 고차원 데이터의 유사성 검색을 위한 셀-기반 시그니쳐 색인 구조 (CS-Tree : Cell-based Signature Index Structure for Similarity Search in High-Dimensional Data)

  • 송광택;장재우
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.305-312
    • /
    • 2001
  • 최근 고차원 색인 구조들이 멀티미디어 데이터베이스, 데이터 웨어하우징과 같은 데이터베이스 응용에서 유사성 검색을 위해 요구된다. 본 논문에서는 고차원 특징벡터에 대한 효율적인 저장과 검색을 지원하는 셀-기반 시그니쳐 트리(CS-트리)를 제안한다. 제안하는 CS-트리는 고차원 특징 벡터 공간을 셀로써 분할하여 하나의 특징 벡터를 그에 해당되는 셀의 시그니쳐로 표현한다. 특징 벡터 대신 셀의 시그니쳐를 사용함으로써 트리의 깊이를 줄이고, 그 결과 효율적인 검색 성능을 달성한다. 또한 셀에 기반하여 탐색 공간을 효율적으로 줄이는 유사성 검색 알고리즘을 제시한다. 마지막으로 우수한 고차원 색인 기법으로 알려져 있는 X-트리와 삽입시간, k-최근접 질의에 대한 검색 시간 그리고 부가저장 공간 측면에서 성능 비교를 수행한다. 성능비교 결과 CS-트리가 검색 성능에서 우수함을 보인다.

  • PDF

일개지역의 보건의료서비스 이용 평가;Y지역의 대학병원과 보건소 데이터베이스를 통하여 (Evaluation on Utilization of the Health Care Service in One Urban Area in Korea)

  • 이병화;안성희
    • 간호행정학회지
    • /
    • 제11권4호
    • /
    • pp.401-414
    • /
    • 2005
  • Purpose: This study was to evaluate the utilization of health care service and to provide supportive data for health care policy making in one urban area in Korea. Method: This study tested the significance of public health service using the database of an university hospital and public health center from Feb. 2000 to Dec. 2004. Data were analyzed by multidimensional analysis and data mining technique and produced the information on the classification of utilization characteristics by main disease and the total cost of use and disease association with the users of the public health center. Results: The Results were as follows: 1) Top 10 diseases in the area accounted for 22.4% of total frequency for the most recent 5 years in university hospital, while 59.0% in public health center. 2) There were significant correlations between university hospital and public health center user's insurance type and place of residence: It showed higher use of public health center for free service beneficiaries residing in Seoul than residents in nearby or local area. The medical insurance types for hospital users were more various than those for public health center users. 3) The use of hospital for patients of hypertension, diabetes mellitus and hyperlipidemia was tended to concentrate in mostly autumn and winter since August 2000, while the cost of using public health center for those patients has been steadily reduced since July 2000. 4) As a result of cluster analysis, there were classified into three homogeneous groups according to the total cost of using public health service, age, and the frequency of use. 5) The association analysis on patients with chronic disease in public health center produced a detailed information on accompanying diseases related to the incidence rate of disease of high frequency due to aging, information on drug abuse and immune disease. Conclusion: The health care policy for local community should be evaluated continuously. And the policy to build an integrated data warehousing by public health indicator system and to enhance the faithfulness of data is required.

  • PDF

동특성 앙상블 학습 기반 구조물 진단 모니터링 분산처리 시스템 (Decentralized Structural Diagnosis and Monitoring System for Ensemble Learning on Dynamic Characteristics)

  • 신윤수;민경원
    • 한국전산구조공학회논문집
    • /
    • 제34권4호
    • /
    • pp.183-189
    • /
    • 2021
  • 구조물에 장기적으로 발생하는 노후화를 정량적으로 파악하기 위해 상시진동 데이터를 활용한 일반화된 모니터링 시스템에 관한 연구가 세계적으로 활발히 수행중이다. 본 연구에서는 구조물에서 장기적으로 취득되는 동특성을 앙상블 학습에 활용하여 구조물의 이상을 감지하기 위한 보급형 엣지 컴퓨팅 시스템을 구축하였다. 시스템의 하드웨어는 라즈베리파이와 보급형 가속도계, 기울기센서, GPS RTK 모듈, 로라 모듈로 구성됐다. 실험실 규모의 구조물 모형 진동실험을 통해 동특성을 활용한 앙상블 학습의 구조물 이상감지를 검증하였으며, 실험을 기반으로 한 실시간 동특성 추출 분산처리 알고리즘을 라즈베리파이에 탑재하였다. 구축된 시스템을 하우징하고 포항시 행정복지센터에 설치하여 데이터를 취득함으로써 개발된 시스템의 현장 적용성을 검증하였다.

학술정보 서비스 이용고객의 니즈 분석을 위한 탐색적 연구 (An Exploratory Study for Analyzing the Needs of the Customers Who Use Academic Information Service)

  • 윤종욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.215-224
    • /
    • 2012
  • 본 연구에서는 국내 이학 및 공학 분야의 학술기관에 정보서비스를 제공하는 K연구소를 대상으로 고객의 니즈파악을 위한 탐색적 연구를 시도하였다. K연구소는 제공되는 학술정보 서비스에 대한 고객 만족도를 높이기 위한 일환으로 맞춤형 서비스를 구상하고 있으며, 이에 따라 고객 니즈 분석 및 고객세분화 연구를 시작하였다. 이는 최근 공공기관에서의 CRM도입이 활성화 되는 시점이라서 매우 시의적절한 것으로 평가된다. 파일럿 분석을 위해 사용된 기법은 데이터마이닝과 데이터웨어하우징 기법이다. 고객 세분화에 사용된 기법은 조직 관점의 고객가치와 고객 관점의 조직에 대한 가치를 동시에 고려한 '균형적 고객 세분화' 모형에 고객 수명주기 개념을 추가한 혼합적인 세분화 모형을 적용하였다. 분석 결과 K연구소에서는 산업에서 일반적으로 사용되는 고객세분화 기법보다는 '균형적 고객세분화' 모형과 데이터웨어하우스/OLAP을 이용한 '컨텐츠 도달관점'의 적용이 유력한 접근법으로 파악되었다. 본 탐색적 사례연구는 최근 CRM 영역에서 이슈가 되고 있는 '조직 고유의 CRM 모형 도출'에 하나의 유용한 지침을 제공해 줄 것으로 평가된다.

수평 분할 방식을 이용한 병렬 셀-기반 필터링 기법의 설계 및 성능 평가 (Design and Performance Analysis of a Parallel Cell-Based Filtering Scheme using Horizontally-Partitioned Technique)

  • 장재우;김영창
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.459-470
    • /
    • 2003
  • 데이터웨어하우징의 애트리뷰트 벡터나 멀티미디어 데이터베이스의 특징 벡터는 모두 고차원 데이터를 이루고 있기 때문에, 이러한 고차원 데이터를 효율적으로 검색하기 위해서는 고차원 색인 기법이 요구된다. 이를 위하여 다수의 고차원 색인 기법들이 제안되었는데, 제안된 대부분의 색인 기법들이 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 ‘차원 저주(dimensional curse)’ 문제를 지니고 있다. 셀-기반 필터링(Cell-Based Filtering : CBF) 기법은 이러한 차원 저주 문제를 해결하기 위해 제안되었다. 그러나 CBF 기법은 데이터의 양이 증가할수록 선형적으로 검색 성능이 감소하며, 이를 극복하기 위해 병렬 처리 기법을 사용하는 것이 필요하다. 본 논문에서는 데이터 디클러스터링(declustering) 방법으로 수평 분할 방식을 사용한 병렬 CBF 기법을 제안한다. 아울러 제안한 병렬 CBF 기법의 성능을 최대화하기 위하여, 병렬 CBF 기법을 다수의 서버로 구성된 Shared Nothing(SN) 구조의 클러스터 아키텍쳐 하에서 구축한다. 또한 SN 구조의 클러스터 아키텍쳐에 적합한 데이타 삽입 알고리즘, 범위질의 처리 알고리즘, k-최근접 질의 처리 알고리즘을 제시한다. 마지막으로 제안하는 병렬 CBF 기법이 기존 CBF 기법과 비교하여 서버 개수에 비례하여 우수한 검색 성능을 달성함을 보인다.