• Title/Summary/Keyword: 데이터 중복 관리

Search Result 282, Processing Time 0.031 seconds

Evaluation and Quality Control of Data in the Digital Library System (디지털자료실지원센터 종합목록 데이터 품질평가 및 관리 방안)

  • Choe In-Sook
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.38 no.3
    • /
    • pp.119-139
    • /
    • 2004
  • This study intends to evaluate the quality of the Digital Library System DB and to suggest methods for its quality control. The evaluation criteria are hit rates, redundancy, completeness and accuracy. In spite of high hit rates excessive records representing one work resulted serious redundancy. The average completeness rate of records was $48.12\%$ due to low level of description. The Analysis of accuracy showed various errors in most of records corresponding to $92\%$. Emphasis on analysing the errors in detail detected the causing factors and suggested practical guidelines for school libraries' catalogers.

A Materialized views Management Method based on Metadata for Efficient Query Processing (효과적 질의 처리를 위한, 메타데이터 기반 실체 뷰 관리 기법)

  • 이선정;문창주;박성공;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.318-320
    • /
    • 1998
  • CORBA/JAVA 기반의 멀티데이터 소스에 대한 통합 질의 환경에서 많은 사용자가 질의를 동시에 수행함으로써, 질의 처리 성능 문제가 나타난다. 이러한 문제점을 해결하기 위해서 본 논문에서는 메타데이터를 이용하여 분할된 질의에 대한 실체 뷰(Materialized view)를 관리함으로써, 질의 처리를 향상시키는 기법을 제안한다. 제안된 기법은 자주 사용되는 실체 뷰를 캐쉬에 유지시킴으로써, 재사용율을 높이고, 질의 절차를 감소시켜, 중복되는 질의의 반복 수행을 줄인다.

Meta-Data Transformation supporting Web-base Cooperative Services (웹기반 협업서비스를 지원하는 메타데이터 변환)

  • Lee, hye-sun;Kwon, Hoon;Kim, jeong-hee;Kwak, ho-young
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.861-864
    • /
    • 2007
  • Companies have developed local database without purpose of cooperation with others in the same category. That's because the cooperative work would cause cost in standardization, management, and usage of overlapping data. Therefore this paper proposes a system supporting an dynamic user interface for the sake of convenience of meta-data transformation and its users. The cooperative system will be able to connect companies together and minimize overlapping data by standardizing them. Eventually, the system will have an effect on cost-cutting and improve efficiency of maintenance and management.

  • PDF

Web service based Distributed Medical Data Management (웹 서비스 기반의 분산 의료 데이터 관리)

  • Kim, Jeu-Young;Kim, Yoon-Hee;Youn, Chan-Hyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.339-343
    • /
    • 2007
  • 최근의 의료 데이터는 대용량의 디지털 이미지로 생산된다. 이러한 대용량 이미지를 처리하기 위해서는 많은 처리 능력과 대량의 데이터 저장 공간이 필요하다. 현재 각 병원에서 생산되는 의료 이미지는 개별적으로 구축되어있는 PACS[3]에 저장하고 관리한다. 이러한 의료 환경속에서 대량의 데이터 저장공간 확보뿐 아니라 환자들의 중복 검사 방지, 의료 연구를 위한 풍부한 데이터 제공을 위해 각 병원의 의료 데이터를 통합하고 접근하기 위한 방법의 필요성이 증대되고 있는 상황이다. 이러한 요구사항을 만족시키기 위해 그리드 컴퓨팅 기술을 도입하여 고효율의 처리 능력과 풍부한 데이터 저장 공간을 제공하고자 하였으며, 원격의 사용자가 지역적 데이터에 접근할 수 있도록 하는 데이터 관리 서비스를 웹서비스로 제공하는 방법에 대해 제시하였다. 또한, 프로토타입을 설계, 구현하여 실제 가능성에 대해 확인하였다.

  • PDF

Log Collection Method for Efficient Management of Systems using Heterogeneous Network Devices (이기종 네트워크 장치를 사용하는 시스템의 효율적인 관리를 위한 로그 수집 방법)

  • Jea-Ho Yang;Younggon Kim
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.3
    • /
    • pp.119-125
    • /
    • 2023
  • IT infrastructure operation has advanced, and the methods for managing systems have become widely adopted. Recently, research has focused on improving system management using Syslog. However, utilizing log data collected through these methods presents challenges, as logs are extracted in various formats that require expert analysis. This paper proposes a system that utilizes edge computing to distribute the collection of Syslog data and preprocesses duplicate data before storing it in a central database. Additionally, the system constructs a data dictionary to classify and count data in real-time, with restrictions on transmitting registered data to the central database. This approach ensures the maintenance of predefined patterns in the data dictionary, controls duplicate data and temporal duplicates, and enables the storage of refined data in the central database, thereby securing fundamental data for big data analysis. The proposed algorithms and procedures are demonstrated through simulations and examples. Real syslog data, including extracted examples, is used to accurately extract necessary information from log data and verify the successful execution of the classification and storage processes. This system can serve as an efficient solution for collecting and managing log data in edge environments, offering potential benefits in terms of technology diffusion.

Searching Spatial Data of Wireless Devices using GIS agents (GIS 에이전트를 이용한 무선 단말기의 공간데이터 검색)

  • 이재호;임덕성;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.199-201
    • /
    • 2001
  • 무선 단말기는 저장공간, 연산능력, 통신등에 대한 계약을 가지고 있다. 무선 단말기의 공간데이터 검색의 경우 사용자의 요구를 효과적으로 처리하기 위해서 질의 생성, 데이터 관리, 색인관리등과 같은 연산들을 필요로 한다. 그러나 추가되는 영역과 저장된 영역의 데이터 사이에 중복객체가 존재하는 문제가 있고 추가되는 영역에 대해 색인을 구성하기 위해 공간 데이터의 정렬과 같은 고비용의 연산이 필요하다. 특히 무선 단말기에서 색인관리는 서버로부터 공간 데이터를 전송받을 때 마다 색인을 재 구성하기 위해 Bulk-Insertion 기법의 사용이 효율적이다. 따라서 이 논문에서는 낮은 컴퓨팅 능력을 가지는 무선 단말기에서 고비용의 연산 처리를 줄이기 위해 데이터 정렬, 색인 구성 등의 연산을 처리하는 에이전트를 제시한다.

  • PDF

Implementation of Integrated Metadata Framework Based on METS Analysis (METS 분석기반 통합메타데이터 프레임워크 구현)

  • Min, Byoung-Won;Oh, Yong-Sun
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.60-70
    • /
    • 2011
  • Conventional content management systems are independently developed for a specific field in general. Therefore usage of contents for the CMS will be limited to the corresponding CMS field. These characteristics might reveal a defect that CMS could not support effectively in exchange and sharing of information between CMSs. On the other hand, metadata standardization shows big differences in method and representation for the fields of CMS because all metadata standardizations are variously performed according to applications of them. There are lots differences that make interoperability between CMSs impossible. In this paper, we propose a novel metadata schema based on METS(metadata encoding and transmission standard) so that metadata standardization can be fulfilled in reality and solved the problem of duplicated contents created from different CMSs. This framework of integrated metadata proposed here can offer an interoperability between contents created by different CMSs, and discard duplicated contents. As a result of the proposed technology, we obtain 0.5% duplication rate from traditional 10.3%. In addition the filtering ability of duplicated contents shows from 92% to 96%, which proves the effectiveness and stability of the proposed technology.

Gene Ontology based SBML Document Management and Query processing system (GO 기반의 SBML 문서 관리 및 질의 처리기)

  • Jung Seung-Hyun;Jung Tae-Sung;Kim Tae-Kyung;Kim Kyoung-Ran;Cho Wan-Sup
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.88-90
    • /
    • 2006
  • 본 논문에서는 SBML문서를 효율적으로 저장관리 할 수 있는 Gene Ontology 기반의 SBML 문서관리 시스템을 제안한다. SBML은 시스템생물학에서 생화학적 네트워크 데이터의 교환 표준으로 연구 개발되었으며, 다수의 생화학적 네트워크 데이터베이스들이 SBML을 이용하여 데이터를 제공해주고 있다. 이러한 SBML 문서를 통해 서로 다른 데이터베이스 또는 응용 프로그램간 정보를 교환으로 사용되고 있으며, 그 양 또한 급속하게 증가하고 있다. 따라서 본 논문에서는 이러한 대량의 SBML 문서를 효율적으로 저장, 검색 할 수 있는 문서관리시스템을 제안한다. 제안된 시스템은 OODB를 사용하여 효율적으로 SBML 문서를 저장관리하며, Gene Ontology를 기반으로 생화학적 용어의 모호성을 해결하고, SBML문서간의 발생하는 데이터 중복을 제거하여 데이터의 품질을 제고하였다.

  • PDF

CORE-Dedup: IO Extent Chunking based Deduplication using Content-Preserving Access Locality (CORE-Dedup: 내용보존 접근 지역성 활용한 IO 크기 분할 기반 중복제거)

  • Kim, Myung-Sik;Won, You-Jip
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.6
    • /
    • pp.59-76
    • /
    • 2015
  • Recent wide spread of embedded devices and technology growth of broadband communication has led to rapid increase in the volume of created and managed data. As a result, data centers have to increase the storage capacity cost-effectively to store the created data. Data deduplication is one way to save the storage space by removing redundant data. This work propose IO extent based deduplication schemes called CORE-Dedup that exploits content-preserving access locality. We acquire IO traces from block device layer in virtual machine host, and compare the deduplication performance of chunking method between the fixed size and IO extent based. At multiple workload of 10 user's compile in virtual machine environment, the result shows that 4 KB fixed size chunking and IO extent based chunking use chunk index 14500 and 1700, respectively. The deduplication rate account for 60.4% and 57.6% on fixed size and IO extent chunking, respectively.

Performance Analysis of Replicated Servers Allocation Strategies in Mobile Computing (이동 컴퓨팅 환경에서 통신 비용을 최소화하는 중복서버 위치 할당 기법의 성능 분석)

  • 임성화;김재훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.607-609
    • /
    • 2001
  • 셀룰러 기반의 이동 컴퓨팅환경에서는 이동 호스트(MH)의 위치와 상태관리를 위하여 디폴트 서버기법이 널리 사용되는데, 이동 호스트로 전송되는 데이터는 먼저 디폴트 서버에 문의하여 해당 삠 가 위치하는 로컬 서버로 전송된다. 디폴트 서버기법에 기반을 둔 SDN(single Default Notification)기법에서는 클라이언트가 MH 와의 연결요청을 하면 쿼리 서버를 통해 해당 디폴트 서버에 MH의 위치 및 상태를 문의한 후 통신이 이루어진다. 그러나 쿼리횟수가 많고 디폴트 서버와의 거리가 멀거나 기지국외 수가 많을 경우 디폴트 서버와의 통신 오버헤드가 커지며, 디폴트 서버에 결함이 발생할 경우 해당 MH 와의 연결이 불가능해진다. 디폴트 서버를 여러 개로 중복 시킬 경우 위와 같은 문제점을 경감시키고 디폴트 서버와의 통신 비용을 줄일 수 있다. 본 논문에서는 통신 환경에 따른 디폴트 서버의 최적의 중복 개수와 중복 위치를 구하는 방법을 제시하였고, 시뮬레이션을 통하여 수학적 방법이 유용함을 보였다.

  • PDF