• Title/Summary/Keyword: 데이터 중복제거

Search Result 258, Processing Time 0.031 seconds

Efficient and Privacy-Preserving Near-Duplicate Detection in Cloud Computing (클라우드 환경에서 검색 효율성 개선과 프라이버시를 보장하는 유사 중복 검출 기법)

  • Hahn, Changhee;Shin, Hyung June;Hur, Junbeom
    • Journal of KIISE
    • /
    • v.44 no.10
    • /
    • pp.1112-1123
    • /
    • 2017
  • As content providers further offload content-centric services to the cloud, data retrieval over the cloud typically results in many redundant items because there is a prevalent near-duplication of content on the Internet. Simply fetching all data from the cloud severely degrades efficiency in terms of resource utilization and bandwidth, and data can be encrypted by multiple content providers under different keys to preserve privacy. Thus, locating near-duplicate data in a privacy-preserving way is highly dependent on the ability to deduplicate redundant search results and returns best matches without decrypting data. To this end, we propose an efficient near-duplicate detection scheme for encrypted data in the cloud. Our scheme has the following benefits. First, a single query is enough to locate near-duplicate data even if they are encrypted under different keys of multiple content providers. Second, storage, computation and communication costs are alleviated compared to existing schemes, while achieving the same level of search accuracy. Third, scalability is significantly improved as a result of a novel and efficient two-round detection to locate near-duplicate candidates over large quantities of data in the cloud. An experimental analysis with real-world data demonstrates the applicability of the proposed scheme to a practical cloud system. Last, the proposed scheme is an average of 70.6% faster than an existing scheme.

Research on Minimizing Access to RDF Triple Store for Efficiency in Constructing Massive Bibliographic Linked Data (극대용량 서지 링크드 데이터 구축의 효율성을 위한 RDF 트리플 저장소 접근 최소화에 관한 연구)

  • Lee, Moon-Ho;Choi, Sung-Pil
    • Journal of Korean Library and Information Science Society
    • /
    • v.48 no.3
    • /
    • pp.233-257
    • /
    • 2017
  • In this paper, we propose an effective method to convert and construct the MEDLINE, the world's largest biomedical bibliographic database, into linked data. To do this, we first derive the appropriate RDF schema by analyzing the MEDLINE record structure in detail, and convert each record into a valid RDF file in the derived schema. We apply the dual batch registration method to streamline the subject URI duplication checking procedure when merging all RDF files in the converted record unit and storing it in a single RDF triple storage. By applying this method, the number of RDF triple storage accesses for the subject URI duplication is reduced from 26,597,850 to 2,400, compared with the sequential configuration of linked data in units of RDF files. Therefore, it is expected that the result of this study will provide an important opportunity to eliminate the inefficiency in converting large volume bibliographic record sets into linked data, and to secure promptness and timeliness.

Data Hub System based XMDR for Data Integration (데이터 통합을 위한 XMDR 기반의 데이터 허브 시스템)

  • Moon, Seok-Jae;Eum, Y.H.;Kooj, Y.G.;Jung, G.D.;Choi, Y.G.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.297-302
    • /
    • 2006
  • 데이터 통합은 기업의 각 조직과 주요 업무, 핵심 애플리케이션에서 발생하는 물리적인 데이터 소스들을 표준 규칙과 메타데이터에 여과시켜 중복성을 제거하고. 오직 데이터 통합 및 단일 뷰를 정확하게 제공하기에 어려움이 따른다. 특히, 이기종 시스템이나 다양한 애플리케이션에서 나오는 대량의 데이터를 종류와 형식에 관계없이 호환이 가능하도록 지속적으로 통합하여, 정확한 정보를 실시간으로 동기화하여 제공할 수 있는 자동화된 정보의 통합이 관건이다. 따라서 본 논문에서는 레거시 시스템간의 데이터를 협업할 때 실시간으로 변화는 데이터를 일관성 있게 유지하기 위해서 데이터 협업 메커니즘을 제안한다. 또한 XMDR을 이용하여 협업에 의한 데이터 통합에서 발생하는 의미적 상호 운용성의 문제점을 해결하는 XMDR 기반의 데이터 허브 시스템을 구축한다.

  • PDF

Support Vector Machine Using Parallel Hyperplane for Reduction of Training Data (트레이닝 데이터 감소를 위한 병렬 평면 기반의 Support Vector Machine)

  • Lee, Tae-Ho;Kim, Min-Woo;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.115-116
    • /
    • 2019
  • SVM (Support Vector Machine)은 견고성으로 인해 다양한 분류 문제에 적용 할 수 있는 효율적인 기계 학습 기술이다. 그러나 훈련 데이터의 수가 증가함에 따라 시간 복잡도가 급격히 증가하므로 대규모 데이터 세트의 경우 SVM이 비실용적이다. 본 논문에서는 SVM을 사용하여 중복 된 학습 데이터를 효율적으로 제거하는 새로운 병렬 평면(Parallel Hyperplane) 기법을 소개한다. 제안 기법에서 PH는 재귀 적으로 형성되는 반면 PH의 외부에 있는 데이터 포인트의 클러스터는 매 반복마다 제거된다. 시뮬레이션 결과 제안 기법은 기존의 클러스터링 기반 감축 기법과 SMO 기법에 비해 학습 시간을 크게 단축시키면서 데이터 축소 없이 분류의 정확성을 높일 수 있음을 확인 하였다.

  • PDF

Extracting Clinical Service Process Models by Analyzing Patient History (환자 이력 데이터 분석을 통한 임상 서비스 프로세스 모형 추출)

  • Kim, Jun-Woo;Lee, Sang-Chul;Park, Sang-Chan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.403-404
    • /
    • 2014
  • 원 업무 효율성을 높이기 위해 최근 다양한 병원 정보 시스템들이 도입되어 왔다. 이러한 시스템들을 통해 병원에서는 다양한 데이터를 전자적인 형태로 기록하고 공유하고 있으나, 이러한 데이터들은 일반적으로 간단한 통계량을 집계하는 데에만 사용되고 있어, 보다 체계적인 방법으로 병원 운영 관리에 유용한 숨겨진 지식이나 패턴을 추출하는 방법이 필요하다. 이에 본 논문에서는 기존 병원 정보 시스템들에 의해 축적되어진 환자 이력 데이터를 분석하여 임상 서비스 프로세스 모형을 추출하는 방법을 제안한다. 환자 이력 데이터는 검사나 처방 등을 실시한 기록을 포함하는데, 일반적으로 구조가 복잡하고 데이터 소스가 분산되어 있어 단순한 방법으로 분석하는 것이 까다롭다. 따라서, 본 논문에서는 먼저 단순한 형태의 프로세스 모형을 생성하고 이를 확장해나가는 단계적인 분석 방법을 소개한다. 이러한 목적을 위해 적절한 데이터 전처리, 데이터 마이닝, 프로세스 마이닝 기법 등이 활용되었으며, 제안하는 방법을 실제 류머티스과 환자 이력 데이터에 적용하여 임상 서비스 프로세스 모형을 추출할 수 있었다.

  • PDF

Priority-based Hint Management Scheme for Improving Page Sharing Opportunity of Virtual Machines (가상머신의 페이지 공유 기회를 향상시키기 위한 우선순위 큐 기반 힌트 관리 기법)

  • Nam, Yeji;Lee, Minho;Lee, Dongwoo;Eom, Young Ik
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.947-952
    • /
    • 2016
  • Most data centers attempt to consolidate servers using virtualization technology to efficiently utilize limited physical resources. Moreover, virtualized systems have commonly adopted contents-based page sharing mechanism for page deduplication among virtual machines (VMs). However, previous page sharing schemes are limited by the inability to effectively manage accumulated hints which mean sharable pages in stack. In this paper, we propose a priority-based hint management scheme to efficiently manage accumulated hints, which are sent from guest to host for improving page sharing opportunity in virtualized systems. Experimental results show that our scheme removes pages with low sharing potential, as compared with the previous schemes, by efficiently managing the accumulated pages.

Implementation of Integrated Metadata Framework Based on METS Analysis (METS 분석기반 통합메타데이터 프레임워크 구현)

  • Min, Byoung-Won;Oh, Yong-Sun
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.60-70
    • /
    • 2011
  • Conventional content management systems are independently developed for a specific field in general. Therefore usage of contents for the CMS will be limited to the corresponding CMS field. These characteristics might reveal a defect that CMS could not support effectively in exchange and sharing of information between CMSs. On the other hand, metadata standardization shows big differences in method and representation for the fields of CMS because all metadata standardizations are variously performed according to applications of them. There are lots differences that make interoperability between CMSs impossible. In this paper, we propose a novel metadata schema based on METS(metadata encoding and transmission standard) so that metadata standardization can be fulfilled in reality and solved the problem of duplicated contents created from different CMSs. This framework of integrated metadata proposed here can offer an interoperability between contents created by different CMSs, and discard duplicated contents. As a result of the proposed technology, we obtain 0.5% duplication rate from traditional 10.3%. In addition the filtering ability of duplicated contents shows from 92% to 96%, which proves the effectiveness and stability of the proposed technology.

Hybrid Value Predictor using Dynamic Classification (동적 분류를 이용한 하이브리드 결과 값 예측기)

  • Sin, Yeong-Ho;Yun, Seong-Ryong;Jo, Yeong-Il
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.11
    • /
    • pp.899-907
    • /
    • 2000
  • 슈퍼스칼라 프로세서의 성능을 향상시키기 위해서는 데이터 종속성에 의한 장애를 제거해야 한다. 최근 여러 논문들은 이러한 데이터 종속성을 제거하기 위해서 명령어의 결과 값을 예상하는 메커니즘을 제안하였다. 이러한 예상 메커니즘 중 여러 예측기를 혼합해서 사용하는 하이브리드 방법은 각 하나의 예측기만을 사용하는 방법보다 더 좋은 성능을 얻을 수 있다. 그러나 그러한 하이브리드 예측기는 명령어를 중복해서 저장하여 많은 하드웨으 크기를 요구한다. 본 논문에서는 여러 예측기의 장점을 이용하여 높은 성능을 얻을 수 있는 새로운 하이브리드 예측 메커니즘을 제안한다. 또한 예상이 자주 틀리는 명령어를 동적으로 찾아내어 예상하지 않음으로서 잘못 예상시 발생하는 misprediction 페널티를 낮추고 예상 정확도를 높인다. 시뮬레이션 결과 SPECint95 벤치마크프로그램에 대해 제안한 하이브리드 예측기에서 예측율은 평균 79%에서 90%로 향상하였고, misprediction rate는 평균 12%에서 2%로 낮추었다.

  • PDF

Design and Implementation of XMDR based on OGSA-DAI System for Data Integration retrieval (데이터 통합검색을 위한 XMDR기반의 OGSA-DAI 시스템 설계 및 구현)

  • Ma, Jin;Moon, Seok-Jae;Jung, Gye-Dong;Choi, Young-Keun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.173-174
    • /
    • 2009
  • 기업이 관리하고 있는 중요한 정보자원들은 대부분이 여러 레거시 시스템에 분산 저장되어 있다. 그리고 저장되어 있는 정보 자원들 또한 서로 호환되지 않는 다양한 형태로 존재하고 있다. 이러한 문제를 해결하기 위해 분산된 데이터의 통합과 지식 공유를 위한 시스템이 필요하다. 데이터 통합의 목적은 기업의 조직과 주요 업무, 핵심 어플리케이션으로부터 발생하는 데이터 소스들의 표준 규칙과 메타 데이터를 이용하여 중복성을 제거하고, 오직 단일 데이터를 제공하는데 있다. 본 논문에서는 XMDR 기반의 OGSA-DAI를 이용하여 통합 검색 시스템을 설계 및 구현하였고, 분산되어 있는 레거시 시스템간의 데이터 통합검색이 가능한 시스템을 제안한다. 제안한 시스템은 분산된 레거시 데이터베이스간의 협업 환경 구성에 적합하며, 실시간 기업환경에서 빠른 정보 전달과 업무 지원 환경에 적절한 시스템이다.

Multicast Scheduling Scheme in Dense WLAN Systems (밀집 무선랜 시스템에서의 멀티캐스트 전송 스케줄링 기법)

  • Kim, Namyeong;Kim, Wonjung;Pack, Sangheon
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.3
    • /
    • pp.441-450
    • /
    • 2015
  • Nowadays, many WLAN access points (APs) are deployed in hotspot areas such as shopping malls and stations. As the number of WLAN APs deployed increases, how to manage densely deployed APs in an efficient manner becomes one of the most important issues in WLANs. In this environment, uncoordinated multicast services can lead to frequent collisions due to simultaneous transmissions among APs. In this paper, we propose a multicast scheduling algorithm that can exploit simultaneous transmissions in multiple sectors and avoid redundant transmissions in dense networks. Simulation results demonstrate that the proposed scheme can reduce the multicast transmission latency compared to comparison scheduling schemes.