• Title/Summary/Keyword: 민해시

Search Result 15, Processing Time 0.03 seconds

Length Bitmap HASH Based POS Tagging System (길이 비트맵 해시 기반 형태소 분석 시스템)

  • Seon Choong-Nyoung;Min Kyungkoo;Seo Jungyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.505-507
    • /
    • 2005
  • 인터넷의 확장에 따라 형태소 분석기에서 사용하는 사전의 규모도 커지고 있다. 이러한 상황은 사전의 증가를 가져옴으로써 기존 형태소 분석기의 자료 구조에 대한 새로운 요구를 발생시켰다. 기존의 트라이를 이용한 방법은 노드의 과다 생성과 데이터 부족문제로 발생하는 메모리 낭비의 문제를 가지고 있다. 효율적인 메모리 사용을 위해서는 해시 구조가 적절하다. 하지만 이 경우 트라이에 비해 검색 횟수의 복잡도가 비약적으로 증가되는 문제점을 안고 있다. 본 논문에서는 해시를 위한 길이 비트맵을 이용하여 검색 횟수를 제한할 수 있는 방법을 제안하였다. 실험을 통해 제안된 자료 구조와 해시와 트라이의 형태소 사전 검색 횟수를 비교하였으며 비문 사용이 많은 영역에서 효율적임을 입증하였다.

  • PDF

File Synchronization System Using Hash Compression (해시 압축을 이용한 파일 동기화 시스템)

  • Park, Jae Min;Jung, Ho Min;Ko, Young Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.178-181
    • /
    • 2012
  • 본 논문에서는 가변 길이 분할을 사용한 파일 동기화 시스템에서 메타 데이터 교환 오버헤드를 최소화 하기위한 효율적인 접근 방식을 제안한다. 본 논문의 주요 아이디어는 해시 압축 알고리즘을 사용하여 여러 개의 해시키를 하나의 해시키로 치환하여 메타 데이터 교환 비용을 최소화 하는 것이다. 본 논문에서는 제안 알고리즘의 타당성을 증명하기 위해 기존의 파일 동기화 프로그램과 비교 실험하였으며 통신비용과 에너지 소모 실험을 통해 메타 데이터를 10배 이상 줄일 수 있음을 보였다.

Data Backup System Exploiting De-duplication TAR Scheme (중복제거 TAR 기법을 적용한 백업 시스템)

  • Kang, Sung-Woon;Jung, Ho-Min;Lee, Jeong-Gun;Ko, Young-Woong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.539-542
    • /
    • 2011
  • TAR와 같은 아카이브 포맷에는 파일 중복을 제거하는 기능이 포함되어 있지 않아서 리눅스 배포 미러와 같이 버전단위로 저장되는 시스템에서 디스크 공간의 낭비가 발생하였다. 본 연구에서는 파일 중복 제거 기능을 추가한 TAR형태의 압축 포맷인 DTAR와 이를 제어하는 DTM 유틸리티를 제안하였다. 주요 아이디어는 클라이언트에서 DTAR 생성 시, 헤더에 SHA1 해시 정보를 추가하여 DTM 유틸리티를 통해 SHA1 해시를 노드로 하는 R-B Tree를 생성하고 이를 서버에 저장된 해시 정보와 비교하여 DTAR내에서 중복이 없는 파일을 선택적으로 파일을 압축하고 서버로 백업하고 관리하는 것이다. 실험 결과 DTM을 통한 백업은 중복 데이터가 누적될수록 DTAR가 tar.gz보다 공간적인 측면이나 백업을 위한 데이터 패킷 전송 시간에서 크게 향상된 성능을 보였다.

Energy Efficient File Transfer Mechanism using File Similarity (파일 유사도를 이용한 에너지 효율적인 파일 전송 기법)

  • Jung, Ho-Min;Kang, Sung-Woon;Lee, Jeong-Gun;Ko, Young-Woong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.373-376
    • /
    • 2011
  • 모바일 단말에서 소프트웨어의 기능을 구현할 때, 배터리 소모를 최소화 시키는 것이 매우 중요하다. 본 연구에서는 모바일 단말에서 파일 전송을 수행함에 있어서 에너지 효율적으로 처리하는 기법을 제안한다. 주요 아이디어는 클라이언트 부분에서 파일 유사도를 사용하여 대표 해시를 서버로 전송한다. 서버에서는 클라이언트에서 보내온 대표 해시와 자신이 가지고 있는 인덱스와 비교하여 유사도를 계산한다. 유사도에 따라 중복제거 파일 전송방식을 사용할지 일반적인 파일 전송을 할지 결정한다. 실험 결과 10%이상의 유사도를 가지는 파일들에 대해서 제안하는 기법이 배터리 소모를 줄일 수 있음을 보였다.

Design and Implementation of Energy Efficient File Transfer Mechanism Using CRC64 (CRC64해시를 이용한 에너지 효율적인 파일 전송 기법 설계 및 구현)

  • Jung, Ho-Min;Kang, Sung-Woon;Lee, Jeong-Gun;Ko, Young-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.149-151
    • /
    • 2011
  • 모바일 단말에서 소프트웨어의 기능을 구현할 때, 배터리 소모를 최소화 시키는 것이 매우 중요하다. 본 연구에서는 모바일 단말에서 파일 전송을 수행함에 있어서 에너지 효율적으로 처리하는 기법을 제안한다. 주요 아이디어는 클라이언트 부분에서 전송하려는 파일을 128Kbyte 크기의 블록으로 나누고 CRC64를 사용하여 블록의 해시를 서버로 보내 블록을 전송할 지 결정한다. 보내고자 하는 블록이 서버에 있는 크기만큼 대역폭을 줄이면서 모바일 단말의 에너지 소모를 줄이는 것이다. 실험 결과 5% 이상의 중복율을 가지는 파일에 대해서 제안하는 기법이 배터리 소모를 크게 줄일 수 있음을 보였다.

Design and Implementation of Disk Archive System Exploiting De-duplication Scheme (데이터 중복 제거 기반의 디스크 아카이브 시스템 설계 및 구현)

  • Kang, Sung-Woon;Jung, Ho-Min;Ko, Young-Woong;Lee, Jeong-Gun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.204-206
    • /
    • 2011
  • 기존의 TAR와 같은 아카이브 포맷은 파일의 중복을 제거하는 기능이 포함되지 않아 리눅스 배포 미러와 같이 버전단위로 저장되는 시스템에서 디스크 공간의 낭비가 발생했다. 본 연구에서는 중복 제거 기능이 포함된 아카이브 포맷인 DTAR와 이를 지원하는 DTM 유틸리티를 제안하였다. 주요 아이디어는 DTAR 헤더에 SHA1 해시를 삽입하고 SHA1 해시를 노드로 하는 R-B Tree를 생성하여 중복을 검색 및 제거하는 것이다. 실험 결과 DTAR가 tar.gz보다 최대 31% 공간을 절약하고, 수행 시간도 줄어드는 것을 확인하여 효율적임을 보였다.

O(1) IP Lookup Scheme (O(1) IP 검색 방법)

  • 이주민;안종석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.1-3
    • /
    • 2002
  • 백본 라우터에서의 최장 길이 프리픽스 검색(LPM: Longest Prefix Matching) 속도를 향상시키기 위해 활발히 연구된 방식들은 계산 량과 사용 메모리 량을 교환하는 방식들이다. 이러한 방식들은 성능향상을 위해서 대용량의 포워딩 테이블(Forwarding Table)을 캐쉬(Cache)에 저장할 수 있는 소용량 인덱스 테이블(Index Table)로 압축함으로써 고속 캐쉬 접근 회수와 그 계산량은 증가하는 대신 저속 메모리 접근 회수를 줄이는 방식이다.〔1〕본논문에서는 저속 메모리 사용량이 증가하는 반면 저속 메모리의 접근 빈도와 계산량을 동시에 감소시키는 FPLL(Fixed Prefix Length Lookup) 방식을 소개한다. 이 방식은 포워딩 엔트리(Entry)들을 프리픽스의 상위 비트(Bit)에 의해 그룹으로 나누고, 각 그룹에 속하는 엔트리들을 같은 길이로 정렬한다. FPLL에서의 LPM검색은 목적지 주소가 속하는 그룹들의 길이를 계산하여 검색할 최장 프리픽스의 길이를 미리 결정하고, 결정된 프리픽스를 키(key)로 하여 해시 테이블(Hash Table)로 구성된 포워딩 테이블에서 완전 일치(Exact Matching) 검색을 한다. 완전 일치 검색을 위해 같은 그룹에 속한 엔트리들을 정렬할 필요가 있는데 이 정렬을 위해 여분의 포워딩 테이블 엔트리가 생성된다. 3만개 엔트리를 갖는 Mae-West〔2〕 경우에, FPLL방식은 12만개 정도의 여분의 엔트리가 추가로 생성되는 대신에 1번 캐쉬 접근과 O(1)의 복잡도를 갖는 해시 테이블 검색으로 LPM 검색을 수행한다.

  • PDF

An Efficient Large Graph Clustering Technique based on Min-Hash (Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법)

  • Lee, Seok-Joo;Min, Jun-Ki
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.380-388
    • /
    • 2016
  • Graph clustering is widely used to analyze a graph and identify the properties of a graph by generating clusters consisting of similar vertices. Recently, large graph data is generated in diverse applications such as Social Network Services (SNS), the World Wide Web (WWW), and telephone networks. Therefore, the importance of graph clustering algorithms that process large graph data efficiently becomes increased. In this paper, we propose an effective clustering algorithm which generates clusters for large graph data efficiently. Our proposed algorithm effectively estimates similarities between clusters in graph data using Min-Hash and constructs clusters according to the computed similarities. In our experiment with real-world data sets, we demonstrate the efficiency of our proposed algorithm by comparing with existing algorithms.

File Deduplication System Using Logical Partition (논리 파티션을 이용한 파일 중복 제거 시스템)

  • Kong, Jin-San;Jung, Ho-Min;Ko, Young-Woong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.285-287
    • /
    • 2012
  • 기존의 타깃(target) 기반 중복제거 시스템은 저장된 모든 파일에 대하여 각각 중복 제거를 수행한다. 이러한 중복제거 시스템의 문제점은 파일의 크기가 작고 파일의 개수가 많아지는 경우에 해시 값을 구하는 시간과 메타 데이터를 유지하는데 오버헤드가 증가한다. 이러한 문제점을 해결하기 위해 본 논문에서는 논리 파티션을 이용하여 개별 파일들을 묶어서 중복 제거를 수행하는 시스템을 설계 및 구현하였다. 실험 결과 논리 파티션의 용량이 50% 이상일 때 기존 중복제거 기법에 비해서 중복 제거 비율 및 시간적인 측면에서 더 효율적임을 보였다.

Efficient Deduplication Scheme on Fixed-length Chunking System Using File Similarity Information (파일유사도 정보를 이용한 고정 분할 기반 중복 제거 기법)

  • Moon, Young Chan;Jung, Ho Min;Ko, Young Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.202-205
    • /
    • 2012
  • 기존의 고정 길이 분할 (FLC: Fixed Length Chunking) 중복 제거 기법은 파일이 조금이라도 수정이 되면 수정된 블록에 대한 해시 정보가 달라져 중복 데이터 임에도 불구하고 중복 블록으로 검색이 되지 않는 문제점이 있다. 본 연구에서는 FLC 기반의 중복 제거 기법에 데이터 위치(offset) 정보를 활용하여 중복 블록을 효율적으로 찾아냄으로써 기존의 FLC 기반의 중복 제거 기법보다 더 좋은 성능을 발휘하는 유사도 정보를 활용하는 중복 제거 기법(FS_FLC: File Similarity based Fixed Length Chunking)을 설계하고 구현했다. 실험 결과 제안한 알고리즘은 낮은 오버헤드로 가변 분할 기법(VLC: Variable Length Chunking)만큼의 높은 중복 데이터 탐색 성능을 보여주었다.