• 제목/요약/키워드: 다단계 정렬

검색결과 11건 처리시간 0.022초

지문법과 서열정렬법을 결합한 다단계 정렬 방법의 문서 유사도 비교 (A method for comparing documents using fingerprinting and sequence alignment.)

  • 서종규;옥창석;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.576-579
    • /
    • 2012
  • 문서유사도를 비교하는 방법은 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 방법으로, 각 방법의 장점을 얻으면서 단점을 보완하도록 고안되었다[1]. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 다단계정렬 방법에서 발생 가능한 단편화 문제를 제거하여 정확도를 향상시키는 방법에 대해 소개한다.

다단계정렬을 활용한 효율적인 문서 유사도 비교법 (An effective method for comparing similarity of document with Multi-Level alignment)

  • 서종규;황혜련;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.402-405
    • /
    • 2012
  • 문서와 문서간의 유사도들 측정하는 방법 은 크게 지문법 (fingerprint)을 이용한 방법과 서열 정렬(sequence alignment)알고리즘을 이용한 방법이 있다. 두 방법은 각각 속도와 정확도라는 장점을 가지고 있다. 다단계정렬(MLA, Multi-Level alignment))는 이러한 두 방법을 조합하여 탐색 속도와 정확도 사이의 비중을 사용자가 결정할 수 있도록 하기 위한 방법이다.[1] 다단계 정렬은 두 문서를 단위 블록(basis block)로 나누고 블록 간의 벡터를 비교하여 유사도를 측정하게 되는데, 본 연구에서는 초성 추출 및 어간 추출을 통해 단위 블록의 벡터를 빠른 시 간에 생성하고 비교하는 방법과 다단계 탐색을 통해 정확도를 유지하면서 빠르게 유사도를 측정하는 방식에 대해 설명한다. 실험결과 제안 방법을 통해 다단계 정렬 방법을 이용한 대용량 문서 비교의 속도가 2 배 이상 빨라짐을 보인다.

계산속도 및 정확도의 적응적 제어가 가능한 다단계 문서 비교 시스템 (Multi-Level Sequence Alignment : An Adaptive Control Method Between Speed and Accuracy for Document Comparison)

  • 서종규;탁해성;조환규
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.728-743
    • /
    • 2014
  • 유사한 문서를 비교하는 방법으로는 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 새로운 방법의 문서 유사도 측정 방법으로, 각 방법의 장점을 얻으면서 동시에 단점을 보완하도록 고안되었다. 특히 두 비교 방법의 비중을 "블록크기"라는 단일 변수를 이용하여 조절할 수 있도록 한 것이 제안 시스템의 핵심이다. 다단계 정렬은 문서를 일정한 길이의 블록으로 나누어 지문을 추출하고 블록간의 유사도를 계산한 다음 그 결과를 서열정렬법으로 다시 한 번 탐색하는 과정을 거친다. 이때 문서가 분할되는 과정에서 유사구간이 두 개 이상의 블록으로 나누어지는 현상이 발생하기도 한다. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 유사도 비교 성능 개선을 위한 단편화 제거 기법과 휴리스틱 비교법에 대해 설명하고 실험적으로 그 결과를 보인다.

성분 정렬을 이용한 한글 유사 문서 탐색 방법 (A Similar Text Detection of Korean Document using Composition Alignment)

  • 박선영;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.228-231
    • /
    • 2011
  • 최근 표절에 대한 사회적 관심이 꾸준히 높아지고 있는 가운데, 기계적으로 유사한 문서를 탐색하는 방법에 대한 많은 연구가 이루어지고 있다. 이 중 생물정보학에서 유전자 서열을 분석하기 위해 사용되는 '지역 정렬(local alignment)' 기법은 문서 간 유사 영역을 탐색하는 데에 유용하다. 한편 한글에는 조사가 존재하는데, 이 때문에 한글 문장은 각 품사의 순서에 큰 영향을 받지 않는다. 이러한 한글의 특성을 이용해 기존 문서의 어순만 바꾼 문장을 생성할 경우, 지역 정렬을 이용한 탐색 방법으로는 이를 찾아내기 힘들다. 본 논문에서는 한글의 특성을 고려하여 어순과 관계없이 해당 영역의 유사성을 찾아내는 새로운 한글 유사 문서 탐색 방법을 제시한다. 이를 위하여, 성분 정렬(composition alignment) 기법을 적용한다. 성분 정렬 기법은 생물학에서 생물의 진화 과정이나 돌연변이 DNA 등 서열의 순서가 일부 뒤바뀌는 것을 허용하면서 유사한 시퀀스를 찾는 기법으로 기존의 방법보다 더욱 유연하고 민감한 방법이라 할 수 있다. 이를 적용하여 한글 문서를 탐색한 결과, 일반적인 문장 및 거의 동일한 문장 간의 유사도 점수는 큰 변화가 없었으나, 어순을 바꾼 문장의 경우 기존의 방법보다 평균 35.34% 가량 민감하게 탐색할 수 있었다. 추후 한글에 대한 초성 추출 및 성분 정렬 방법을 응용하여 다단계 구조의 유사 문서 탐색 방법에 대해 연구할 계획이다.

원통형 단조금형의 정렬을 위한 측정시스템에 관한 연구 (A Study on the Measurement System for Alignment of Cylindrical Forging Die)

  • 윤재웅
    • 한국공작기계학회논문집
    • /
    • 제18권1호
    • /
    • pp.83-89
    • /
    • 2009
  • In most multi-stage forging processes, the die spotting process or alignment of punch and die depends on the manual operation. It results a very tedious and inefficient procedure, thus the proper measurement system is needed to improve productivity and accuracy. This paper proposes a measurement system for alignment of die and punch which has a cylindrical holder, and describes the system concepts using 3 eddy-current displacement transducers and precise measurement jig. In order to apply this measurement system to real situations, the measuring procedures and system calibration method, etc. are proposed. Finally, the accuracy and productivity of this measurement system are investigated in this paper.

단계 선형 배치 트리를 이용한 순차 패턴 추출 (Mining Sequential Patterns Using Multi-level Linear Location Tree)

  • 최현화;이동하;이전영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.70-72
    • /
    • 2003
  • 대용량 데이터베이스로부터 순차 패턴을 발견하는 문제는 지식 발견 또는 데이터 마이닝(Data Mining) 분야에서 주요한 패턴 추출 문제이다. 순차 패턴은 추출 기법에 있어 연관 규칙의 Apriori 알고리즘과 비슷한 방식을 사용하며 그 과정에서 시퀀스는 해쉬 트리 구조를 통해 다루어 진다. 이러한 해쉬 트리 구조는 항목들의 정렬과 데이터 시퀀스의 지역성을 무시한 저장 구조로 단순 검색을 통한 다수의 복잡한 포인터 연산수행을 기반으로 한다. 본 논문에서는 이러한 해쉬 트리 구조의 단정을 보완한 다단게 선형 배치 트리(MLLT, Multi-level Linear Location Tree)를 제안하고, 다단계 선형 배치 트리를 이용한 효율적인 마이닝 메소드(MLLT-Join)를 소개한다.

  • PDF

가상 디렉토리 확장 해시 색인: 확장 해싱에서의 새로운 디렉토리 구조를 이용한 저비용 해시 색인 (Virtual Directory Extendible Hash index: An Economic Hash Index Using New Directory Structure)

  • 박상근;박순영;김명근;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1493-1496
    • /
    • 2003
  • 데이터베이스 관계 연산자 중 프로젝션(projection)과 집단 연산(aggregate function)시 사용되는 GROUP BY절, 그리고 동등 조인(equi join)에 대한 질의 처리는 중복된 튜플 중복된 GROUP BY 필드, 조인 중 발생하는 임시결과에 대한 제거나 집단 연산, 임시 결과의 저장을 위해 정렬이나 해싱 기반 알고리즘을 적용하고 있다. 이 중 해싱 기반 알고리즘은 데이터에 대한 직접적인 접근 방법과 정렬비용이 없다는 장점으로 인해 자주 사용하게 된다. 그러나 이러한 해싱(extendible hashing)[1] 기반 알고리즘은 키 값이 저장되는 버켓(bucket) 페이지의 넘침(overflow)으로 인해 분할(split)이 발생하는 경우, 분할을 야기시킨 버켓 페이지에 대한 정보를 제외한 동일한 내용의 기존 디렉토리 구조를 배로 확장해야 하는 공간 확장과, 확장된 디렉토리 구조의 유지를 위해 많은 비용을 소모하게 된다. 본 논문에서는 다량의 데이터에 대한 접근 기법과 디렉토리 구조의 저장공간, 유지 비용 절감 및 중복 해시 값을 지니는 데이터를 처리하기위한 해시 색인인 가상 디렉토리 확장 해시 색인을 제안한다. 가상 디렉토리 확장 해시 색인은 디렉토리 구조를 다단계 구조로 유지함으로써, 넓은 저장 공간을 필요로 하는 다량의 데이터에 대한 접근경로 문제를 해결하였고, 가상 디렉토리 레벨이라는 새로운 구조를 통해, 기존 디렉토리 구조의 공간 낭비 및 유지 비용을 최소화 시켰으며, 버켓 페이지를 리스트(list) 구조로 유지함으로써 중복 해시 값에 의한 디렉토리 구조의 연쇄적 분할 문제를 해결하였다.

  • PDF

Wavelet Packet 기반 점진적 영상 전송 (Wavelet Packet-Based Progressive Image Transmission)

  • 송준호;이기헌;박래홍
    • 전자공학회논문지S
    • /
    • 제35S권8호
    • /
    • pp.77-85
    • /
    • 1998
  • 본 논문에서는 다단계 양자기를 이용한 wavelet packet 변환 기반 영상의 점진적 전송기법을 제안하였다. 제안한 방법에서 각 양자화 단계에서의 양자기는 주어진 비트율에 대해 각각 최적화하였다. 스칼라 양자기와 벡터 양자기를 사용하였고 각각의 성능을 비교하였 다. 양자화 단계후 전송이 결정된 부대역들은 전송을 위해 이들의 중요도에 따라 정렬된다. 또한 인간 시각 시스템(human visual system) 특성을 가중값으로 사용함으로써 주관적인 화질 향상을 얻었다.

  • PDF

알루미늄 양극산화에 의한 포물선 형태의 다공성 나노 템플릿 제조 (Preparation of Porous Nano Template of Parabola Shape by Anodic Aluminum Oxide)

  • 김안나;김현종;임하나;정지혜;신치호;박춘만;유봉영
    • 한국표면공학회:학술대회논문집
    • /
    • 한국표면공학회 2015년도 추계학술대회 논문집
    • /
    • pp.274-274
    • /
    • 2015
  • 양극산화를 통해 생기는 다공성 알루미나 산화막의 기공은 전해질과 적절한 온도 등 제작 조건에서 자기 조립하여 고도로 정렬된 (Highly ordered) 나노기공을 가지는 AAO (AnodicAluminum Oxide)를 제조하는데 주로 쓰이고 있다. 본 연구에서는 다단계 산화방법으로 빛의 파장에 무관하게 빛의 반사를 매우 효과적으로 줄이는 포물선 형태의 Moth-eye 구조를 가지는 템플릿을 제조하였다. SEM 측정을 통해 구조체 다공성 알루미늄 산화막의 표면적 변화를 알 수 있었고, 일정한 크기와 모양의 pore가 규칙적으로 형성된 것을 확인하였다. 그리고 제조된 템플릿 내부에 고분자를 채워 포물선 형태의 나노핀을 갖는 필름을 제조할 수 있었다.

  • PDF

우선순위 알고리즘을 적용한 상호연결 망 구조의 ATM 스위치 설계 (Design of ATM Switch-based on a Priority Control Algorithm)

  • 조태경;조동욱;박병수
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.189-196
    • /
    • 2004
  • 최근 ATM스위치를 위한 대부분의 연구는 병렬 하드웨어 자체에 규칙성과 자체 라우팅 특성을 가지는 다단계 상호연결 네트워크에 근거하여왔다. 그러나 네트워크는 동시에 또는 병렬로 전송되지만 서로 충돌을 피찰 수 없다는 측면에서는 블러킹 네트워크라고 할 수 있는데, 주로 밴얀 네트워크가 그 구조에 사용되어왔다. 밴얀 형태의 스위치에 있어서 처리율을 증가시키고, 블러킹을 제거하기 위해서 즉 내부링크의 속도를 증가시키고, 모든 스위치 노드에 버퍼를 두고, 병렬로 다중 연결링크를 두고, 그 네트워크 전에 부하를 균등하게 하는 통 여러 가지 방법들이 사용되어 왔다. 따라서 본 논문에서는 모든 블러킹이 제거되고 하드웨어 복잡도를 향상시키기 위하여 재순환 선플?스체인지 네트워크의 사용을 제안하였다. 이 구성은 하드웨어 복잡도 면에서 한층 단순하여진 구조인 재순환 셔플?스체인지 네트워크와, 동일한 목적지로 전달되는 패킷들에 있어서 우선순위가 결정된 후 순위가 높은 패킷은 다음 네트워크로 보내고, 순위가 낮은 패킷들을 재순환하는 트리구조의 순위 네트워크로 구성된다. 전송된 패킷은 밴얀 네트워크에서 분할 및 합성 알고리즘을 통하여 자체 라우팅 방식으로 최종 목적지에 전송되도록 구성된다. 처리율과 대기 시간 및 버퍼 크기에 따른 패킷의 손실율은 통일한 부하에 따라 각 포트에 도달한 패킷들의 확률을 이항분포로서 적용된다. 이때, $50\%$의 부하 정도면 버퍼 사이즈 $B_{size}=15$이상 즉, 16이면 허용 가능한 손실윤을 나타낸다. 그러므로 본 논문은 하드웨어의 복잡도 측면에서 기존의 바이토닉 정렬기를 재순환 셔플잌스체인지 네트워크로 구성하여 단순화 시켰다.

  • PDF