• 제목/요약/키워드: edit distance

검색결과 47건 처리시간 0.026초

음소의 분류 체계를 이용한 한글 편집 거리 알고리즘 (Edit Distance Problem for the Korean Alphabet with Phoneme Classification System)

  • 노강호;박근수;조환규;장소원
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권6호
    • /
    • pp.323-329
    • /
    • 2010
  • 문자열에 대한 편집 거리 문제는 하나의 문자열을 다른 문자열로 변환할 때 필요한 최소한의 연산의 개수를 구하는 문제이다. 영어와 같은 1차원 문자열에 대한 최적해에 대해서는 오랫동안 연구가 진행되어 왔으나, 한글과 같이 좀 더 복잡한 언어에 대한 편집 거리에 대해서는 많은 연구가 진행되지 못했다. 본 논문에서는 음소와 음절을 구분하여 편집거리를 구하는 기존 연구를 확장하여, 음소간의 유사도를 정의하고 이를 이용하여 유사한 단어를 더 정확하게 구분해 내는 알고리즘을 제안한다.

Word Similarity Calculation by Using the Edit Distance Metrics with Consonant Normalization

  • Kang, Seung-Shik
    • Journal of Information Processing Systems
    • /
    • 제11권4호
    • /
    • pp.573-582
    • /
    • 2015
  • Edit distance metrics are widely used for many applications such as string comparison and spelling error corrections. Hamming distance is a metric for two equal length strings and Damerau-Levenshtein distance is a well-known metrics for making spelling corrections through string-to-string comparison. Previous distance metrics seems to be appropriate for alphabetic languages like English and European languages. However, the conventional edit distance criterion is not the best method for agglutinative languages like Korean. The reason is that two or more letter units make a Korean character, which is called as a syllable. This mechanism of syllable-based word construction in the Korean language causes an edit distance calculation to be inefficient. As such, we have explored a new edit distance method by using consonant normalization and the normalization factor.

한글에 대한 편집 거리 문제 (Edit Distance Problem for the Korean Alphabet)

  • 노강호;김진욱;김은상;박근수;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권2호
    • /
    • pp.103-109
    • /
    • 2010
  • 문자열에 대한 편집 거리 문제는 하나의 문자열을 다른 문자열로 변환할 때 필요한 최소한의 연산의 개수를 구하는 문제이다. 편집 거리 문제는 오랫동안 연구가 진행되어 왔으며, 영어와 같이 1차원 문자열에 대해서는 최적해를 찾는 여러 가지 알고리즘이 개발되어 왔다. 그러나 한글 또는 한자와 같이 좀 더 복잡한 언어에 대한 편집 거리에 대해서는 많은 연구가 진행되지 못했다. 본 논문에서는 한글이 갖는 특징을 반영한 편집 거리를 정의하고, 한글 문자열에 대한 편집 거리를 구하는 알고리즘을 제안한다.

다양한 스마트폰 키패드 환경에서 유사 단어 검색을 위한 수정된 편집 거리 계산 방법 (Modified Edit Distance Method for Finding Similar Words in Various Smartphone Keypad Environment)

  • 송영길;김학수
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.12-18
    • /
    • 2011
  • 대부분의 스마트폰은 터치패드 기반의 가상 키패드를 사용한다. 가상 키패드는 기기의 화면 크기나 입력 방법의 물리적인 한계로 입력 오류가 자주 발생한다. 이 문제를 해결하기 위해 유사 단어를 찾기 위한 많은 연구가 있었다. 본 논문에서는 편집 거리 방법을 다양한 가상 키패드를 고려하여 수정하는 방법을 제안한다. 제안 방법은 다양한 키패드에서 발생하는 입력 오류를 효과적으로 해결하기 위해, 입력 문자열을 사용자가 실제 누르게 되는 입력열로 변환하고, 가상 키패드의 특성에 따라 편집 비용을 수정하였다. 다양한 키패드에서 실험한 결과 제안 방법이 일반적인 편집 거리 방법을 이용한 것 보다 좋은 성능을 보였다.

4-러시안 알고리즘 기반의 편집거리 병렬계산 (Parallel Computation For The Edit Distance Based On The Four-Russians' Algorithm)

  • 김영호;정주희;강대웅;심정섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권2호
    • /
    • pp.67-74
    • /
    • 2013
  • 근사문자열매칭 문제는 다양한 분야에서 연구되어 왔다. 최근에는 차세대염기서열분석의 비용과 시간을 줄이기 위해 빠른 근사문자열매칭 알고리즘들이 이용되고 있다. 근사문자열매칭은 문자열들의 오차를 측정하기 위해 편집거리와 같은 거리함수를 이용한다. 알파벳 ${\Sigma}$에 대한 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해서도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 t라 할 때, 전처리 단계에서 $O((3{\mid}{\Sigma}{\mid})^{2t}t^2)$ 시간과 $O((3{\mid}{\Sigma}{\mid})^{2t}t)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 병렬화하고 실험을 통해 CPU 기반의 순차적 알고리즘과 CUDA로 구현한 GPU 기반의 병렬 알고리즘의 수행시간을 비교한다. 본 논문에서 제시하는 4-러시안 알고리즘의 계산단계는 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t = 1일 때 약 10배 빠르고, t = 2일 때 약 3배 빠른 결과를 보였다.

가상 예제와 Edit-distance 자질을 이용한 SVM 기반의 단백질명 인식 (SVM-based Protein Name Recognition using Edit-Distance Features Boosted by Virtual Examples)

  • Yi, Eun-Ji;Lee, Gary-Geunbae;Park, Soo-Jun
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.95-100
    • /
    • 2003
  • In this paper, we propose solutions to resolve the problem of many spelling variants and the problem of lack of annotated corpus for training, which are two among the main difficulties in named entity recognition in biomedical domain. To resolve the problem of spotting valiants, we propose a use of edit-distance as a feature for SVM. And we propose a use of virtual examples to automatically expand the annotated corpus to resolve the lack-of-corpus problem. Using virtual examples, the annotated corpus can be extended in a fast, efficient and easy way. The experimental results show that the introduction of edit-distance produces some improvements in protein name recognition performance. And the model, which is trained with the corpus expanded by virtual examples, outperforms the model trained with the original corpus. According to the proposed methods, we finally achieve the performance 75.80 in F-measure(71.89% in precision,80.15% in recall) in the experiment of protein name recognition on GENIA corpus (ver.3.0).

  • PDF

Edit Distance를 이용한 오용탐지 시스템의 침입유형 판별 (Intrusion Types Identification for HMM-based Anomaly Detection System Using Edit Distance)

  • 구자민;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.874-876
    • /
    • 2003
  • 전산 시스템에 대한 침입에 대응하기 위하여 시스템 호출 감사자료 척도를 사용하여 은닉 마르코프 모델(HMM)에 적용하는 비정상행위 기반 침입탐지 시스템에 대한 연구가 활발하다. 하지만, 이는 일정한 임계간 이하의 비정상행위만을 감지할 뿐, 어떠한 유형의 침입인지를 판별하지 못한다. 이에 Viterbi 알고리즘을 이용하여 상태 시퀀스를 분석하고, 공격 유형별 표준 상태시퀀스와의 유사성을 측정하여 유형을 판별할 수 있는데, 외부 혹은 내부 환경에 따라 상태 시퀀스가 항상 규칙적으로 추출될 수 없기 때문에, 단순 매칭으로 침입 유형을 판별하기가 어렵다. 본 논문에서는 이러한 문제를 해결하기 위하여 시퀀스의 변형을 효과적으로 고려하는 편집거리(Edit distance)를 이용하여 어떠한 유형의 침입이 발생하였는지를 판별하는 방법을 제안한다. 본 논문에서는 루트권한을 취득하기 위한 대표적인 침입유형으로 가장 널리 쓰이는 버퍼오버플로우 공격에 대해 실험하였는데, 그 결과 세부적인 침입 유형을 잘 판별할 수 있음을 확인하였다.

  • PDF

GPU의 공유메모리를 활용한 확장편집거리 병렬계산 (Parallel Computation for Extended Edit Distances Using the Shared Memory on GPU)

  • 김영호;나중채;심정섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권7호
    • /
    • pp.213-218
    • /
    • 2015
  • 알파벳 ${\Sigma}$로 구성된 길이가 각각 m, n인 두 문자열 X, Y가 주어졌을 때, X, Y의 확장편집거리는 동적프로그래밍을 이용하여 O(mn) 시간과 공간을 계산할 수 있다. 최근 m개의 쓰레드를 이용하여 O(m+n) 시간과 O(mn) 공간을 사용하여 X, Y의 확장편집거리를 계산하는 병렬알고리즘이 제시되었다. 본 논문에서는 GPU의 공유메모리를 활용하여 수행시간을 개선한 병렬알고리즘을 제시한다. 실험 결과, 개선된 병렬알고리즘이 기존의 병렬알고리즘보다 약 19~25배 이상 빠른 수행시간을 보였다.

디지털 소외계층을 위한 지능형 IoT 애플리케이션의 공개 API 기반 대화형 음성 상호작용 기법 (Open API-based Conversational Voice Interaction Scheme for Intelligent IoT Applications for the Digital Underprivileged)

  • 장준혁
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.22-29
    • /
    • 2022
  • 음성 상호작용은 스마트 기기의 활용에 능숙하지 못한 디지털 소외계층을 대상으로 하는 애플리케이션에서 특히 효과적이다. 그러나 공개 API를 기반으로 한 애플리케이션들은 기존의 터치스크린 중심의 UI와 제공되는 API의 한계로 인해 음성 신호를 짧고 단편적인 입출력에만 활용하고 있다. 본 논문에서는 사용자와 지능형 모바일/IoT 애플리케이션의 대화형 음성 상호작용 모델을 설계하고, 편집 거리(Levenshtein distance) 기반 키워드 탐지 기법을 제안한다. 제안 모델 및 기법은 안드로이드 환경에서 구현되었으며, 편집 거리 기반 키워드 탐지 기법은 음성인식을 통해 부정확하게 인식된 키워드에 대해 기존 기법보다 높은 인식률을 보였다.

데이터 활용률 제고를 위한 기술 용어의 상호 네트워크 생성과 통제 (Generating and Controlling an Interlinking Network of Technical Terms to Enhance Data Utilization)

  • 정도헌
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.157-182
    • /
    • 2018
  • 빅 데이터 시대에 접어들면서 저장 기술과 처리 기술이 급속도로 발전함에 따라, 과거에는 간과되었던 롱테일(long tail) 데이터가 많은 기업과 연구자들에게 관심의 대상이 되고 있다. 본 연구는 롱테일 법칙의 영역에 존재하는 데이터의 활용률을 높이기 위해 텍스트 마이닝 기반의 기술 용어 네트워크 생성 및 통제 기법을 제안한다. 특히 텍스트 마이닝의 편집 거리(edit distance) 기법을 이용해 학문분야에서 사용되는 기술 용어의 상호 네트워크를 자동으로 생성하는 효과적인 방안을 제시하였다. 데이터의 활용률 향상 실험을 위한 데이터 수집을 위해 LOD(linked open data) 환경을 이용하였으며, 이 과정에서 효과적으로 LOD 시스템의 데이터를 활용하는 기법과 용어의 패턴 처리 알고리즘을 제안하였다. 마지막으로, 생성된 기술 용어 네트워크의 성능 측정을 통해 제안한 기법이 롱테일 데이터의 활용률 제고에 효과적이었음을 확인하였다.