• Title/Summary/Keyword: edit distance

Search Result 47, Processing Time 0.022 seconds

Secure Blocking + Secure Matching = Secure Record Linkage

  • Karakasidis, Alexandros;Verykios, Vassilios S.
    • Journal of Computing Science and Engineering
    • /
    • v.5 no.3
    • /
    • pp.223-235
    • /
    • 2011
  • Performing approximate data matching has always been an intriguing problem for both industry and academia. This task becomes even more challenging when the requirement of data privacy rises. In this paper, we propose a novel technique to address the problem of efficient privacy-preserving approximate record linkage. The secure framework we propose consists of two basic components. First, we utilize a secure blocking component based on phonetic algorithms statistically enhanced to improve security. Second, we use a secure matching component where actual approximate matching is performed using a novel private approach of the Levenshtein Distance algorithm. Our goal is to combine the speed of private blocking with the increased accuracy of approximate secure matching.

An Effective Metric for Measuring the Degree of Web Page Changes (효과적인 웹 문서 변경도 측정 방법)

  • Kwon, Shin-Young;Kim, Sung-Jin;Lee, Sang-Ho
    • Journal of KIISE:Databases
    • /
    • v.34 no.5
    • /
    • pp.437-447
    • /
    • 2007
  • A variety of similarity metrics have been used to measure the degree of web page changes. In this paper, we first define criteria for web page changes to evaluate the effectiveness of the similarity metrics in terms of six important types of web page changes. Second, we propose a new similarity metric appropriate for measuring the degree of web page changes. Using real web pages and synthesized pages, we analyze the five existing metrics (i.e., the byte-wise comparison, the TF IDF cosine distance, the word distance, the edit distance, and the shingling) and ours under the proposed criteria. The analysis result shows that our metric represents the changes more effectively than other metrics. We expect that our study can help users select an appropriate metric for particular web applications.

A Technique for Measuring the Self-Production of Internet Newspapers (인터넷 신문기사의 자체 생산량 측정 기술)

  • Kim, Dong-Joo;Kim, Han-Woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.445-449
    • /
    • 2009
  • 인터넷의 발달과 인터넷 문화의 보편화로 인하여 사용자들은 폭발적으로 증가하는 다양한 정보를 접할 수 있게 되었으며, 자체 생산하거나 다른 신문사들로부터 생산된 기사들을 단순 유통, 링크를 통하여 정보검색 사이트들뿐만 아니라 각종 포털 사이트, 인터넷신문사들은 많은 다양한 경로로 기사를 제공할 수 있게 되었다. 이에 따라 인터넷산문을 규정하고 법적, 테두리에 넣기 위한 법률이 제정되었으며, 인터넷신문사에 대해 기사의 자체 생산량이라는 요건 검증에 대한 요구가 증가하고 있다. 본 논문은 인터넷신문 자체기사 생산량을 측정하기 위해 필요한 기술들을 조사하고 타당성을 검토하여 이에 적합한 기술을 제시한다. 제시한 방법은 대량의 기사의 비교를 빠른 시간에 수행한 수 있도록 하기 위해 인간의 단어 인지와 관련한 경험적 정보의 반영을 통하여 변형한 편집거리 기반 방법이다. 제시하는 방법의 정확성을 검증하기 위해 실제 소량의 인터넷 신문 기사를 대상으로 실험하였다.

  • PDF

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

Study on gesture recognition based on IIDTW algorithm

  • Tian, Pei;Chen, Guozhen;Li, Nianfeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.13 no.12
    • /
    • pp.6063-6079
    • /
    • 2019
  • When the length of sampling data sequence is too large, the method of gesture recognition based on traditional Dynamic Time Warping (DTW) algorithm will lead to too long calculation time, and the accuracy of recognition result is not high.Support vector machine (SVM) has some shortcomings in precision, Edit Distance on Real Sequences(EDR) algorithm does not guarantee that noise suppression will not suppress effective data.A new method based on Improved Interpolation Dynamic Time Warping (IIDTW)algorithm is proposed to improve the efficiency of gesture recognition and the accuracy of gesture recognition. The results show that the computational efficiency of IIDTW algorithm is more than twice that of SVM-DTW algorithm, the error acceptance rate is FAR reduced by 0.01%, and the error rejection rate FRR is reduced by 0.5%.Gesture recognition based on IIDTW algorithm can achieve better recognition status. If it is applied to unlock mobile phone, it is expected to become a new generation of unlock mode.

XML Document Structure Comparison based on Function Transform and FFT (함수 변환과 FFT에 의한 XML 문서의 구조 비교)

  • Lee Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

TCM Without Constellation Expansion Penalty

  • Kaminsky, Edit J.;Ayo, James
    • Journal of Communications and Networks
    • /
    • v.4 no.2
    • /
    • pp.90-96
    • /
    • 2002
  • We present a family of constant-amplitude constellations of even dimensions 8 and above. These constellations allow trellis coded modulation to be implemented without the usual penalty paid for constellation expansion. The new constellations are generated by concatenating either n QPSK points or n QPSK points rotated by 45 degrees, for any n $\geq$ 4. Our constellations double the number of points available for transmission without decreasing the distance between points and without increasing the average or peak energies, introducing asymmetry, or increasing the modulation level. Effective gains of 2.65 dB with minimum complexity through 6.42 dB with moderate complexity are demonstrated using the 8D constellation.

Improvement of position accuracy of geocoded coordination based on Ensemble method (앙상블 방법론 기반 지오코딩 위치정확도 향상 기법 연구)

  • Lee, Taemin;Choi, Woosung;Jung, Soonyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.818-819
    • /
    • 2016
  • 지오코딩(Geocoding)은 자연어로 표현된 주소를 컴퓨터가 인지 가능한 (x,y) 좌표로 변환하는 과정이며, 지리정보 분석 등 다양한 영역의 필수적인 전처리 과정에서 사용된다. 현재 국내 주소를 지오코딩하는 API를 제공하는 서비스 프로바이더는 다수 존재하나, 성능 향상의 여지가 남아있는 현황이다. 본 연구에서는 지오코딩 위치정확도의 향상을 위해 Euclidean/Edit distance 기반 앙상블(Ensemble) 지오코딩 알고리즘(EEE-Geocoding)을 제안하였다. 화학물질 보유 업체 5569개소의 주소를 토대로 제안 기법에 대한 성능평가 실험을 진행하였으며, 평가결과는 0.99 precision, 0.87 recall, 0.92 F1 score 이었다.

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

Spelling Correction in Korean Using the `Eojeol` generation Dictionary (어절 생성 사전을 이용한 한국어 철자 교정)

  • Lee, Yeong-Sin;Park, Yeong-Ja;Song, Man-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF