• 제목/요약/키워드: edit distance

검색결과 47건 처리시간 0.03초

Secure Blocking + Secure Matching = Secure Record Linkage

  • Karakasidis, Alexandros;Verykios, Vassilios S.
    • Journal of Computing Science and Engineering
    • /
    • 제5권3호
    • /
    • pp.223-235
    • /
    • 2011
  • Performing approximate data matching has always been an intriguing problem for both industry and academia. This task becomes even more challenging when the requirement of data privacy rises. In this paper, we propose a novel technique to address the problem of efficient privacy-preserving approximate record linkage. The secure framework we propose consists of two basic components. First, we utilize a secure blocking component based on phonetic algorithms statistically enhanced to improve security. Second, we use a secure matching component where actual approximate matching is performed using a novel private approach of the Levenshtein Distance algorithm. Our goal is to combine the speed of private blocking with the increased accuracy of approximate secure matching.

효과적인 웹 문서 변경도 측정 방법 (An Effective Metric for Measuring the Degree of Web Page Changes)

  • 권신영;김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.437-447
    • /
    • 2007
  • 다양한 유사도 측정 방법들이 웹 문서의 변경도 측정에 사용되어 왔다. 본 논문은 여섯 가지 웹 문서 변경 종류에 근거하여 변경도 측정 방법의 효과성 평가 척도를 정의하고, 새로운 유사도 측정 방법을 제안한다. 실제 웹 문서들과 인위적 문서들을 사용하여, 기존의 다섯 가지 측정 방법들(바이트 비교, TF IDF 코사인 거리, 단어 거리, 편집 거리, 슁글링)과 제안된 측정 방법을 비교 평가한다. 실험 결과 분석을 통해 제안된 측정 방법이 웹 문서의 변경 측정에 효과적임을 보인다. 본 연구는 웹 문서의 변화 정보를 필요로 하는 웹 응용 분야에서 웹 문서 변경도 측정 방법의 적합한 선택을 위한 지침이 될 수 있다.

인터넷 신문기사의 자체 생산량 측정 기술 (A Technique for Measuring the Self-Production of Internet Newspapers)

  • 김동주;김한우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.445-449
    • /
    • 2009
  • 인터넷의 발달과 인터넷 문화의 보편화로 인하여 사용자들은 폭발적으로 증가하는 다양한 정보를 접할 수 있게 되었으며, 자체 생산하거나 다른 신문사들로부터 생산된 기사들을 단순 유통, 링크를 통하여 정보검색 사이트들뿐만 아니라 각종 포털 사이트, 인터넷신문사들은 많은 다양한 경로로 기사를 제공할 수 있게 되었다. 이에 따라 인터넷산문을 규정하고 법적, 테두리에 넣기 위한 법률이 제정되었으며, 인터넷신문사에 대해 기사의 자체 생산량이라는 요건 검증에 대한 요구가 증가하고 있다. 본 논문은 인터넷신문 자체기사 생산량을 측정하기 위해 필요한 기술들을 조사하고 타당성을 검토하여 이에 적합한 기술을 제시한다. 제시한 방법은 대량의 기사의 비교를 빠른 시간에 수행한 수 있도록 하기 위해 인간의 단어 인지와 관련한 경험적 정보의 반영을 통하여 변형한 편집거리 기반 방법이다. 제시하는 방법의 정확성을 검증하기 위해 실제 소량의 인터넷 신문 기사를 대상으로 실험하였다.

  • PDF

Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상 (Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm)

  • 이정훈;김민호;권혁철
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

Study on gesture recognition based on IIDTW algorithm

  • Tian, Pei;Chen, Guozhen;Li, Nianfeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권12호
    • /
    • pp.6063-6079
    • /
    • 2019
  • When the length of sampling data sequence is too large, the method of gesture recognition based on traditional Dynamic Time Warping (DTW) algorithm will lead to too long calculation time, and the accuracy of recognition result is not high.Support vector machine (SVM) has some shortcomings in precision, Edit Distance on Real Sequences(EDR) algorithm does not guarantee that noise suppression will not suppress effective data.A new method based on Improved Interpolation Dynamic Time Warping (IIDTW)algorithm is proposed to improve the efficiency of gesture recognition and the accuracy of gesture recognition. The results show that the computational efficiency of IIDTW algorithm is more than twice that of SVM-DTW algorithm, the error acceptance rate is FAR reduced by 0.01%, and the error rejection rate FRR is reduced by 0.5%.Gesture recognition based on IIDTW algorithm can achieve better recognition status. If it is applied to unlock mobile phone, it is expected to become a new generation of unlock mode.

함수 변환과 FFT에 의한 XML 문서의 구조 비교 (XML Document Structure Comparison based on Function Transform and FFT)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

TCM Without Constellation Expansion Penalty

  • Kaminsky, Edit J.;Ayo, James
    • Journal of Communications and Networks
    • /
    • 제4권2호
    • /
    • pp.90-96
    • /
    • 2002
  • We present a family of constant-amplitude constellations of even dimensions 8 and above. These constellations allow trellis coded modulation to be implemented without the usual penalty paid for constellation expansion. The new constellations are generated by concatenating either n QPSK points or n QPSK points rotated by 45 degrees, for any n $\geq$ 4. Our constellations double the number of points available for transmission without decreasing the distance between points and without increasing the average or peak energies, introducing asymmetry, or increasing the modulation level. Effective gains of 2.65 dB with minimum complexity through 6.42 dB with moderate complexity are demonstrated using the 8D constellation.

앙상블 방법론 기반 지오코딩 위치정확도 향상 기법 연구 (Improvement of position accuracy of geocoded coordination based on Ensemble method)

  • 이태민;최우성;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.818-819
    • /
    • 2016
  • 지오코딩(Geocoding)은 자연어로 표현된 주소를 컴퓨터가 인지 가능한 (x,y) 좌표로 변환하는 과정이며, 지리정보 분석 등 다양한 영역의 필수적인 전처리 과정에서 사용된다. 현재 국내 주소를 지오코딩하는 API를 제공하는 서비스 프로바이더는 다수 존재하나, 성능 향상의 여지가 남아있는 현황이다. 본 연구에서는 지오코딩 위치정확도의 향상을 위해 Euclidean/Edit distance 기반 앙상블(Ensemble) 지오코딩 알고리즘(EEE-Geocoding)을 제안하였다. 화학물질 보유 업체 5569개소의 주소를 토대로 제안 기법에 대한 성능평가 실험을 진행하였으며, 평가결과는 0.99 precision, 0.87 recall, 0.92 F1 score 이었다.

Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상 (Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm)

  • 이정훈;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

어절 생성 사전을 이용한 한국어 철자 교정 (Spelling Correction in Korean Using the `Eojeol` generation Dictionary)

  • 이영신;박영자;송만석
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF