• Title/Summary/Keyword: Edit-distance

Search Result 48, Processing Time 0.024 seconds

Semantic Process Retrieval with Similarity Algorithms (유사도 알고리즘을 활용한 시맨틱 프로세스 검색방안)

  • Lee, Hong-Joo;Klein, Mark
    • Asia pacific journal of information systems
    • /
    • v.18 no.1
    • /
    • pp.79-96
    • /
    • 2008
  • One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compare the retrieval performances of the similarity algorithms. For the limitations and future work, we need to perform experiments with other dataset from other domain. And, since there are many similarity values from diverse measures, we may find better ways to identify relevant processes by applying these values simultaneously.

Secure Blocking + Secure Matching = Secure Record Linkage

  • Karakasidis, Alexandros;Verykios, Vassilios S.
    • Journal of Computing Science and Engineering
    • /
    • v.5 no.3
    • /
    • pp.223-235
    • /
    • 2011
  • Performing approximate data matching has always been an intriguing problem for both industry and academia. This task becomes even more challenging when the requirement of data privacy rises. In this paper, we propose a novel technique to address the problem of efficient privacy-preserving approximate record linkage. The secure framework we propose consists of two basic components. First, we utilize a secure blocking component based on phonetic algorithms statistically enhanced to improve security. Second, we use a secure matching component where actual approximate matching is performed using a novel private approach of the Levenshtein Distance algorithm. Our goal is to combine the speed of private blocking with the increased accuracy of approximate secure matching.

An Effective Metric for Measuring the Degree of Web Page Changes (효과적인 웹 문서 변경도 측정 방법)

  • Kwon, Shin-Young;Kim, Sung-Jin;Lee, Sang-Ho
    • Journal of KIISE:Databases
    • /
    • v.34 no.5
    • /
    • pp.437-447
    • /
    • 2007
  • A variety of similarity metrics have been used to measure the degree of web page changes. In this paper, we first define criteria for web page changes to evaluate the effectiveness of the similarity metrics in terms of six important types of web page changes. Second, we propose a new similarity metric appropriate for measuring the degree of web page changes. Using real web pages and synthesized pages, we analyze the five existing metrics (i.e., the byte-wise comparison, the TF IDF cosine distance, the word distance, the edit distance, and the shingling) and ours under the proposed criteria. The analysis result shows that our metric represents the changes more effectively than other metrics. We expect that our study can help users select an appropriate metric for particular web applications.

A Technique for Measuring the Self-Production of Internet Newspapers (인터넷 신문기사의 자체 생산량 측정 기술)

  • Kim, Dong-Joo;Kim, Han-Woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.445-449
    • /
    • 2009
  • 인터넷의 발달과 인터넷 문화의 보편화로 인하여 사용자들은 폭발적으로 증가하는 다양한 정보를 접할 수 있게 되었으며, 자체 생산하거나 다른 신문사들로부터 생산된 기사들을 단순 유통, 링크를 통하여 정보검색 사이트들뿐만 아니라 각종 포털 사이트, 인터넷신문사들은 많은 다양한 경로로 기사를 제공할 수 있게 되었다. 이에 따라 인터넷산문을 규정하고 법적, 테두리에 넣기 위한 법률이 제정되었으며, 인터넷신문사에 대해 기사의 자체 생산량이라는 요건 검증에 대한 요구가 증가하고 있다. 본 논문은 인터넷신문 자체기사 생산량을 측정하기 위해 필요한 기술들을 조사하고 타당성을 검토하여 이에 적합한 기술을 제시한다. 제시한 방법은 대량의 기사의 비교를 빠른 시간에 수행한 수 있도록 하기 위해 인간의 단어 인지와 관련한 경험적 정보의 반영을 통하여 변형한 편집거리 기반 방법이다. 제시하는 방법의 정확성을 검증하기 위해 실제 소량의 인터넷 신문 기사를 대상으로 실험하였다.

  • PDF

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

Study on gesture recognition based on IIDTW algorithm

  • Tian, Pei;Chen, Guozhen;Li, Nianfeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.13 no.12
    • /
    • pp.6063-6079
    • /
    • 2019
  • When the length of sampling data sequence is too large, the method of gesture recognition based on traditional Dynamic Time Warping (DTW) algorithm will lead to too long calculation time, and the accuracy of recognition result is not high.Support vector machine (SVM) has some shortcomings in precision, Edit Distance on Real Sequences(EDR) algorithm does not guarantee that noise suppression will not suppress effective data.A new method based on Improved Interpolation Dynamic Time Warping (IIDTW)algorithm is proposed to improve the efficiency of gesture recognition and the accuracy of gesture recognition. The results show that the computational efficiency of IIDTW algorithm is more than twice that of SVM-DTW algorithm, the error acceptance rate is FAR reduced by 0.01%, and the error rejection rate FRR is reduced by 0.5%.Gesture recognition based on IIDTW algorithm can achieve better recognition status. If it is applied to unlock mobile phone, it is expected to become a new generation of unlock mode.

XML Document Structure Comparison based on Function Transform and FFT (함수 변환과 FFT에 의한 XML 문서의 구조 비교)

  • Lee Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

TCM Without Constellation Expansion Penalty

  • Kaminsky, Edit J.;Ayo, James
    • Journal of Communications and Networks
    • /
    • v.4 no.2
    • /
    • pp.90-96
    • /
    • 2002
  • We present a family of constant-amplitude constellations of even dimensions 8 and above. These constellations allow trellis coded modulation to be implemented without the usual penalty paid for constellation expansion. The new constellations are generated by concatenating either n QPSK points or n QPSK points rotated by 45 degrees, for any n $\geq$ 4. Our constellations double the number of points available for transmission without decreasing the distance between points and without increasing the average or peak energies, introducing asymmetry, or increasing the modulation level. Effective gains of 2.65 dB with minimum complexity through 6.42 dB with moderate complexity are demonstrated using the 8D constellation.

Improvement of position accuracy of geocoded coordination based on Ensemble method (앙상블 방법론 기반 지오코딩 위치정확도 향상 기법 연구)

  • Lee, Taemin;Choi, Woosung;Jung, Soonyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.818-819
    • /
    • 2016
  • 지오코딩(Geocoding)은 자연어로 표현된 주소를 컴퓨터가 인지 가능한 (x,y) 좌표로 변환하는 과정이며, 지리정보 분석 등 다양한 영역의 필수적인 전처리 과정에서 사용된다. 현재 국내 주소를 지오코딩하는 API를 제공하는 서비스 프로바이더는 다수 존재하나, 성능 향상의 여지가 남아있는 현황이다. 본 연구에서는 지오코딩 위치정확도의 향상을 위해 Euclidean/Edit distance 기반 앙상블(Ensemble) 지오코딩 알고리즘(EEE-Geocoding)을 제안하였다. 화학물질 보유 업체 5569개소의 주소를 토대로 제안 기법에 대한 성능평가 실험을 진행하였으며, 평가결과는 0.99 precision, 0.87 recall, 0.92 F1 score 이었다.

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF