• 제목/요약/키워드: Similarity Measurement

검색결과 352건 처리시간 0.026초

누적 유사도 측정을 이용한 자동 임계값 결정 기법 - 다중분광 및 초분광영상의 무감독 변화탐지를 목적으로 (Automatic Thresholding Method using Cumulative Similarity Measurement for Unsupervised Change Detection of Multispectral and Hyperspectral Images)

  • 김대성;김형태
    • 대한원격탐사학회지
    • /
    • 제24권4호
    • /
    • pp.341-349
    • /
    • 2008
  • 본 논문은 위성영상을 이용한 변화정보를 취득하는데 있어 중요한 과정인 임계값 결정에 관한 새로운 기법을 제안하고 있다. 화소간 유사도 측정을 통해 도출된 결과 값을 일정 간격으로 누적 계산하고, 급격하게 변하는 지점을 임계값으로 결정하였다. 의사영상을 통해 기대최대화 기법, 교점방법과 성능을 비교하였으며, 두 시기의 ALI 영상과 Hyperion 영상에 실제 적용하여 변화탐지 결과를 확인하였다. 제안된 기법은 기존의 기법과 비슷한 수준의 변화탐지 결과 정확도를 확보할 수 있었으며, 기대최대화 기법에 비해 간단하게 적용할 수 있고, 교점방법과 달리 최빈 값을 둘 이상 가지는 히스토그램에도 적용할 수 있는 장점이 있어 향후 변화유무 정보 취득에 효과적으로 사용할 수 있을 것으로 기대한다.

Developing an Alias Management Method based on Word Similarity Measurement for POI Application

  • Choi, Jihye;Lee, Jiyeong
    • 한국측량학회지
    • /
    • 제37권2호
    • /
    • pp.81-89
    • /
    • 2019
  • As the need for the integration of administrative datasets and address information increases, there is also growing interest in POI (Point of Interest) data as a source of location information across applications and platforms. The purpose of this study is to develop an alias database management method for efficient POI searching, based on POI data representing position. First, we determine the attributes of POI alias data as it is used variously by individual users. When classifying aliases of POIs, we excluded POIs in which the typo and names are all in English alphabet. The attributes of POI aliases are classified into four categories, and each category is reclassified into three classes according to the strength of the attributes. We then define the quality of POI aliases classified in this study through experiments. Based on the four attributes of POI defined in this study, we developed a method of managing one POI alias through and integrated method composed of word embedding and a similarity measurement. Experimental results of the proposed POI alias management method show that it is possible to utilize the algorithm developed in this study if there are small numbers of aliases in each POI with appropriate POI attributes defined in this study.

Assessment of performance of machine learning based similarities calculated for different English translations of Holy Quran

  • Al Ghamdi, Norah Mohammad;Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.111-118
    • /
    • 2022
  • This research article presents the work that is related to the application of different machine learning based similarity techniques on religious text for identifying similarities and differences among its various translations. The dataset includes 10 different English translations of verses (Arabic: Ayah) of two Surahs (chapters) namely, Al-Humazah and An-Nasr. The quantitative similarity values for different translations for the same verse were calculated by using the cosine similarity and semantic similarity. The corpus went through two series of experiments: before pre-processing and after pre-processing. In order to determine the performance of machine learning based similarities, human annotated similarities between translations of two Surahs (chapters) namely Al-Humazah and An-Nasr were recorded to construct the ground truth. The average difference between the human annotated similarity and the cosine similarity for Surah (chapter) Al-Humazah was found to be 1.38 per verse (ayah) per pair of translation. After pre-processing, the average difference increased to 2.24. Moreover, the average difference between human annotated similarity and semantic similarity for Surah (chapter) Al-Humazah was found to be 0.09 per verse (Ayah) per pair of translation. After pre-processing, it increased to 0.78. For the Surah (chapter) An-Nasr, before preprocessing, the average difference between human annotated similarity and cosine similarity was found to be 1.93 per verse (Ayah), per pair of translation. And. After pre-processing, the average difference further increased to 2.47. The average difference between the human annotated similarity and the semantic similarity for Surah An-Nasr before preprocessing was found to be 0.93 and after pre-processing, it was reduced to 0.87 per verse (ayah) per pair of translation. The results showed that as expected, the semantic similarity was proven to be better measurement indicator for calculation of the word meaning.

단어 및 단어쌍 별 빈도수를 이용한 문서간 유사도 측정 (Measurement of Document Similarity using Word and Word-Pair Frequencies)

  • 김혜숙;박상철;김수형
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1311-1314
    • /
    • 2003
  • In this paper, we propose a method to measure document similarity. First, we have exploited single-term method that extracts nouns by using a lexical analyzer as a preprocessing step to match one index to one noun. In spite of irrelevance between documents, possibility of increasing document similarity is high with this method. For this reason, a term-phrase method has been reported. This method constructs co-occurrence between two words as an index to measure document similarity. In this paper, we tried another method that combine these two methods to compensate the problems in these two methods. Six types of features are extracted from two input documents, and they are fed into a neural network to calculate the final value of document similarity. Reliability of our method has been proved by an experiment of document retrieval.

  • PDF

실시간 운영중인 네트워크 상에서 Self-Similarity 특성 및 Hurst 파라미터 측정 (A Measurement of Self-Similarity Characteristic and Hurst Parameter on Real Time Operation Network)

  • 진성호;임재홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1999년도 추계종합학술대회
    • /
    • pp.266-269
    • /
    • 1999
  • 네트워크를 설계하고 서비스를 구현하는데 있어서 중요한 변수중의 하나는 트래픽의 특성을 파악하는 것이다. 기존의 트래픽 예측과 분석으로 Poisson 또는 Markovian을 기본으로 하는 모델을 사용했을 경우는 단기간의 의존성을 고려한 결과로써 실제 관측된 트래픽의 결과와는 상당히 다르다는 것이 밝혀졌다. 따라서 최근 실제 트래픽 모델과 유사한 모델로서 Self-Similarity 특성을 이용한 접근법이 대두되고 있다. 본 논문에서는 Self-Similarity의 장기간 의존성을 나타내기 위해서 실제 네트워크에서 측정한 데이터를 사용하여 Hurst 파라미터 H의 값을 추정하고 실시간 운영중인 네트워크 상에서 어느 정도의 Self-Similarity특성을 가지고 있는지 분석한다

  • PDF

단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정 (Measurement of Document Similarity using Term/Term-pair Features and Neural Network)

  • 김혜숙;박상철;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1660-1671
    • /
    • 2004
  • 본 논문은 두 문서간 유사도 측정 방법을 제안한다. 제안한 유사도 측정 모델의 주안점은 문서간 관련성의 정도를 두 문서간 일치하는 단어(term)및 단어쌍(tenn-phrase)에 기반하여 이들이 해당 문서에서 차지하는 가중치를 통해 측정하는 것이다. 유사도 측정 과정에 영향을 미치는 특징을 설계함에 있어 기존의 연구들이 하나의 특징만을 고려하였던 것에 비하여 본 논문은 여러 가지 특징들을 고려한다 즉, 단어뿐만 아니라 단어쌍과 관련된 특징을 결합하여 신경망을 통해 유사도를 측정한다. 제안된 방법의 우수성을 입증하기 위해 두 가지 측면에서 실험하였다. 첫 번째는 두 문서의 동일성 여부를 검증하는 문제이며, 두 번째는 다수의 문서를 대상으로 유사한 문서를 찾는 검색 문제이다. 이 두 가지 실험 모두에서 제안 방법이 기존의 Cosine 유사도 계산 방법 및 구색인 방법에 비해 우수한 성능을 보였다.

Measurement and Simulation of Wide-area Frequency in US Eastern Interconnected Power System

  • Kook, Kyung Soo;Liu, Yilu
    • Journal of Electrical Engineering and Technology
    • /
    • 제8권3호
    • /
    • pp.472-477
    • /
    • 2013
  • An internet-based, real-time GPS synchronized wide-area power system frequency monitoring network(FNET) has been monitoring wide-area power system frequency in continuous time in the United States. This paper analyzes the FNET measurement to the verified disturbances in the US eastern interconnected power system and simulates it using the dynamic system model. By comparing the frequency measurements with its simulation results to the same disturbances in detail, this paper finds that the sequence of monitoring points to detect the frequency fluctuation caused by the disturbances is matched well in the measured data and the simulation results. The similarity comparison index is also proposed to quantify the similarity of the compared cases. The dynamic model based simulation result is expected to compensate for the lack of FNET measurement in its applications.

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.

음악 특징점간의 유사도 측정을 이용한 동일음원 인식 방법 (Same music file recognition method by using similarity measurement among music feature data)

  • 성보경;정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.99-106
    • /
    • 2008
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 음악의 검색이 사용되고 있다. 기존의 디지털 음악의 검색은 음악 데이터에 포함된 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 음악자체를 이용하는 내용기반정보 검색 기법에 대한 연구가 이루어지고 있다. 본 논문에서는 음악의 파형에서 추출된 특징 정보간의 유사도 측정을 통하여 동일음원을 인식하는 방법에 대해 논하고자 한다. 디지털 음악의 특징 정보는 단순화시킨 MFCC (Mel Frequency Cepstral Coefficient)를 이용하여 음악의 파형으로부터 추출하였다. 디지털 음악간의 유사도는 Vision 및 Speech Recognition 분야에서 사용되던 DTW (Dynamic Time Warping) 기법을 활용하여 측정하였다. 제안된 동일 음원 인식 방법의 검증을 위한 같은 장르에서 무작위 추출된 1000곡에서 시행한 500번의 검색은 모두 성공했다. 검색에 사용된 500개의 디지털 오디오는 60개의 디지털음원을 압축방식과 비트율을 다르게 조합하여 만들었다. 실험의 결과로 DTW을 이용한 유사도 측정법이 동일음원을 인식할 수 있음을 증명하였다.

  • PDF

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현 (Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities)

  • 맹주수;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.109-114
    • /
    • 2019
  • 기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.