• 제목/요약/키워드: Text Similarity Measurement

검색결과 14건 처리시간 0.025초

A Text Similarity Measurement Method Based on Singular Value Decomposition and Semantic Relevance

  • Li, Xu;Yao, Chunlong;Fan, Fenglong;Yu, Xiaoqiang
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.863-875
    • /
    • 2017
  • The traditional text similarity measurement methods based on word frequency vector ignore the semantic relationships between words, which has become the obstacle to text similarity calculation, together with the high-dimensionality and sparsity of document vector. To address the problems, the improved singular value decomposition is used to reduce dimensionality and remove noises of the text representation model. The optimal number of singular values is analyzed and the semantic relevance between words can be calculated in constructed semantic space. An inverted index construction algorithm and the similarity definitions between vectors are proposed to calculate the similarity between two documents on the semantic level. The experimental results on benchmark corpus demonstrate that the proposed method promotes the evaluation metrics of F-measure.

Question Similarity Measurement of Chinese Crop Diseases and Insect Pests Based on Mixed Information Extraction

  • Zhou, Han;Guo, Xuchao;Liu, Chengqi;Tang, Zhan;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.3991-4010
    • /
    • 2021
  • The Question Similarity Measurement of Chinese Crop Diseases and Insect Pests (QSM-CCD&IP) aims to judge the user's tendency to ask questions regarding input problems. The measurement is the basis of the Agricultural Knowledge Question and Answering (Q & A) system, information retrieval, and other tasks. However, the corpus and measurement methods available in this field have some deficiencies. In addition, error propagation may occur when the word boundary features and local context information are ignored when the general method embeds sentences. Hence, these factors make the task challenging. To solve the above problems and tackle the Question Similarity Measurement task in this work, a corpus on Chinese crop diseases and insect pests(CCDIP), which contains 13 categories, was established. Then, taking the CCDIP as the research object, this study proposes a Chinese agricultural text similarity matching model, namely, the AgrCQS. This model is based on mixed information extraction. Specifically, the hybrid embedding layer can enrich character information and improve the recognition ability of the model on the word boundary. The multi-scale local information can be extracted by multi-core convolutional neural network based on multi-weight (MM-CNN). The self-attention mechanism can enhance the fusion ability of the model on global information. In this research, the performance of the AgrCQS on the CCDIP is verified, and three benchmark datasets, namely, AFQMC, LCQMC, and BQ, are used. The accuracy rates are 93.92%, 74.42%, 86.35%, and 83.05%, respectively, which are higher than that of baseline systems without using any external knowledge. Additionally, the proposed method module can be extracted separately and applied to other models, thus providing reference for related research.

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

Assessment of performance of machine learning based similarities calculated for different English translations of Holy Quran

  • Al Ghamdi, Norah Mohammad;Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.111-118
    • /
    • 2022
  • This research article presents the work that is related to the application of different machine learning based similarity techniques on religious text for identifying similarities and differences among its various translations. The dataset includes 10 different English translations of verses (Arabic: Ayah) of two Surahs (chapters) namely, Al-Humazah and An-Nasr. The quantitative similarity values for different translations for the same verse were calculated by using the cosine similarity and semantic similarity. The corpus went through two series of experiments: before pre-processing and after pre-processing. In order to determine the performance of machine learning based similarities, human annotated similarities between translations of two Surahs (chapters) namely Al-Humazah and An-Nasr were recorded to construct the ground truth. The average difference between the human annotated similarity and the cosine similarity for Surah (chapter) Al-Humazah was found to be 1.38 per verse (ayah) per pair of translation. After pre-processing, the average difference increased to 2.24. Moreover, the average difference between human annotated similarity and semantic similarity for Surah (chapter) Al-Humazah was found to be 0.09 per verse (Ayah) per pair of translation. After pre-processing, it increased to 0.78. For the Surah (chapter) An-Nasr, before preprocessing, the average difference between human annotated similarity and cosine similarity was found to be 1.93 per verse (Ayah), per pair of translation. And. After pre-processing, the average difference further increased to 2.47. The average difference between the human annotated similarity and the semantic similarity for Surah An-Nasr before preprocessing was found to be 0.93 and after pre-processing, it was reduced to 0.87 per verse (ayah) per pair of translation. The results showed that as expected, the semantic similarity was proven to be better measurement indicator for calculation of the word meaning.

비디오 내 이동 객체의 색인 정보를 이용한 궤적 유사도 측정 기법 (Similarity Measurement Method of Trajectory using Indexing Information of Moving Object in Video)

  • 김정인;최창;김판구
    • 스마트미디어저널
    • /
    • 제1권3호
    • /
    • pp.43-47
    • /
    • 2012
  • 멀티미디어 데이터의 사용이 증대됨에 따라, 이를 관리하고 검색하기 위한 다양한 연구 및 시스템이 개발되고 있다. 하지만 일반적인 검색 방법이 비디오 데이터 내 관련 태그정보나 제목을 통해 검색이 되기 때문에 많은 어려움이 있다. 따라서 본 논문에서는 비디오 검색을 위해 비디오 내 이동 객체의 정보를 이용한 궤적 정보를 통해 유사도 측정 기법에 대해 기술한다. 전체적인 과정은 CCTV 비디오 데이터를 그레이 스케일화 하여, 이동 객체를 추출한 후 라벨링 과정을 통해 궤적을 추출한다. 이를 통해 유사도 즉정을 위한 TSR(Tansent Space Representation)과 DTW(Dynamic Time Warping) 알고리즘을 사용하여 두 알고리즘을 비교 분석한다.

  • PDF

부분 영상 매칭에 기반한 텍스트 검증 (Text Verification Based on Sub-Image Matching)

  • 손화정;정선화;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.115-122
    • /
    • 2005
  • 영상이 다른 영상을 포함하고 있는 경우, 이득 영상의 인치 여부를 판단하는 부분 영상 매칭 방법은 대부분 자연 영상을 대상으로 연구되고 있다. 본 논문에서는 자연 영상이 아닌 텍스트 영상을 매칭하는데 효과적인 두 가지 기법, 즉 메쉬 기반 방법과 상관성 기반 방법을 제안하고자 하다. 메쉬 기반 방법은 두 영상의 일치하는 모서리론 찾은 후 겹치는 영역에 대한 메쉬 특징을 이용하여 유사 여부를 판단하는 것으로, 일치 영역 검색 단계와 유사성 측정 단계로 구성된다. 상관성 기반 방법은 FFT를 이용하여 두 영상의 상관성을 계산함으로써 유사도를 측정한다. 우편 자동화 시스템에서 텍스트 영상을 검증하는 분야에 세안 방법을 적용한 견과, 메쉬 기반 방법은 $90.1\%$, 상관성 기반 방법은 $92.7\%$의 성능을 나타내었다.

Similarity Analysis of Hospitalization using Crowding Distance

  • Jung, Yong Gyu;Choi, Young Jin;Cha, Byeong Heon
    • International journal of advanced smart convergence
    • /
    • 제5권2호
    • /
    • pp.53-58
    • /
    • 2016
  • With the growing use of big data and data mining, it serves to understand how such techniques can be used to understand various relationships in the healthcare field. This study uses hierarchical methods of data analysis to explore similarities in hospitalization across several New York state counties. The study utilized methods of measuring crowding distance of data for age-specific hospitalization period. Crowding distance is defined as the longest distance, or least similarity, between urban cities. It is expected that the city of Clinton have the greatest distance, while Albany the other cities are closer because they are connected by the shortest distance to each step. Similarities were stronger across hospital stays categorized by age. Hierarchical clustering can be applied to predict the similarity of data across the 10 cities of hospitalization with the measurement of crowding distance. In order to enhance the performance of hierarchical clustering, comparison can be made across congestion distance when crowding distance is applied first through the application of converting text to an attribute vector. Measurements of similarity between two objects are dependent on the measurement method used in clustering but is distinguished from the similarity of the distance; where the smaller the distance value the more similar two things are to one other. By applying this specific technique, it is found that the distance between crowding is reduced consistently in relationship to similarity between the data increases to enhance the performance of the experiments through the application of special techniques. Furthermore, through the similarity by city hospitalization period, when the construction of hospital wards in cities, by referring to results of experiments, or predict possible will land to the extent of the size of the hospital facilities hospital stay is expected to be useful in efficiently managing the patient in a similar area.

자동초록 작성시에 발생하는 유사의미 문장요소들의 통합에 관한 연구 (A Study on the Integration of Similar Sentences in Atomatic Summarizing of Document)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제34권2호
    • /
    • pp.87-115
    • /
    • 2000
  • 유사문장의 식별 및 통합을 위하여 문장의 구성성분, 품사, 절유형, 위치 등이 미치는 영향을 조사하고 유사도측정 공식과 통합방안을 모색하였다. 문법적 요인보다는 문장간에 일치하는 단어의 수가 유사성에 영향을 미치며 표제어와 기능절도 관여되었다. 문장간의 유사도 측정 공식은 설튼의 유사도 측정식과 코싸인계수를 혼합하여 사용하였다. 유사문장들의 통합에서 절들의 대체 방법을 사용하였는데 앞으로는 단어들의 대체 방법으로 전환하여야 할 것이다.

  • PDF

Route matching delivery recommendation system using text similarity

  • Song, Jeongeun;Song, Yoon-Ah
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.151-160
    • /
    • 2022
  • 본 연구에서는 급증하는 배송 서비스 수요에 맞춰 더 신속하고 최저 비용으로 근거리 배송을 가능하게 하는 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘에서는 배송원으로 지하철 승객을 물류 이동에 참여시킨다. 이때 승객은 이동 경로와 일치하는 배송 물류를 선택할 수 있다. 그리고 서비스 이용자의 입장에서는 현재 근처에 경로가 일치하는 배송원을 선택할 수 있다. 이때 배송원 추천은 TF-IDF&N-gram과 BERT를 결합한 텍스트 유사도 측정 방식으로 진행된다. 따라서 기존 택배 시스템과 달리 소비자-배송원 간의 man-to-man 방식으로 양방향 선택을 지원한다. 탑승 중인 승객을 물류 이동에 참여시킨다는 점에서 비용 최소화와 배송 기간 단축을 모두 보장할 수 있다. 더하여 운송 측면에서도 특별한 기술을 요하지 않으므로, 일자리 입지가 축소된 노동자들에게 경제 참여 기회를 제공할 수 있다는 점에서도 의의가 있다.

지역 밀집도 및 Hausdorff 거리를 이용한 영상기반 텍스트 매칭 (Image Based Text Matching Using Local Crowdedness and Hausdorff Distance)

  • 손화정;김지수;박미선;유재명;김수형
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.134-142
    • /
    • 2006
  • 본 논문에서는 영상의 유사성을 측정하는데 많이 이용되는 Hausdorff거리 기법이 텍스트 영상을 검색하는 분야에도 효과적임을 입증하고자 한다. 즉, 시차를 두고 스캔된 임의의 텍스트 영상들의 동일성 여부를 판단할 수 있는 영상기반 텍스트 매칭 기법을 제안하고 이를 위해 지역 밀집도와 Hausdorff 거리를 이용한다. Hausdorff 거리 방법은 처리시간이 오래 걸리는 단점이 존재하는데, 본 논문에서는 지역 밀집도 알고리즘을 이용한 특징점 추출을 수행하여 이를 보완하였다. 우편 봉투에서 얻은 텍스트 영상으로 190개의 동일 영상 190개의 비등일 영상을 만들어 실험을 수행하였다. 기존에 영상 간의 유사도 매칭에 가장 일반적으로 이용되는 이진 상관도 및 Hausdorff 거리 방법과 본 논문에서 제안한 수정된 Hausdorff 방법의 실험 결과를 비교한 결과, 유사한 영역을 찾고 일치하는 정도를 얻는데 있어 다른 방법에 비해 약 2.7%에서 9.0%의 높은 정확률을 얻어 성능의 우수성을 입증하였다.

  • PDF