• Title/Summary/Keyword: 의미 유사도

Search Result 1,910, Processing Time 0.029 seconds

Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding (워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법)

  • Choi, Do-Jin;Oh, Young-Ho;Bok, Kyoung-Soo;Yoo, Jae-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.8
    • /
    • pp.33-43
    • /
    • 2022
  • Labeled graphs are used to represent entities, their relationships, and their structures in real data such as knowledge graphs and protein interactions. With the rapid development of IT and the explosive increase in data, there has been a need for a subgraph matching technology to provide information that the user is interested in. In this paper, we propose an approximate Top-k labeled subgraph matching scheme that considers the semantic similarity of labels and the difference in graph structure. The proposed scheme utilizes a learning model using FastText in order to consider the semantic similarity of a label. In addition, the label similarity graph(LSG) is used for approximate subgraph matching by calculating similarity values between labels in advance. Through the LSG, we can resolve the limitations of the existing schemes that subgraph expansion is possible only if the labels match exactly. It supports structural similarity for a query graph by performing searches up to 2-hop. Based on the similarity value, we provide k subgraph matching results. We conduct various performance evaluations in order to show the superiority of the proposed scheme.

Zero-shot Lexical Semantics based on Perplexity of Pretrained Language Models (사전학습 언어모델의 Perplexity에 기반한 Zero-shot 어휘 의미 모델)

  • Choi, Heyong-Jun;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.473-475
    • /
    • 2021
  • 유의어 추천을 구현하기 위해서는 각 단어 사이의 유사도를 계산하는 것이 필수적이다. 하지만, 기존의 단어간 유사도를 계산하는 여러 방법들은 데이터셋에 등장하지 않은 단어에 대해 유사도를 계산 할 수 없다. 이 논문에서는 이를 해결하기 위해 언어모델의 PPL을 활용하여 단어간 유사도를 계산하였고, 이를 통해 유의어를 추천했을 때 MRR 41.31%의 성능을 확인했다.

  • PDF

Similarity checking between XML tags through expanding synonym vector (유사어 벡터 확장을 통한 XML태그의 유사성 검사)

  • Lee, Jung-Won;Lee, Hye-Soo;Lee, Ki-Ho
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.9
    • /
    • pp.676-683
    • /
    • 2002
  • The success of XML(eXtensible Markup Language) is primarily based on its flexibility : everybody can define the structure of XML documents that represent information in the form he or she desires. XML is so flexible that XML documents cannot be automatically provided with an underlying semantics. Different tag sets, different names for elements or attributes, or different document structures in general mislead the task of classifying and clustering XML documents precisely. In this paper, we design and implement a system that allows checking the semantic-based similarity between XML tags. First, this system extracts the underlying semantics of tags and then expands the synonym set of tags using an WordNet thesaurus and user-defined word library which supports the abbreviation forms and compound words for XML tags. Seconds, considering the relative importance of XML tags in the XML documents, we extend a conventional vector space model which is the most generally used for document model in Information Retrieval field. Using this method, we have been able to check the similarity between XML tags which are represented different tags.

Automatic word sense clustering using collocation for practical sense boundaries (의미 경계의 현실화를 위한 공기정보의 자동 군집화)

  • 신사임;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.559-561
    • /
    • 2004
  • 본 논문에서는 다의어의 현실적인 의미 분포의 결정에 대해 이야기 하고자 한다. 수동으로 구축한 의미체계인 사전이나 시소러스들은 그 의미구분의 경개가 모호하고 비현실적인 부분이 많아서 언어처리 시스템의 적용에 문제점으로 지적되고 있다. 그러므로, 본 연구에서는 대용량 코퍼스에서 추출한 공기정보와 자동 군집화 방법들을 사용하여 실질적인 다의어의 의미 경계를 발견하는 방법을 제안하였다. 수동 구축된 사전과 코퍼스 기반 사전의 다의어 의미 분포와 비교해 본 결과, 본 논문에서 제안한 방법의 결과가 코퍼스 기반 사전의 의미 분포와 매우 유사한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

Analysis on Sediment Transport Characteristics for River in Korea based on Measured Sediment Discharge Databas (실측 유사량 데이터베이스를 기반으로 한 국내 하천의 유사이송 특성 분석)

  • Jang, Eun Kyung;Ji, Un;Yeo, Woon Kwang
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.3-3
    • /
    • 2017
  • 하천에서 발생하는 유사량은 공급능력이 흐름의 이송능력보다 지배적인 경우 같은 유량이 발생하더라도 유사량이 다르게 관측될 수 있다. 특히 국내 하천과 같이 홍수기가 특정기간에 편중되어 연중 유량발생 편차가 매우 크게 나타나는 경우 이와 같은 현상이 더욱 두드러지게 발생한다. 즉, 대부분의 연중발생 유사량이 홍수시에 이동하고 홍수발생 초기와 후기의 유사 공급능력의 차이가 나타나는 국내하천의 경우 이를 기존의 유사이송공식으로 정량적인 유사량 값을 추정하는데는 한계가 있음을 의미한다. 따라서 본 연구에서는 국내 하천에서 실측한 유사량 자료를 종합하고 주요 지점별, 연도별, 계절별, 하천 유역별로 분류한 후 이를 분석하여 국내하천의 유사량 발생 특성을 규명하였다. 실측 유사량 데이터베이스는 국내 하천의 주요지점에서 2007년부터 2012년까지 측정한 자료로 구성되어 있으며 총 26개 지점 1,283개의 자료를 포함하고 있다. 4대강의 본류 대표지점으로 선정된 여주, 왜관, 공주, 나주지점을 대상으로 유량-총유사량 관계를 비교한 결과, 여주지점의 유량 증가에 따른 총유사량 증가 폭이 다른 대표지점들에 비해 가장 크게 나타나는 반면, 나주지점의 경우 제일 작은 값을 보인다. 또한 본류의 유량-유사량 관계식의 지수 값이 본류와 지류를 모두 포함한 관계식에 비해 더 크게 나타나는데 이는 지류에서는 본류보다 적은 유량이 발생하더라도 유사 이송량은 상대적으로 크게 발생한다는 것을 의미하며 그 이유는 본류와 지류에서 유사 이송이 지배적으로 발생하는 유량범위가 상이하기 때문에 나타나는 결과로 추정할 수 있다. 대표지점별 부유사 농도를 분석한 결과, 7월과 8월 부유사 농도에 비해 9월에 발생하는 부유사 농도가 현저히 낮은 값을 보이는데 이는 연중 홍수기 전반기에 유사 공급량이 상대적으로 많아 나타나는 현상으로 판단된다.

  • PDF

Image Retrieval System of semantic Inference using Objects in Images (이미지의 객체에 대한 의미 추론 이미지 검색 시스템)

  • Kim, Ji-Won;Kim, Chul-Won
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.11 no.7
    • /
    • pp.677-684
    • /
    • 2016
  • With the increase of multimedia information such as image, researches on extracting high-level semantic information from low-level visual information has been realized, and in order to automatically generate this kind of information. Various technologies have been developed. Generally, image retrieval is widely preceded by comparing colors and shapes among images. In some cases, images with similar color, shape and even meaning are hard to retrieve. In this article, in order to retrieve the object in an image, technical value of middle level is converted into meaning value of middle level. Furthermore, to enhance accuracy of segmentation, K-means algorithm is engaged to compute k values for various images. Thus, object retrieval can be achieved by segmented low-level feature and relationship of meaning is derived from ontology. The method mentioned in this paper is supposed to be an effective approach to retrieve images as required by users.

Word Sense Disambiguation using Korean Word Space Model (한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소)

  • Park, Yong-Min;Lee, Jae-Sung
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.6
    • /
    • pp.41-47
    • /
    • 2012
  • Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model which builds word vectors from a large scale of sense-tagged corpus and disambiguates word senses with the similarity calculation between the word vectors. Experiment with Sejong morph sense-tagged corpus showed 94% precision for 200 sentences(583 word types), which is much superior to the other known methods.

Semantic Extention Search for Documents Using the Word2vec (Word2vec을 활용한 문서의 의미 확장 검색방법)

  • Kim, Woo-ju;Kim, Dong-he;Jang, Hee-won
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.687-692
    • /
    • 2016
  • Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of document search based on document queries. In particular, it uses centrality vectors, instead of tf-idf vectors, to represent query documents, combined with the Word2vec method to capture the semantic similarity in contained words. This scheme improves the performance of document search and provides a way to find documents not only lexically, but semantically close to a query document.

The study of integration techniques for storing XML documents efficiently based on structures and semantics (구조 및 의미적 유사성에 기반한 XML 문서들의 효율적인 저장을 위한 통합 기법)

  • 김연희;김병곤;이재호;임해철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.590-592
    • /
    • 2003
  • 최근 XML이 웹 상의 데이터의 표현, 교환, 중재의 표준으로 각광받으면서 이러한 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 하나의 XML 문서를 저장 및 검색의 대상으로 하는 경우가 대부분이였다. 그러나 XML 문서를 데이터의 표현과 교환의 표준으로 이용하는 애플리케이션의 개발이 점차 활성화됨에 따라 저장해야하는 XML 문서의 수가 크게 증가하면서 의미나 구조적으로 많은 유사성을 지니는 XML 문서들을 함께 효율적으로 저장하고 검색하기 위한 기법의 연구가 요구된다. 따라서 본 논문에서는 의미 및 구조적으로 유사성을 가지는 여러 XML 문서들을 통합하는 기법을 제안한다. 제안된 통합 기법은 같은 DTD나 XML Schema를 가지는 경우와 다른 DTD나 XML Schema를 가지는 경우를 모두 고려한다. 또한 특별한 구조적 정보를 가지지 않는 XML 문서의 경우도 다른 DTD나 XML Schema를 가지는 경우와 마찬가지로 처리함으로써 다양한 XML 문서들에 대한 통합이 가능하도록 한다. 이러한 통합 기법은 중복되는 엘리먼트나 애트리뷰트에 대한 저장 공간의 낭비를 최소화한다. 또한 의미적으로 또는 구조적으로 관련성있는 여러 XML 문서의 부분들을 디스크 상의 페이지내에 서로 가까이 저장할 수 있기 때문에 사용자의 일반적인 질의에 대해 효율적이고 빠른 검색 결과를 유도할 수 있고, I/O 횟수를 줄임으로써 그에 따른 오버헤드를 줄일 수 있는 장점이 있다.

  • PDF

Discriminator of Similar Documents Using Syntactic and Semantic Analysis (구문의미분석를 이용한 유사문서 판별기)

  • Kang, Won-Seog;Hwang, Do-Sam;Kim, Jung H.
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.3
    • /
    • pp.40-51
    • /
    • 2014
  • Owing to importance of document copyright the need to detect document duplication and plagiarism is increasing. Many studies have sought to meet such need, but there are difficulties in document duplication detection due to technological limitations with the processing of natural language. This thesis designs and implements a discriminator of similar documents with natural language processing technique. This system discriminates similar documents using morphological analysis, syntactic analysis, and weight on low frequency and idiom. To evaluate the system, we analyze the correlation between human discrimination and term-based discrimination, and between human discrimination and proposed discrimination. This analysis shows that the proposed discrimination needs improving. Future research should work to define the document type and improve the processing technique appropriate for each type.