• Title/Summary/Keyword: 의미론적 유사도

Search Result 192, Processing Time 0.038 seconds

On Characteristics of Word Embeddings by the Word2vec Model (Word2vec 모델의 단어 임베딩 특성 연구)

  • Kang, Hyungsuc;Yang, Janghoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

Customized Knowledge Creation Framework using Context- and intensity-based Similarity (상황과 정보 집적도를 고려한 유사도 기반의 맞춤형 지식 생성프레임워크)

  • Sohn, Mye M.;Lee, Hyun-Jung
    • Journal of Internet Computing and Services
    • /
    • v.12 no.5
    • /
    • pp.113-125
    • /
    • 2011
  • As information resources have become more various and the number of the resources has increased, knowledge customization on the social web has been becoming more difficult. To reduce the burden, we offer a framework for context-based similarity calculation for knowledge customization using ontology on the CBR. Thereby, we newly developed context- and intensity-based similarity calculation methods which are applied to extraction of the most similar case considered semantic similarity and syntactic, and effective creation of the user-tailored knowledge using the selected case. The process is comprised of conversion of unstructured web information into cases, extraction of an appropriate case according to the user requirements, and customization of the knowledge using the selected case. In the experimental section, the effectiveness of the developed similarity methods are compared with other edge-counting similarity methods using two classes which are compared with each other. It shows that our framework leads higher similarity values for conceptually close classes compared with other methods.

Algebraic Kripke-style semantics for substructural fuzzy logics (준구조 퍼지 논리를 위한 대수적 크립키형 의미론)

  • Yang, Eunsuk
    • Korean Journal of Logic
    • /
    • v.19 no.2
    • /
    • pp.295-322
    • /
    • 2016
  • This paper deals with Kripke-style semantics, which will be called algebraic Kripke-style semantics, for fuzzy logics based on uninorms (so called uninorm-based logics). First, we recall algebraic semantics for uninorm-based logics. In the general framework of uninorm-based logics, we next introduce various types of general algebraic Kripke-style semantics, and connect them with algebraic semantics. Finally, we analogously consider particular algebraic Kripke-style semantics, and also connect them with algebraic semantics.

  • PDF

Semantics Of UML Statecharts by SyncCharts (SyncCharts를 이용한 UML Statecharts 의미론)

  • 이수영;김진현;이장수;최진영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.349-351
    • /
    • 2003
  • Statecharts는 UML에서 시스템의 행위를 표현하기 위한 핵심적인 언어로서 다양한 분야에 응용되고 있다. 그 의미론은 수학적인 방법으로 기술되어 있으나 실제로 응용하여 구현하는데에는 상당히 많은 과정을 거쳐야 한다. 본 논문에서는 UML Statecharts와 유사한 언어인 SyncCharts로 정의한다. SyncCharts는 Esterel의 정형명세 언어에 기반한 도식적인 언어로서 그 의미론은 물론 내장형 시스템의 코딩을 위해 잘 정의되고 진화된 언어이다. 본 논문에서는 SyncCharts를 이용하여 Statecharts의 의미론을 정의한다. 특히 실시간적인 행위 측면에서의 동기적 시간 의미론과 비동기적 시간 의미론을 모두 정의한다. 이렇게 함으로써 UML Statecharts의 실시간과 관련된 의미론을 정의한다. 그에 더하여 SyncCharts의 명세를 통해 어떻게 구현이 가능한지를 보임으로서 실제 Statecharts를 이용한 검증 및 구현 과정을 보인다.

  • PDF

XML-based Modeling for Semantic Retrieval of Syslog Data (Syslog 데이터의 의미론적 검색을 위한 XML 기반의 모델링)

  • Lee Seok-Joon;Shin Dong-Cheon;Park Sei-Kwon
    • The KIPS Transactions:PartD
    • /
    • v.13D no.2 s.105
    • /
    • pp.147-156
    • /
    • 2006
  • Event logging plays increasingly an important role in system and network management, and syslog is a de-facto standard for logging system events. However, due to the semi-structured features of Common Log Format data most studies on log analysis focus on the frequent patterns. The extensible Markup Language can provide a nice representation scheme for structure and search of formatted data found in syslog messages. However, previous XML-formatted schemes and applications for system logging are not suitable for semantic approach such as ranking based search or similarity measurement for log data. In this paper, based on ranked keyword search techniques over XML document, we propose an XML tree structure through a new data modeling approach for syslog data. Finally, we show suitability of proposed structure for semantic retrieval.

Semantic Extention Search for Documents Using the Word2vec (Word2vec을 활용한 문서의 의미 확장 검색방법)

  • Kim, Woo-ju;Kim, Dong-he;Jang, Hee-won
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.687-692
    • /
    • 2016
  • Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of document search based on document queries. In particular, it uses centrality vectors, instead of tf-idf vectors, to represent query documents, combined with the Word2vec method to capture the semantic similarity in contained words. This scheme improves the performance of document search and provides a way to find documents not only lexically, but semantically close to a query document.

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning (비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법)

  • Myeongsoo Han;Yoo Hyun Jeong;Dong-Kyu Chae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

The Churchlands' Theory of Representation and the Semantics (처칠랜드의 표상이론과 의미론적 유사성)

  • Park, Je-Youn
    • Korean Journal of Cognitive Science
    • /
    • v.23 no.2
    • /
    • pp.133-164
    • /
    • 2012
  • Paul Churchland(1989) suggests the theory of representation from the results of cognitive biology and connectionist AI studies. According to the theory, our representations of the diverse phenomena in the world can be represented as the positions of phase state spaces with the actions of the neurons or of the assembly of neurons. He insists connectionist AI neural networks can have the semantical category systems to recognize the world. But Fodor and Lepore(1996) don't look the perspective bright. From their points of view, the Churchland's theory of representation stands on the base of Quine's holism, and the network semantics cannot explain how the criteria of semantical content similarity could be possible, and so cannot the theory. This thesis aims to excavate which one is the better between the perspective of the theory and the one of Fodor and Lepore's. From my understandings of state space theory of representation, artificial nets can coordinates the criteria of contents similarity by the learning algorithm. On the basis of these, I can see that Fodor and Lepore's points cannot penetrate the Churchlands' theory. From the view point of the theory, we can see how the future's artificial systems can have the conceptual systems recognizing the world. Therefore we can have the perspectives what cognitive scientists have to focus on.

  • PDF

An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame (시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법)

  • Park, Hancheol;Gweon, Gahgene;Choi, Ho-jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.