• Title/Summary/Keyword: 의미 거리

Search Result 676, Processing Time 0.023 seconds

A Semantic Distance Measurement Model using Weights on the LOD Graph in an LOD-based Recommender System (LOD-기반 추천 시스템에서 LOD 그래프에 가중치를 사용한 의미 거리 측정 모델)

  • Huh, Wonwhoi
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.7
    • /
    • pp.53-60
    • /
    • 2021
  • LOD-based recommender systems usually leverage the data available within LOD datasets, such as DBpedia, in order to recommend items(movies, books, music) to the end users. These systems use a semantic similarity algorithm that calculates the degree of matching between pairs of Linked Data resources. In this paper, we proposed a new approach to measuring semantic distance in an LOD-based recommender system by assigning weights converted from user ratings to links in the LOD graph. The semantic distance measurement model proposed in this paper is based on a processing step in which a graph is personalized to a user through weight calculation and a method of applying these weights to LDSD. The Experimental results showed that the proposed method showed higher accuracy compared to other similar methods, and it contributed to the improvement of similarity by expanding the range of semantic distance measurement of the recommender system. As future work, we aim to analyze the impact on the model using different methods of LOD-based similarity measurement.

Word sense disambiguation using dynamic sized context and distance weighting (가변 크기 문맥과 거리가중치를 이용한 동형이의어 중의성 해소)

  • Lee, Hyun Ah
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.38 no.4
    • /
    • pp.444-450
    • /
    • 2014
  • Most researches on word sense disambiguation have used static sized context regardless of sentence patterns. This paper proposes to use dynamic sized context considering sentence patterns and distance between words for word sense disambiguation. We evaluated our system 12 words in 32,735sentences with Sejong POS and sense tagged corpus, and dynamic sized context showed 92.2% average accuracy for predicates, which is better than accuracy of static sized context.

A Homonym Disambiguation System Based on Statistical Model Using Sense Category and Distance Weights (의미범주 및 거리 가중치를 고려한 통계기반 동형이의어 분별 시스템)

  • Kim, Jun-Su;Kim, Chang-Hwan;Lee, Wang-Woo;Lee, Soo-Dong;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.487-493
    • /
    • 2001
  • 본 논문에서는 Bayes 정리를 적용한 통계기반 동형이의어 분별 시스템에 대한 외부실험 결과를 분석하여, 정확률 향상을 위한 의미범주 가중치 및 인접 어절에 대한 거리 가중치 모델을 제시한다. 의미 분별된 사전 뜻풀이말 코퍼스(120만 어절)에서 구축된 의미정보를 이용한 통계기반 동형이의어 분별 시스템을 사전 뜻풀이말 문장에 출현하는 동형이의어 의미 분별에 적용한 결과 상위 고빈도 200개의 동형이의어에 대해 평균 98.32% 정확률을 보였다. 내부 실험에 사용된 200개의 동형이의어 중 49개(체언 31개, 용언 18개)를 선별하여 이들 동형이의어를 포함하고 있는 50,703개의 문장을 세종계획 품사 부착 코퍼스(350만 어절)에서 추출하여 외부 실험을 하였다. 분별하고자 하는 동형이의어의 앞/뒤 5어절에 대해 의미범주 및 거리 가중치를 부여한 실험 결과 기존 통계기반 분별 모델 보다 2.93% 정확률이 향상되었다.

  • PDF

Similarity Estimation between Verbs Using Semantic Information of their Argument (논항의 의미 정보를 이용한 동사의 유사도 추정)

  • Lee, Chae-Hun;Seok, Mi-Ran;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.197-200
    • /
    • 2014
  • 한국어의 경우 동사와 형용사는 문장에서의 역할이 명사와는 다르며, 동사의 의미는 동반하는 논항의 의미적, 통사적 특성에 따라 분화되므로 근본적으로 논항과 함께 고려되어야 한다. 논항이라 함은 명제를 표시하는 방법 중 하나로 관계와 논항으로 표시하는 방법이 있는데, 여기서 관계는 문장의 동사, 형용사 또는 다른 관계항에 해당하며, 논항은 특정시간, 장소, 사람, 대상을 지칭하는 것으로서 흔히 명사에 해당한다. 본 논문에서는 동사간의 의미 유사도를 추정하기 위하여, 수동으로 구축한 의미역 표지부착 말뭉치인 한국어 PropBank의 의미역인 ARG1에 해당하는 명사들을 동사의 주요 논항으로 보았다. 그리고 이들 주요 논항간의 의미 거리를 '코어넷 한국어 명사편'에서 계산하여 동사별로 이를 합산함으로써 이 계산한 값을 동사의 유사도로 추정하였다. 또한 본 연구에서 제안된 방식과 '코어넷 한국어 동사편'에서 동사간의 거리를 계산한 값 사이의 상관계수를 구하여 보았다.

  • PDF

The Study on the Divinity of Korean Shamanism 1 (한국무속의 신격 연구1 - 서울과 고성의 재수굿을 중심으로 -)

  • Sim, Sang-gyo
    • (The) Research of the performance art and culture
    • /
    • no.36
    • /
    • pp.365-414
    • /
    • 2018
  • This paper studied the type and character of the Divinity in Korean shamanism. The study of the Divinity means the hierarchy of shamanism, the relationship between shamanism and divinity, and the comparison between shamanism and divinity. The study of the shamanistic divinity based on Kim Tae - Gon's collection of anthology by Shaman(1971). The Jaesugut was composed of the contents of the gods blessing human beings. The JaesuGut of Seoul vary from 10 to 18 depending on the author. The JaesuGut of Goseong consists of 8 Gut. The essence of the ritual gut is to pray for the peace of the individual by using the world which is not explained by reason and science. It is a reincarnation that reflects the world of experience that is stored in the memory of human being that both reason and science can not explain. And the desire to escape from fear was reflected in Jaesu Gut. Every Jaesu Gut in Seoul and Goseong has a main divinity. This main divinity is attached to the divinity in another Gut and becomes a subordination divinity. It also becomes a subordinate-subordination divinity to the another Gut. The gods of reincarnation are basically taken in the order of national security ${\rightarrow}$ local security ${\rightarrow}$ home security.

Semantic Similarity Measures Between Words within a Document using WordNet (워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정)

  • Kang, SeokHoon;Park, JongMin
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.11
    • /
    • pp.7718-7728
    • /
    • 2015
  • Semantic similarity between words can be applied in many fields including computational linguistics, artificial intelligence, and information retrieval. In this paper, we present weighted method for measuring a semantic similarity between words in a document. This method uses edge distance and depth of WordNet. The method calculates a semantic similarity between words on the basis of document information. Document information uses word term frequencies(TF) and word concept frequencies(CF). Each word weight value is calculated by TF and CF in the document. The method includes the edge distance between words, the depth of subsumer, and the word weight in the document. We compared out scheme with the other method by experiments. As the result, the proposed method outperforms other similarity measures. In the document, the word weight value is calculated by the proposed method. Other methods which based simple shortest distance or depth had difficult to represent the information or merge informations. This paper considered shortest distance, depth and information of words in the document, and also improved the performance.

A Two-Phase Shallow Semantic Parsing System Using Clause Boundary Information and Tree Distance (절 경계와 트리 거리를 사용한 2단계 부분 의미 분석 시스템)

  • Park, Kyung-Mi;Hwang, Kyu-Baek
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.5
    • /
    • pp.531-540
    • /
    • 2010
  • In this paper, we present a two-phase shallow semantic parsing method based on a maximum entropy model. The first phase is to recognize semantic arguments, i.e., argument identification. The second phase is to assign appropriate semantic roles to the recognized arguments, i.e., argument classification. Here, the performance of the first phase is crucial for the success of the entire system, because the second phase is performed on the regions recognized at the identification stage. In order to improve performances of the argument identification, we incorporate syntactic knowledge into its pre-processing step. More precisely, boundaries of the immediate clause and the upper clauses of a predicate obtained from clause identification are utilized for reducing the search space. Further, the distance on parse trees from the parent node of a predicate to the parent node of a parse constituent is exploited. Experimental results show that incorporation of syntactic knowledge and the separation of argument identification from the entire procedure enhance performances of the shallow semantic parsing system.

Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity (단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측)

  • Lee, Sangah
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity (단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측)

  • Lee, Sangah
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

A Comparative Analysis of Demonstratives: based on Korean, English, Spanish and Russian text (지시사 대조연구)

  • 김명자;채숙희;조은영
    • Korean Journal of Cognitive Science
    • /
    • v.15 no.1
    • /
    • pp.13-24
    • /
    • 2004
  • This paper deals with the anaphoric usage of demonstratives when they refer to what are already mentioned in the context. We examine syntactic, semantic and pragmatic factors that contribute to the choice of demonstratives. As for anaphoric usage, English and Spanish show the even distribution between proximal and distal demonstratives with the meaning of their deictic counterparts. Korean and Russian, however, show the uneven distribution of the more prevalent form (unmarked on) and the lesser one (market one). This study aims at a typological explanation for the anaphoric usage of demonstratives through comparison and contrast with such factors as the distance to the antecedent, cognitive status, psychological distance and the center of attention.

  • PDF