• 제목/요약/키워드: 유사도

검색결과 29,837건 처리시간 0.057초

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

게임컨텐츠 특징을 이용한 유사도 산출 기법에 관한 연구 (A Study of Similarity Measure using Game Contents Features)

  • 김진용
    • 한국게임학회 논문지
    • /
    • 제3권1호
    • /
    • pp.49-55
    • /
    • 2003
  • 게임산업의 급속한 발전과 더불어 대중적, 상업적, 인기 게임에 대한 저작권, 표절, 복제에 대한 논란이 많이 나타나고 있으나 게임에 대한 저작권, 표절, 복제도 산출, 유사도, 가치 평가에 대한 연구는 미비한 상태이며 유사도, 복제도 산출에 있어서 정량적인 산출 기법에 대한 연구는 전무한 상태이다. 본 논문에서는 게임 컨텐츠의 저작권, 프로그램보호권, 컴퓨터 게임과 영상 저작물의 관계를 고찰해 보았으며 이를 근거로 게임의 게임 저작권 설정에 대한 기초 자료를 제시하였다. 게임의 복제, 표절, 저작권 논란에 대하여 그동안 주관적이고 정성적인 형태로 표현된 유사도를 게임 특징벡터 추출 기법을 이용하여 객관적이고 정량적인 유사도 산출 방법을 제안하였다. 제안 방법은 게임 분류기법에서 특징 벡터를 추출하여 이를 근거로 원본 게임과 유사한 게임간의 특징 벡터를 비교하여 정량적인 유사도를 산출하였으며 실험 결과를 통하여 제안한 방법이 유사게임간의 그룹화, 정량적 유사도 산출의 가능성을 제시하였다.

  • PDF

형태소 사이의 유사도를 이용한 용례의 의미별 분류 (Conceptual Clustering of Korean Concordances using Similarities between Morphemes)

  • 백대호;이호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 1996
  • 본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.

  • PDF

A similarity measure of fuzzy sets

  • Kwon, Soon H.
    • 한국지능시스템학회논문지
    • /
    • 제11권3호
    • /
    • pp.270-274
    • /
    • 2001
  • 지금까지 제안된 유사도 척도는 첫째, 기하학적 유사도 척도, 둘째, 집합론적 유사도 척도, 그리고 마지막으로 일치 함수를 이용한 유사도 척도와 같이 세 종류로 분류될 수 있다. 본 논문에서는 이러한 기존의 유사도 척도가 갖는 여러 가지 성질에 근거하여 퍼지 집합에 관한 새로운 유사도 척도를 제안하고 이의 성질을 알아본다. 마지막으로, 예제를 통하여 제안된 유사도 척도와 기존의 유사도 척도의 특성을 비교한다.

  • PDF

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역 (Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

통계학적 접근법의 적용을 통한 유사 문제의 분석 (Statistical Analysis on Size of Flocs)

  • 손민우;박병은;변지선
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.245-245
    • /
    • 2019
  • 점착성 유사는 유사가 가지는 점착력에 의해 응집현상을 겪으며 그 크기와 밀도가 변화한다. 유사의 크기와 밀도는 침강속도에 직접적인 영향을 주며 침강속도는 변화는 유사의 거동에 매우 중요한 작용을 한다. 따라서 점착성 유사의 크기 특성을 파악하는 것은 필수적이다. 본 연구는 유사가 가지는 입도분포를 파악하기 위해 통계학적 접근법을 적용하여 분석하였다. 점착성 유사의 입자가 가지는 입도 분포를 구체화한 결과를 유사의 입도 분포를 위한 수치 모의 연구에 적용하여 모의 결과를 향상시키고 유사 문제의 분석에 용이하도록 하려 한다. 통계학적인 방법 중 적합도 검정을 이용하여 실제 점착성 유사의 입도가 어떠한 분포를 모사하는지 분석하였다. 수집된 입도 분포 자료에 적합도 검정 방법 중 Kolmogorov-Sminorv(K-S) 검정을 이용하였으며 유의수준 5%를 통과할 경우 이론 분포가 점착성 유사의 입도 분포를 잘 모사하는 것으로 판단하였다. 점착성 유사의 입도 분포를 수집하고 그 자료를 바탕으로 적합도 검정을 실시한 결과 많은 연구에서 점착성 유사의 입도 분포로 가정하고 있는 Log-normal 분포가 유의수준 5%를 기준으로 적합도 검정을 통과한 경우는 많지 않았다. 본 연구에서 검정한 결과로는 기존에 이용되는 Log-normal 분포는 위치 매개변수를 추가하여 3 매개변수 분포를 사용할 경우에만 점착성 유사의 입도 분포를 모사한다고 판단된다. 향후에는 점착성 유사의 입도 분포를 모사하고 사용함에 있어 Log-normal 분포를 무조건적으로 이용하는 것은 지양하고 점착성 유사가 가지는 특성을 파악하여 어떠한 입도 분포 형태를 나타낼지 미리 예측하여 이론 분포를 가정한다면 수치모형을 통해 점착성 유사의 입도 분포를 모사할 때 그 정확도가 크게 증가할 것으로 판단된다. 또한 점착성 유사의 입도 분포로서 제시한 GEV 분포와 Gamma 분포, Log-normal 분포를 FM 모형에 결합하여 입도 분포를 모의한 후 그 결과를 실제 현장에서 측정된 입도 분포와 비교하는 과정을 통해 실제 어떠한 분포가 가장 적합하게 모의하는지도 검증할 필요성이 있다고 판단된다. 또한 점착성 유사의 입도를 모사하는 분포를 새로 개발하여 사용한다면 점착성 유사의 이동과 특성을 연구할 때 가장 중요한 크기 특성에 대한 많은 정보를 제공할 수 있으며 유사와 관련된 문제를 용이하게 분석할 것으로 판단된다.

  • PDF

격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링 (A Similarity-based Dialogue Modeling with Case Frame and Word Embedding)

  • 이호경;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

거리측도를 이용한 유사도의 구성과 퍼지 넘버를 이용한 유사도와의 비교연구 (Comparison Study for similarities based on Distance Measure and Fuzzy Number)

  • 이상혁
    • 한국지능시스템학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-6
    • /
    • 2007
  • 거리측도를 이용한 유사도를 구성하였고 제안된 유사도의 유용성을 증명을 통하여 확인 하였다. 퍼지 넘버와 무게 중심 법을 이용한 기존의 유사도 구성에 대한 결과를 소개하였고 두 가지의 유사도를 다양한 형태의 소속 함수에 대하여 유사도 계산을 통하여 비교하였다.

술어를 활용한 명사 논항간의 유사도 계산 (Similarity Estimation of Argument Between Noun using Predicate)

  • 조병철;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-241
    • /
    • 2014
  • 본 논문에서는 명사간의 유사도 추정을 위하여 명사 어휘와 술어-논항 관계에 있는 동사들의 유사도를 측정하여 이를 활용하는 연구를 제안한다. 어휘 유사도 추정은 정보 통합과 정보 검색 분야에서 중요한 역할을 한다. 본 연구에서는 유사한 명사 어휘들은 유사한 문맥을 가지고 있으며 동시에 명사 어휘의 문맥에 있어 가장 중요한 문맥 정보는 명사 어휘와 직접적인 구문 관계를 가지고 있는 술어 정보임을 가정하였다. 실험을 위하여 본 연구에서 제시된 유사도와 명사 계층 클래스간의 유사도간의 상관관계를 계산하였다.

  • PDF

Cosine Measure를 이용한 음악 동기간 유사도 계산 (Similarity Computation between Music Motifs Using Cosine Measure)

  • 임상혁;구경이;김유성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1603-1606
    • /
    • 2003
  • 음악에서 동기는 독립성을 지니는 최소 단위이며, 저작권 검사의 단위로 이용된다 따라서, 한 음악에서 약간의 변화를 가지고 반복되는 주제선율을 추출하거나, 다른 음악간의 유사도를 측정하는데 유사도 계산은 필요하다. 본 논문에서는 비교되는 동기의 선율정보를 음 길이와 음높이가 함께 고려되는 시계열 데이타로 변환하고, cosine measure를 이용하여 동기간의 유사도를 계산한다. 시계열 데이타에서 유사도 계산으로 사용되는 유클리드 거리함수 대신 cosine measure를 이용한 경우, 공간상의 거리 합대신 변화 방향이 반영됨으로써 비교되는 동기간의 유사도를 정확하게 계산한다. 본 논문에서 제안된 동기간의 유사도 계산은 내용 기반 음악 검색에서 색인으로 사용되는 주제선율을 추출하거나, 다른 음악의 동기간의 유사성을 비교하는데 이용될 수 있다.

  • PDF