• Title/Summary/Keyword: 의미론적 유사도

검색결과 192건 처리시간 0.041초

Word2vec 모델의 단어 임베딩 특성 연구 (On Characteristics of Word Embeddings by the Word2vec Model)

  • 강형석;양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

상황과 정보 집적도를 고려한 유사도 기반의 맞춤형 지식 생성프레임워크 (Customized Knowledge Creation Framework using Context- and intensity-based Similarity)

  • 손미애;이현정
    • 인터넷정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.113-125
    • /
    • 2011
  • 정보의 출처와 형식이 다양해지고 정보의 양 또한 많아짐에 따라 소셜 웹에서의 맞춤형 지식 생성은 더욱 어려워지고 있다. RSS(Really Simple Syndication)가 정보 수집 방법의 개선에 일조했으나, 웹에 산재된 정보를 찾아 필요한 정보들만으로 구성된 맞춤형 지식을 생성하는 것은 여전히 사용자들의 몫으로 남아 있다. 본 논문에서는 맞춤형 지식 생성의 용이성을 제고하기 위해 상황 기반 유사도를 이용한 맞춤형 지식생성 프레임워크를 제안하였다. 본 프레임워크는 기본적으로 사례 기반추론의 절차를 따르지만, 기존 사례 기반의 유사도 계산 방식이 문법적 추론에 기반했던 것과 달리, 온톨로지를 활용한 의미적 유사도를 이용한 사례 기반 추론을 활용한다. 또한 사용자 요구를 만족하는 유사사례의 보정을 위해 온톨로지를 활용한 정보 집적도 기반의 유사도 방법론을 제안하였다. 본 프레임워크에서는 첫째 비구조적인 웹 정보를 사례 형태의 구조적 정보로 변환하고, 둘째 사용자의 요구에 적합한 의미론적 유사사례를 찾은 후 셋째, 선택된 유사사례의 정보 집적도를 고려한 보정을 통해 맞춤형 지식을 생성하는 과정을 거친다. 본 논문에서는 유사도 계산에 일반적으로 활용되는 여러 방법론들과 비교를 통하여 제안한 온톨로지 기반 의미적 유사도 계산 방법론의 타당성을 입증하였다.

준구조 퍼지 논리를 위한 대수적 크립키형 의미론 (Algebraic Kripke-style semantics for substructural fuzzy logics)

  • 양은석
    • 논리연구
    • /
    • 제19권2호
    • /
    • pp.295-322
    • /
    • 2016
  • 이 글에서 우리는 유니놈에 기반한 퍼지 논리를 위한 대수적 크립키형 의미론을 다룬다. 이를 위하여 먼저 유니놈에 기반한 논리체계들을 위한 대수적 의미론을 재고한다. 다음으로 유니놈에 기반한 체계들의 일반적 구조에서 다양한 종류의 일반적 대수적 크립키형 의미론을 소개하고 그것들을 대수적 의미론과 연관 짓는다. 마지막으로 우리는 유사하게 특수한 대수적 의미론을 소개하고 이를 또한 대수적 의미론과 연관 짓는다.

  • PDF

SyncCharts를 이용한 UML Statecharts 의미론 (Semantics Of UML Statecharts by SyncCharts)

  • 이수영;김진현;이장수;최진영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.349-351
    • /
    • 2003
  • Statecharts는 UML에서 시스템의 행위를 표현하기 위한 핵심적인 언어로서 다양한 분야에 응용되고 있다. 그 의미론은 수학적인 방법으로 기술되어 있으나 실제로 응용하여 구현하는데에는 상당히 많은 과정을 거쳐야 한다. 본 논문에서는 UML Statecharts와 유사한 언어인 SyncCharts로 정의한다. SyncCharts는 Esterel의 정형명세 언어에 기반한 도식적인 언어로서 그 의미론은 물론 내장형 시스템의 코딩을 위해 잘 정의되고 진화된 언어이다. 본 논문에서는 SyncCharts를 이용하여 Statecharts의 의미론을 정의한다. 특히 실시간적인 행위 측면에서의 동기적 시간 의미론과 비동기적 시간 의미론을 모두 정의한다. 이렇게 함으로써 UML Statecharts의 실시간과 관련된 의미론을 정의한다. 그에 더하여 SyncCharts의 명세를 통해 어떻게 구현이 가능한지를 보임으로서 실제 Statecharts를 이용한 검증 및 구현 과정을 보인다.

  • PDF

Syslog 데이터의 의미론적 검색을 위한 XML 기반의 모델링 (XML-based Modeling for Semantic Retrieval of Syslog Data)

  • 이석준;신동천;박세권
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.147-156
    • /
    • 2006
  • 이벤트 로깅은 시스템 및 네트워크 관리에 있어 그 역할이 증대되고 있으며, syslog는 해당 분야에 있어 사실상의 표준으로 사용되고 있다. 그러나 대부분의 로그 분석은 반구조적 특징을 보이는 로그 형식으로 인하여 빈번히 출현하는 패턴에만 집중하고 있다. XML은 syslog 데이터를 구조화하는 데 있어 유용한 방식을 제공하고 정보 탐색을 용이하게 해 준다. 하지만 이전의 XML 형식들 및 어플리케이션들은 로그 데이터를 위한 순위 기반 검색이나 유사도 측정 등과 같은 의미론적 접근에 적합하지 않다. 본 논문에서는 XML 기반의 순위 키워드 검색 기법을 기초로, 새로운 로그 데이터 모델링을 통해 syslog 데이터를 위한 XML 트리 구조를 제안한다. 그리고 기존의 XML 구조보다 의미론적 검색에 적합함을 보인다.

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법 (Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning)

  • 한명수 ;정유현 ;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

처칠랜드의 표상이론과 의미론적 유사성 (The Churchlands' Theory of Representation and the Semantics)

  • 박제윤
    • 인지과학
    • /
    • 제23권2호
    • /
    • pp.133-164
    • /
    • 2012
  • 폴 처칠랜드는 인지신경생물학과 연결주의 AI의 연구 성과로부터, 상태공간 표상이론을 제안하였다. 그 표상이론에 따르면 세계의 다양한 현상들에 대한 우리의 표상은 신경세포 또는 신경세포집단의 활동에 대응하는 위상 상태공간의 지점들로 재현될 수 있다. 그러한 표상 체계를 모의하는 연결주의 AI 신경망은 은닉유닛들 속에 우리가 세계를 인지할 의미론의 범주 체계를 담아내는 것으로 해석된다. 그러한 해석의 관점에 따르면, 신경망은 세계에 대한 범주체계를 은닉 유닛들이 갖는 위상 상태공간의 특정 지점이라고 주장한다. 그러나 포도와 르포르는 그러한 전망을 어둡게 본다. 그의 전망에 따르면, '차원의 개별화' 가능성, 내용 동일성의 '분석/종합 구분'의 측면, 그리고 '부차적 정보'에 따른 상태공간의 상이성 등을 고려할 때 새로운 표상이론은 의미론적 내용 동일성을 주장하기 어렵다. 그 상태공간 표상은 유사성의 기준을 전제하기 때문이다. 본 논문은 처칠랜드 표상이론의 제안과 포도와 르포르의 비판 중에 어느 것이 더 설득력을 갖는지 검토한다. 상태공간 표상이론에 대한 필자의 이해에 따르면, 인공 그물망은 학습알고리즘에 따라서 스스로 내용 유사성의 분별 기준을 조성한다. 이러한 근거에서 포도와 르포르의 지적은 처칠랜드 표상이론에 대한 적절한 공격이 되지 못한다. 또한 그 표상이론은 미래의 인공지능 시스템이 의식 이하의 수준에서 세계를 인지할 개념체계를 어떻게 담아낼 수 있을지 우리에게 이해를 제공한다. 따라서 우리는 앞으로 인지과학 연구의 초점을 무엇에 집중해야 할지도 전망할 수 있게 되었다.

  • PDF

시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법 (An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame)

  • 박한철;권가진;최호진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.