• 제목/요약/키워드: 그래프 기반 언어모델

검색결과 59건 처리시간 0.03초

지식 임베딩 심층학습을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation Using Knowledge Embedding)

  • 오동석;양기수;김규경;황태선;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-275
    • /
    • 2019
  • 단어 중의성 해소 방법은 지식 정보를 활용하여 문제를 해결하는 지식 기반 방법과 각종 기계학습 모델을 이용하여 문제를 해결하는 지도학습 방법이 있다. 지도학습 방법은 높은 성능을 보이지만 대량의 정제된 학습 데이터가 필요하다. 반대로 지식 기반 방법은 대량의 정제된 학습데이터는 필요없지만 높은 성능을 기대할수 없다. 최근에는 이러한 문제를 보완하기 위해 지식내에 있는 정보와 정제된 학습데이터를 기계학습 모델에 학습하여 단어 중의성 해소 방법을 해결하고 있다. 가장 많이 활용하고 있는 지식 정보는 상위어(Hypernym)와 하위어(Hyponym), 동의어(Synonym)가 가지는 의미설명(Gloss)정보이다. 이 정보의 표상을 기존의 문장의 표상과 같이 활용하여 중의성 단어가 가지는 의미를 파악한다. 하지만 정확한 문장의 표상을 얻기 위해서는 단어의 표상을 잘 만들어줘야 하는데 기존의 방법론들은 모두 문장내의 문맥정보만을 파악하여 표현하였기 때문에 정확한 의미를 반영하는데 한계가 있었다. 본 논문에서는 의미정보와 문맥정보를 담은 단어의 표상정보를 만들기 위해 구문정보, 의미관계 그래프정보를 GCN(Graph Convolutional Network)를 활용하여 임베딩을 표현하였고, 기존의 모델에 반영하여 문맥정보만을 활용한 단어 표상보다 높은 성능을 보였다.

  • PDF

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

RDF/S 데이터의 관리를 위한 그래프 데이터 모델 기반 저장 기법 (Storing Scheme based on Graph Data Model for Managing RDF/S Data)

  • 김연희;최재언;임해철
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권2호
    • /
    • pp.285-293
    • /
    • 2008
  • 차세대 웹으로 인식되고 있는 시맨틱 웹에서는 정보 리소스의 개념과 의미적 관계를 정의하는 메타데이터와 온톨로지의 역할이 무엇보다 중요시되고 있다. 따라서 RDF와 RDF 스키마 같은 시맨틱 웹 언어로 표현되어 있는 시맨틱 데이터의 효과적인 저장 및 검색 기법이 요구된다. 본 논문에서는 RDF와 RDF 스키마를 함께 고려하여 시맨틱 웹 데이터의 질의 유형을 크게 3가지로 분류하였다. 그리고 RDF와 RDF 스키마가 그래프 데이터 모델로 표현이 가능하고 다양한 질의의 형태가 그래프 모델에서 추출 가능한 경로식으로 표현될 수 있다는데 초점을 맞추고 효율적인 질의 처리를 위한 저장 기법을 제안한다. 본 논문에서 제안한 저장 구조는 RDF와 RDF 스키마에 기본적으로 기술되어 있는 클래스, 프로퍼티, 리소스에 대한 정의나 계층 정보는 물론 추출 가능한 모든 경로 정보를 유지할 수 있다. 본 논문에서 제안한 저장 기법을 통해 일반적인 질의 유형은 물론 그래프 모델 상의 복잡한 경로식으로 표현되는 질의 유형에 대해서도 테이블의 조인 횟수를 최소화하면서 특정 클래스나 프로퍼티로부터 시작하는 모든 경로에 대한 질의 처리가 가능한 장점이 있다.

  • PDF

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

A Multi-task Self-attention Model Using Pre-trained Language Models on Universal Dependency Annotations

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.39-46
    • /
    • 2022
  • 본 논문에서는 UD Korean Kaist v2.3 코퍼스를 이용하여 범용 품사 태깅, 표제어추출 그리고 의존 구문분석을 동시에 예측할 수 있는 보편적 다중 작업 모델을 제안하였다. 제안 모델은 사전학습 언어모델인 다국어 BERT (Multilingual BERT)와 한국어 BERT (KR-BERT와 KoBERT)을 대상으로 추가학습 (fine-tuning)을 수행하여 BERT 모델의 자가-집중 (self-attention) 기법과 그래프 기반 Biaffine attention 기법을 적용하여 제안 모델의 성능을 비교 분석하였다.

경로 정보를 이용한 RDF와 RDF 스키마의 저장 구조 설계 (The Design of Storage Structure for Path Expressions in RDF and RDF Schema)

  • 김연희;김병곤;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.217-219
    • /
    • 2005
  • 정보의 단순한 연결을 표현하는 현재 웹 환경의 한계를 보완하기 위해 차세대 웹으로서 평가되고 있는 시맨틱 웹에서는 정보 리소스의 의미와 개념적 관계를 정의하는 메타데이터와 온톨로지의 역할이 무엇보다 중요시되고 있다. 따라서 RDF와 RDF 스키마와 같은 표준 언어로써 표현되는 메타데이터와 온톨로지의 효과적인 저장과 검색의 방법이 필요하다. RDF와 RDF 스키마는 그래프 모델로서 표현이 가능하고 다양한 질의의 형태가 그래프 형태에서 추출 가능한 경로 형식으로 표현들 수 있기 때문에 보다 효율적인 질의 처리를 위해서는 경로 정보의 저장에 대한 연구가 필요하다. 따라서 본 논문에서는 관계형 데이터베이스를 기반으로 RDF와 RDF 스키마의 기본적인 정보와 특정 클래스, 프로퍼티, 리소스로 시작하는 경로 정보를 함께 저장할 수 있는 저장 구조를 제안한다.

  • PDF

Edge-Labeled Graph를 적용한 XML 저장 모델 (XML Repository Model based on the Edge-Labeled Graph)

  • 김정희;곽호영
    • 한국정보통신학회논문지
    • /
    • 제7권5호
    • /
    • pp.993-1001
    • /
    • 2003
  • 본 논문에서는 Edge-Labeled Graph에 기반하여 XML 인스턴스들을 관계형 데이터베이스로 저장하는 모델을 제안하고 구현한다. 저장되는 XML 인스턴스들은 Edge-Labeled Graph에 기반 한 Data Graph로 표현하고 이를 이용하여 데이터 경로, 엘리먼트, 속성, 테이블 인덱스 테이블에 정의한 값들을 추출한 후 Mapper를 이용하여 데이터베이스 스키마를 정의하고 추출된 값들을 저장한다. 그리고, 저장 모델은 질의를 지원하기 위해, XPATH를 따르는 질의 언어로 사용되는 XQL을 SQL로 변환하는 변환기 및 저장된 XML 인스턴스를 복원하는 DBtoXML 처리기를 갖도록 한다. 구현 결과, XML 인스턴스들과 제안된 모델 구조간의 저장 관계가 그래프 기반의 경로를 이용한 표현으로 가능했으며, 동시에, 특정 엘리먼트 또는 속성들의 정보들을 쉽게 검색할 수 있는 가능성을 보였다.

레코드 연결을 위한 속성인지 메타블로킹 (Property-aware Meta Blocking for Record Linkage)

  • 이주현;김현호;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.592-596
    • /
    • 2021
  • 레코드 연결의 대표적인 문제 중 하나는 레코드 간 비교 비용이 크다는 것이다. 이러한 문제를 해결하기 위해서는 레코드 연결에 필수적으로 블로킹 단계가 포함되어야 한다. 블로킹이란 같은 레코드일 가능성이 높은 대상들을 그룹화하여 비교연산을 수행할 대상을 선정하는 단계를 말한다. 블로킹의 목적은 최대한 결과의 recall을 희생시키지 않으면서 비교 연산 횟수 최소화하는 것이다. 메타 블로킹은 가중치 그래프를 블로킹에 적용함으로써 전통적인 블로킹 방식의 한계를 극복하고 더 좋은 성능을 나타내는 모델이다. 본 논문에서는 메타블로킹에서 주목하지 않았던 블록 생성방식을 데이터베이스 속성에 따라 블록을 생성하는 방식으로 개선하고 그에 맞는 가중치 계산식을 제안하였다. 또한 키 기반 블로킹, 메타블로킹, 속성인지 메타블로킹으로 생성된 블로킹 결과에 대한 성능을 측정 및 비교하였다.

  • PDF

지능형 웹 서비스를 위한 시맨틱 매치 메이킹에 관한 연구 (A Study on the Semantic Match Making for Intelligent Web Service)

  • 김지영;양진혁;공유근;정인정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.34-36
    • /
    • 2003
  • 지능형 웹 서비스를 효과적으로 구현하기 위해서는 다양한 사용자들이 필요로 하는 데이터를 만족스럽게 제공할 수 있는 매치 메이킹의 구현이 중요한 과제이다. 이를 위한 관련 연구로 필터링 메커니즘을 제안하고 있는 LARKS, 브로커에이전트를 이용한 InfoSlueth, RDF 그래프 매칭 연구 및 DL 기반의 매칭 방법 등이 있다. 그러나 기존 연구들은 등급 개념을 가지는 유연한 검색 결과를 제공하지 못한다는 큰 문제점을 가진다. 본 논문에서는 기존 방법들을 개선하기 위한 노력으로서. 서비스 매치 메이킹의 결과들에 등급(랭킹)을 부터 하는 시맨틱 매치 메이커를 제안한다. 본 논문에서 제안하는 시맨틱 매치 메이커는 서비스 제공자와 서비스 요청자 사이의 유연한 매칭을 제공하여 지능형 웹 서비스를 효과적으로 수행 할 수 있게 한다. 본 논문에서 제안한 방법론은 서비스 광고 및 요청을 표현하기 위한 언어로 DAML-S를 채택하였고. DAML-S의 서비스 프로파일 뿐만 아니라 프로세스 모델 온톨로지 모두를 고려하는 새로운 접근법이다.

  • PDF

XForms 페이지의 접근제어를 위한 공유 조건식의 효율적 계산 방법 (Efficient Evaluation of Shared Predicates for XForms Page Access Control)

  • 이은정
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.441-450
    • /
    • 2008
  • 최근 폼 기반의 웹 시스템에 대한 접근 제어 방법이 서비스 기반 아키텍처를 가지는 클라이언트 시스템 구현에 유용한 방법으로 주목받고있다. 특히 XForms 언어는 서버와 상호작용하는 XML 기반의 사용자 인터페이스를 기술하는 언어로 많이 채용되고 있다. 이 논문에서는 XForms 페이지에 대한 XPath 기반의 접근 제어 규칙을 효율적으로 계산하는 알고리즘을 제안한다. XForms 페이지는 바인딩된 XML 노드에대한 연속된 질의로 모델링할 수 있으며 클라이언트 시스템은 사용자 인터페이스를 생성하면서 XPath 규칙을 계산한다. XPath 규칙은 인스턴스 데이터를 이용하는 조건부를 가지는데 이 조건부의 계산이 규칙들 사이에 또 연속된 질의 사이에 중복되는 경우가 많다. 중복되는 조건부의 효율적인 계산을 위해서 조건부 그래프 모델을 제안하여 동일한 컨텍스트 노드에 대해 이전에 계산된 결과를 재사용하는 방법을 제안하였다. 이 방법은 각 조건부 식이 해당되는 XML 노드에 대해 한번만 계산되는 것을 보장한다.