• 제목/요약/키워드: DBpedia

검색결과 30건 처리시간 0.022초

인접성 벡터를 이용한 트리플 지식 그래프의 임베딩 모델 개선 (Improving Embedding Model for Triple Knowledge Graph Using Neighborliness Vector)

  • 조새롬;김한준
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.67-80
    • /
    • 2021
  • 그래프 표현 학습을 위한 노드 임베딩 기법은 그래프 마이닝에서 양질의 결과를 얻는 데 중요한 역할을 한다. 지금까지 대표적인 노드 임베딩 기법은 동종 그래프를 대상으로 연구되었기에, 간선 별로 고유한 의미를 갖는 지식 그래프를 학습하는 데 어려움이 있었다. 이러한 문제를 해결하고자, 기존 Triple2Vec 기법은 지식 그래프의 노드 쌍과 간선을 하나의 노드로 갖는 트리플 그래프를 학습하여 임베딩 모델을 구축한다. 하지만 Triple2Vec 임베딩 모델은 트리플 노드 간 관련성을 단순한 척도로 산정하기 때문에 성능을 높이는데 한계를 가진다. 이에 본 논문은 Triple2Vec 임베딩 모델을 개선하기 위한 그래프 합성곱 신경망 기반의 특징 추출 기법을 제안한다. 제안 기법은 트리플 그래프의 인접성 벡터(Neighborliness Vector)를 추출하여 트리플 그래프에 대해 노드 별로 이웃한 노드 간 관계성을 학습한다. 본 논문은 DBLP, DBpedia, IMDB 데이터셋을 활용한 카테고리 분류 실험을 통해, 제안 기법을 적용한 임베딩 모델이 기존 Triple2Vec 모델보다 우수함을 입증한다.

LOD-기반 추천 시스템에서 LOD 그래프에 가중치를 사용한 의미 거리 측정 모델 (A Semantic Distance Measurement Model using Weights on the LOD Graph in an LOD-based Recommender System)

  • 허원회
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.53-60
    • /
    • 2021
  • LOD-기반 추천 시스템은 보통 DBpedia와 같은 LOD 데이터세트 내에서 사용가능한 데이터를 활용하여 최종 사용자에게 영화, 책, 음악과 같은 아이템을 추천한다. 이러한 시스템은 링크드 데이터 리소스 쌍 간의 일치 정도를 측정하는 의미 유사도 알고리즘을 사용한다. 이 논문에서는 LOD 그래프의 링크에 사용자 평가 등급을 변환한 가중치를 할당하여 LOD-기반 추천 시스템에서 의미 거리를 측정하는 새로운 접근방식을 제안했다. 이 논문에서 제안된 의미 거리 측정 모델은 가중치 계산을 통해 그래프가 사용자에게 개인화되는 처리 단계와 이러한 가중치를 LDSD에 적용하는 방법을 기반으로 한다. 실험 결과는 다른 유사한 방법들과 비교하여 제안된 방법이 더 높은 정확도를 보였으며, 추천 시스템의 의미 거리 측정의 범위를 넓혀서 유사도 향상에 기여하였다. 향후 연구로는 다른 방법의 LOD-기반 유사도 측정을 사용하여 모델에 미치는 영향을 분석하는 것을 목표로 한다.

Issues and Challenges in the Extraction and Mapping of Linked Open Data Resources with Recommender Systems Datasets

  • Nawi, Rosmamalmi Mat;Noah, Shahrul Azman Mohd;Zakaria, Lailatul Qadri
    • Journal of Information Science Theory and Practice
    • /
    • 제9권2호
    • /
    • pp.66-82
    • /
    • 2021
  • Recommender Systems have gained immense popularity due to their capability of dealing with a massive amount of information in various domains. They are considered information filtering systems that make predictions or recommendations to users based on their interests and preferences. The more recent technology, Linked Open Data (LOD), has been introduced, and a vast amount of Resource Description Framework data have been published in freely accessible datasets. These datasets are connected to form the so-called LOD cloud. The need for semantic data representation has been identified as one of the next challenges in Recommender Systems. In a LOD-enabled recommendation framework where domain awareness plays a key role, the semantic information provided in the LOD can be exploited. However, dealing with a big chunk of the data from the LOD cloud and its integration with any domain datasets remains a challenge due to various issues, such as resource constraints and broken links. This paper presents the challenges of interconnecting and extracting the DBpedia data with the MovieLens 1 Million dataset. This study demonstrates how LOD can be a vital yet rich source of content knowledge that helps recommender systems address the issues of data sparsity and insufficient content analysis. Based on the challenges, we proposed a few alternatives and solutions to some of the challenges.

위치기반 시맨틱 검색을 위한 반응형 웹 애플리케이션 구현 (Implementation of Responsive Web Application for Location-based Semantic Search)

  • 이수형;이용주
    • 한국정보기술학회논문지
    • /
    • 제17권5호
    • /
    • pp.1-12
    • /
    • 2019
  • 기존의 Open API들과는 달리 링크드 데이터는 웹 자체를 하나의 거대한 지식베이스로 만들어 수준 높은 SPARQL 질의를 수행할 수 있으며, 다양한 데이터셋으로부터 서로 다른 정보들을 매쉬업하여 하나의 새로운 콘텐츠를 효율적으로 생성할 수 있다. 본 논문에서는 위치 기반 시맨틱 검색을 위한 반응형 웹 애플리케이션을 구현하였다. 링크드 데이터인 DBpedia와 Google에서 제공하는 GoogleMap API를 매쉬업하고 검색된 개체들에 대한 세부적인 정보를 확인할 수 있는 시맨틱 브라우저 기능을 제공한다. 본 시스템은 반응형 웹 디자인 사상을 적용하여 PC 및 모바일 등 다양한 접속 환경에서 동일하게 사용할 수 있다. 본 논문에서 구현된 시스템은 기능이 유사한 현존 시스템들과 기능 스펙을 비교하였다. 비교 결과 시맨틱 사용, 링크드 기반 브라우저, 매쉬업 기능 등 다양한 측면에서 본 시스템의 우수성을 보여준다.

원격 지도 학습 데이터 노이즈 제거를 위해 확장된 최단 의존 경로를 이용한 CNN 기반 관계추출 (A CNN-based Relation Extraction with Extended Shortest Dependency Path for Noise Reduction of Distant Supervision)

  • 남상하;한기종;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-54
    • /
    • 2018
  • 관계 추출을 위한 원격 지도 학습은 사람의 개입 없이 대규모 데이터를 생성할 수 있는 효율적인 방법이다. 그러나 원격 지도 학습은 노이즈 데이터 문제가 있으며, 노이즈 데이터는 두 가지 유형으로 나눌 수 있다. 첫 번째는 관계 표현 자체가 없는 문장이 연결된 경우이고, 두 번째는 관계 표현은 있는 문장이지만 다른 관계 표현도 함께 가지는 경우이다. 주로 문장의 길이가 길고 복잡한 문장에서 두 번째 노이즈 데이터 유형이 자주 발견된다. 본 연구는 두 번째 경우의 노이즈를 줄임으로써 관계 추출 모델의 성능을 향상시키기 위해 확장된 최단 의존 경로를 사용하는 CNN 기반 관계 추출 모델을 제안한다. 본 논문에서 제안한 방법의 우수성을 입증하기 위해, 한국어 위키피디아와 DBpedia 기반의 원격 지도 학습 데이터를 수집하여 평가한 결과, 본 논문에서 제안한 방법이 위 문제를 해결하는데 효과적이라는 것을 확인하였다.

  • PDF

프레임넷을 통한 디비피디아 온톨로지 인스턴스 생성의 커버리지 개선 (DBpedia Ontology Population Coverage Enhancement with FrameNet)

  • 함영균;서지우;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-37
    • /
    • 2014
  • 비구조 텍스트로부터 지식을 추출하여 온톨로지 기반 지식베이스를 구축하는 연구가 최근 국내외로 다양하게 진행되고 있다. 이러한 목적을 달성하기 위해서는 자연어 텍스트에서 나타난 지식요소들의 다양한 속성들을 표현할 수 있는 온톨로지를 필요로 한다. 디비피디아 역시 위키피디아의 지식들을 표현하기 위하여 디비피디아 온톨로지를 사용한다. 그러나 디비피디아 온톨로지는 위키피디아의 인포박스에 기반한 온톨로지로서, 요약된 정보를 설명하기에는 적합할 수 있으나 자연어 텍스트로 표현된 다양한 지식표현을 충분히 커버하는 것은 보증되지 않는다. 본 논문에서는 자연어 텍스트로 쓰여진 지식을 디비피디아 온톨로지가 충분히 표현할 수 있는지를 검토하고, 또한 그 불완전성을 프레임넷이 어느정도까지 보완할 수 있는지를 살핀다. 이를 통해 한국어 텍스트로부터 지식베이스를 자동구축하는 온톨로지 인스턴스 자동생성 연구의 방향으로서 디비피디아 온톨로지와 프레임넷의 효용성을 전망한다.

  • PDF

무제한 정보 추출을 이용한 지식베이스 확장 (Incremental Ontology Building Using Open Information Extraction)

  • 김병수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2014
  • 지식 베이스(Knowledge Base)는 주어진 질의 문에 대한 잠재적인 답과 답에 대한 단서가 될 수 있는 구조화된 형태의 정보를 포함하고 있기 때문에 질의응답 시스템에서 매우 중요하다. 하지만 비록 DBpedia, Freebase, YAGO 등과 같이 이용 가능한 여러 개의 지식 베이스가 존재함에도 불구하고 이러한 지식 베이스에 포함되어 있는 정보는 웹(Web)상에 존재하는 정보에 비하면 매우 제한적이다. 본 논문에서는 무제한 정보 추출 기술을 이용하여 정형화되지 않은 텍스트로부터 트리플(Triple)을 추출하고, 추출된 트리플의 각 개체 및 관계 어휘를 대상 온톨로지(Ontology) 상의 어휘에 사상시킴으로써 지식 베이스를 확장 시키는 방법을 제안한다. 이를 통하여 무제한 정보 추출 방법과 명확화(Disambiguation) 기술이 지식 베이스를 확장시키는데 어떻게 사용될 수 있고, 어떠한 요소가 전체 시스템의 주된 성능 저하를 일으키며 개선되어야 하는지 알아보도록 한다.

  • PDF

보기 검증을 통한 일본 센터 시험 문제 해결 (Solving Japanese Center Exam with Choice Verification)

  • 권순철;남대환;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-193
    • /
    • 2015
  • 이 논문에서는 한국의 수능 시험에 대응하는 일본 센터 시험의 세계사B 문제를 해결하는 시스템을 만들고 그 성능을 평가했다. 이 시스템은 문제의 각 보기의 신뢰도를 검증하여 어떤 보기가 참인지를 결정한다. 보기 검증을 위해 지식 베이스 기반, 정보 검색 기반, 시간적 제약 기반 검증을 사용하였다. 성능 평과 결과 6개년도 시험 중 5개 시험에서 통계적으로 의미 있는 결과를 얻었다. 이 시스템은 영어를 대상으로 하나, 한국어에도 존재하는 리소스를 사용했기 때문에 한국어에서도 같은 방법론을 적용할 수 있을 것으로 본다. 후속 연구로는 보기의 의미적 분석과 개체명 이외의 정보에 대한 검색이 필요하다.

  • PDF

한국어 디비피디아의 자동 스키마 진화를 위한 방법 (A method of Automatic Schema Evolution on DBpedia Korea)

  • 김선동;강민서;이재길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2014
  • 디비피디아 온톨로지는 위키피디아에서 구조화된 데이터를 추출한 지식 베이스이다. 이러한 지식 베이스의 자동 증강은 웹을 구조화하는 속도를 증가시키는데 큰기여를 할 수 있다. 본 연구에서는 한국어 디비피디아를 기반으로 새로운 트리플을 입력받아 기존의 지식 베이스를 자동 증강시키는 시스템을 소개한다. 스키마를 자동 증강하는 두 가지 알고리즘은 최하위 레벨인 인스턴스가 지닌 프로퍼티, 즉 rdf-triple 단위에서 진행되었다. 알고리즘을 사용한 결과 첫째, 확률적 격상 방법을 통해 단계별로 입력받는 인스턴스와 하위 클래스의 프로퍼티를 이용하여 상위 클래스의 스키마가 정교해졌다. 둘째, 이를 바탕으로 타입 분류가 되어 있지 않았던 인스턴스들이 가장 가까운 타입에 자동 분류되었다. 지식 베이스가 정교해지면서 재분류된 인스턴스와 새로운 트리플셋을 바탕으로 두 가지 알고리즘은 반복적으로 작동하며, 한국어 디비피디아 지식 베이스의 자동 증강을 이루었다.

키워드 패턴을 이용한 질의유형 분류 시스템 구현 (Implementation of a Question Type Classification System using Keyword Patterns)

  • 안혁주;김민경;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.813-815
    • /
    • 2015
  • 질의응답 시스템에서 정답선택의 정확률을 향상시키기 위해 본 논문은 패턴과 휴리스틱을 기반으로 하는 질의유형 추출 시스템을 구현하는 방법을 제안한다. 질의유형은 DBPedia에서 사용하는 클래스타입을 기반으로 추출되며 질의유형에 포함하는 키워드패턴들을 수집하여 키워드패턴 데이터를 생성한다. 그 후 한국어 질의에서 많이 발생하는 유형을 분석하여 휴리스틱을 이용해 사용자가 의도한 질의 유형을 출력한다. 제안시스템은 기존 연구에 비해 구축과 수정이 쉽다는 장점이 있다.