• 제목/요약/키워드: DBpedia

검색결과 30건 처리시간 0.023초

Semantic Similarity-Based Contributable Task Identification for New Participating Developers

  • Kim, Jungil;Choi, Geunho;Lee, Eunjoo
    • Journal of information and communication convergence engineering
    • /
    • 제16권4호
    • /
    • pp.228-234
    • /
    • 2018
  • In software development, the quality of a product often depends on whether its developers can rapidly find and contribute to the proper tasks. Currently, the word data of projects to which newcomers have previously contributed are mainly utilized to find appropriate source files in an ongoing project. However, because of the vocabulary gap between software projects, the accuracy of source file identification based on information retrieval is not guaranteed. In this paper, we propose a novel source file identification method to reduce the vocabulary gap between software projects. The proposed method employs DBPedia Spotlight to identify proper source files based on semantic similarity between source files of software projects. In an experiment based on the Spring Framework project, we evaluate the accuracy of the proposed method in the identification of contributable source files. The experimental results show that the proposed approach can achieve better accuracy than the existing method based on comparison of word vocabularies.

연결 데이터 환경에서 접근제어를 위한 RBAC 모델 (A RBAC Model for Access Control in Linked Data Environments)

  • 이종현;김장원;정동원;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.181-184
    • /
    • 2010
  • 이 논문에서는 Linking Open Data 프로젝트를 기반으로 개발된 어플리케이션들의 접근제어를 위하여 기존 RBAC 모델을 연결 데이터에 적용 가능하도록 확장한 모델을 제안한다. 제안 모델은 온톨로지의 구조에 RBAC 모델에 적용할 수 있도록 RBAC 모델에 사용자를 위한 제약조건을 온톨로지로 표현하였으며, 지능형 엔진을 통해 사용자에게 적합한 권한을 추론한다. 사용자에 적합한 접근권한을 주기 위해 FOAF, flickr, 트위터 등의 데이터가 연결되어있는 연결 데이터로부터 사용자 프로파일을 확장할 수 있는 정보를 획득할 수 있으며, 이를 기존 정보에 확장하여 사용자의 권한을 부여한다. 본 논문에서 제안한 모델의 실효성을 검증하기 위하여 DBpedia Mobile을 위한 접근제어 시스템을 설계하였으며 안드로이드 SDK 환경에 프로토타입을 구현하여 제안 모델을 연결 데이터 환경의 어플리케이션에 적용 가능함을 보였다.

다중 정보와 Self-Attention을 이용한 관계 추출 (Relation Extraction Using Self-attention with Multi Grained Information)

  • 김정무;이승우;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2019
  • 관계 추출은 문서에서 존재하는 트리플(주어, 관계어, 목적어)형식에 해당하는 단어를 추출하는 작업을 뜻한다. 본 논문에서는 멀티헤드 셀프 어텐션을 이용하여 트리플 중 주어나 목적어를 찾는 구조를 제안한다. 한국어 위키피디아와 DBpedia의 관계어를 단어 임베딩을 통해 벡터를 생성하고 입력한다. 초록과 관계어의 어텐션 이후 멀티 헤드 셀프 어텐선 구조를 통해 초록 중 관계어와 관련 있는 단어들의 가중치가 높아 진다. 멀티헤드 셀프 어텐션 과정을 반복하여 주요 단어들의 가중치가 계속해서 높아진다. 이를 입력으로 하여 정답이 될 단어의 시작과 끝을 선택한다. 제안 방법으로 직접 구축한 한국어 관계 추출 데이터셋을 대상으로 F1 0.7981의 성능을 보였다. 제안 방법은 관계어와 같이 단순한 정보만을 이용하고도 초록에서 적절한 정답 단어를 추출할 수 있음을 확인하였다. 관계어의 범위를 확장함으로서 나아가 육하원칙(5W1H)과 같은 이벤트의 추출에도 활용할 수 있을 것이다.

  • PDF

방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축 (Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality)

  • 전희선;김현호;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

LOD 클라우드에서의 연결정책 기반 동일개체 심층검색 및 정제 시스템 구현 (Implementation of Policy based In-depth Searching for Identical Entities and Cleansing System in LOD Cloud)

  • 김광민;손용락
    • 인터넷정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.67-77
    • /
    • 2018
  • 본 연구에서는 동일연결트리플들을 생성하는 대신 각 LOD마다 연결정책을 수립, 공개하고 검색 시점에서 참조하는 방식으로 개체간의 동일성을 파악하는 방안과 이러한 연결정책을 명세하기 위한 어휘를 제안하였다. 또한, 연졀정책이 운영되는 환경에서 여러 LOD들에 걸친 심층검색이 실질적으로 진행되는 것을 확인하기 위하여 PISC(Policy based In-depth Searching and Cleansing)을 구현하였으며 이를 Github에 공개하였다. LOD 클라우드는 여러 LOD들의 자발적인 참여로 이루어짐에 따라 검색된 개체들의 동일성에 대한 평가가 필요하다. 이에, PISC는 개체간 동일성 평가를 통하여 사용자가 요구한 동일수준 이상의 개체들로 정제된 검색결과를 제공한다. 검색결과로는 RDF로 모델링된 개체별 상세 검색내용과 이에 대한 의미적 구조인 온톨로지를 함께 제공된다. PISC에 대한 실험은 DBpedia의 5개 LOD를 대상으로 진행하였으며 소스와 타겟 RDF 트리플 목적어의 유사도를 0.9 정도로 요구할 경우 검색결과가 적절한 확장률과 포함률을 가지는 것으로 확인하였다. 또한, 연결정책에는 3개 이상의 타겟LOD를 명세할 경우 동일성이 충분히 검증된 개체들을 확보할 수 있는 것으로 확인하였다.

한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소 (A Non-morphological Approach for DBpedia URI Spotting within Korean Text)

  • 김영식;함영균;김지성;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

링크드 데이터 방식을 통한 서지 정보의 확장에 관한 연구 (Extending Bibliographic Information Using Linked Data)

  • 박지영
    • 정보관리학회지
    • /
    • 제29권1호
    • /
    • pp.231-251
    • /
    • 2012
  • 본 연구에서는 서지 정보를 확장하기 위한 방안으로 링크드 데이터를 선정하였다. 링크드 데이터는 웹 공간을 통해 공유 가능한 식별기호와 데이터 구조 및 링크 정보를 제공하기 때문이다. 특히 링크드 데이터는 서지 온톨로지와 결합하여 서지데이터를 확장시키는데 유용하다. 이에 링크드 데이터와 서지 온톨로지를 분석하고, 연계 가능한 링크드 데이터를 검토하였다. 그리고 이를 바탕으로 링크드 데이터로 구축된 기존의 전거 데이터 및 서지 데이터를 연계하였다. 이러한 실험적 연계를 통해 향후 링크드 데이터를 효과적으로 활용하기 위한 과제를 도출할 수 있었다. 즉, 1) 다양한 링크드 데이터 중에서 각 기관에서 적합한 데이터를 선정할 수 있어야 하며, 2) 선정된 링크드 데이터를 연계하기 위한 기준을 정립해야 하고, 마지막으로 3) 자관의 고유한 데이터를 개발하여 이를 다시 공유해 나가야 할 것을 제안하였다.

학술정보 시각화 서비스 개발에 관한 연구 (Study on Development of Journal and Article Visualization Services)

  • 조성남;서태설
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.183-196
    • /
    • 2016
  • 과학기술의 지식화 매체로서 가장 대표적인 것이 학술지라 할 수 있다. 그런데, 대부분의 정보가 문자 위주로 서비스되고 있어서, 연구자들이 검색 결과를 하나하나 확인해야 하기 때문에 연구 내용 파악에 많은 시간이 소요된다. 학술정보의 경우도 시각화한다면 원하는 정보를 보다 직관적이고 효과적으로 찾을 수 있을 것이다. 본 논문에서는 학술지 모델과 논문기사 모델을 제시하고, 각 정보 항목에 적합한 시각화 방법을 활용해서 시각화를 수행하였고, LOD(Linked Open Data) 인터링킹(Inter-linking)을 통해서 태그클라우드 상의 단어의 의미를 해설해주는 서비스도 개발 하였다.

효과적인 지식확장을 위한 LOD 클라우드에서의 변화수용적 심층검색 (Change Acceptable In-Depth Searching in LOD Cloud for Efficient Knowledge Expansion)

  • 김광민;손용락
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.171-193
    • /
    • 2018
  • 본 연구는 시멘틱 웹의 실질적 구현체인 LOD 클라우드에서 연결정책을 활용함으로써 LOD들간 연결을 효과적으로 제공하고 LOD의 변경된 내용을 검색결과에 빠짐없이 반영할 수 있는 방안을 제시한다. 현재 LOD 클라우드에서는 개체간 연결은 를 이용하여 개체들이 동일함을 명시적으로 기술하는 방식으로 이루어져 있다. 하지만, 이러한 명시적 연결방식은 LOD 클라우드 규모의 방대함에도 불구하고 개체간 동일성을 개체단위에서 파악하여야 하는 어려움이 있으며 주기적으로 LOD에 추가하여야 함에 따라 검색 시 개체들이 누락되는 한계가 있다. 이를 극복하기 위하여 본 연구에서는 명시적 연결을 생성하는 대신 LOD별로 연결하고자 하는 LOD와의 연결정책을 수립하여 LOD와 함께 공개하는 방식을 제안한다. 연결정책을 활용함으로써 연결하여야 할 동일개체를 검색시점에서 파악할 수 있으므로 추가되었던 개체들을 누락됨 없이 검색결과에 포함시킬 수 있고 LOD 클라우드에서의 연결성도 효과적으로 확충할 수 있다. 확충된 연결성은 정보의 지능적 처리의 선행과정인 지식확장의 근간이 된다. 연결정책은 연결하고자 하는 소스와 타겟 LOD의 주어 개체들간의 동일성을 평가하는데 도움이 되는 술어 쌍을 명세하는 방식으로 수립하며 검색 시 이러한 술어쌍에 대응하는 RDF 트리플을 검색하고 이들의 목적어들이 충분히 동일한 것인가를 평가하여 주어개체들의 동일수준을 판단한다. 본 연구에서는 이러한 연결정책을 이용하여 여러 LOD들을 심층적으로 검색하는 시스템을 구현하였다. 검색과정에서는 기존 명시적 연결들도 함께 활용하도록 구현하였다. 검색시스템에 대한 실험은 DBpedia의 주요 LOD들을 대상으로 진행하였다. 실험결과 연결대상 개체들의 목적어들이 0.8 ~ 0.9의 유사수준을 가지는 경우 적정한 확장성을 가지고 충분히 신뢰적인 개체들을 적절하게 포함하는 것으로 확인하였다. 또한, 개체들은 8개 이상의 동일연결을 제공하여야 검색결과가 신뢰적으로 활용될 수 있을 것으로 파악되었다.

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 (Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data)

  • 김종모;이정빈;전호철;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.145-154
    • /
    • 2022
  • 자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.