• 제목/요약/키워드: 온톨로지 정보검색

검색결과 438건 처리시간 0.026초

클라우드 컴퓨팅 환경에서의 대용량 RDFS 추론을 위한 분산 테이블 조인 기법 (Distributed Table Join for Scalable RDFS Reasoning on Cloud Computing Environment)

  • 이완곤;김제민;박영택
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.674-685
    • /
    • 2014
  • 지식 서비스 시스템이 효과적인 서비스를 제공하기 위해서는, 명시된 지식을 바탕으로 새로운 지식을 추론 할 수 있어야 한다. 대부분 지식 서비스 시스템은 온톨로지로 지식을 표현한다. 실 세계의 지식 정보의 양은 점점 방대해지고 있으며, 따라서 대용량 온톨로지를 효과적으로 추론하는 기법이 요구되고 있다. 본 논문은 클라우드 컴퓨팅 환경을 기반으로 대용량 온톨로지를 RDFS수준으로 추론하기 위한 분산 테이블 조인 방법을 제안하고, 성능을 평가한다. 본 논문에서 제안하는 RDFS 추론은 분산 파일 시스템 환경에서 RDFS 메타 테이블을 기반으로 맵-리듀스를 적용한 방식과, 맵-리듀스를 사용하지 않고 클라우드 컴퓨터의 메모리만 사용한 방식에 초점을 맞추었다. 따라서 본 논문에서는 제안하는 각 기법에 대한 추론 시스템 구조와 RDFS 추론 규칙에 따른 메타 테이블 설계 및 추론 전략 알고리즘에 대해서 중점적으로 설명한다. 제안하는 기법의 효율성을 검증하기 위해 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM1000부터 LUBM6000을 대상으로 실험을 수행 하였다. 가장 큰 LUBM6000(8억 6천만 트리플)의 경우, 메타 테이블 기반의 RDFS 추론 기법은 전체 추론 시간이 13.75분(초당 1,042 트리플 추론) 소요된 반면, 클라우드 컴퓨터의 메모리를 적용한 방식은 7.24분(초당 1,979 트리플 추론)이 소모되어 약 2배정도 빠른 추론 속도를 보였다.

저자명 모호성 해결을 위한 개념망 기반 카테고리 유틸리티 (WordNet-Based Category Utility Approach for Author Name Disambiguation)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.225-232
    • /
    • 2009
  • 동명이인의 저자를 구분하는 것은 웹에서 문서 색인과 검색의 성능을 향상시킨다. 동명이인의 저자 구분은 웹사이트 상에서 같은 이름을 갖는 여러 명의 사람이 존재했을 때 야기되는 여러 가지 문제점을 해결한다. 본 논문은 동명이인의 저자 구분을 위해 개념망 기반의 카테고리 유틸리티를 제안한다. 따라서 본 논문에서는 학술회의 웹 사이트를 대상으로 제안하고자 하는 방법을 설명한다. 제안된 방법은 저자가 가지고 있는 다양한 속성(제목, 요약, 공동저자, 소속)을 반영한 저자 온톨로지와 개념망을 활용한다. 저자 온톨로지는 OWL API와 휴리스틱한 방법을 사용하여 반자동으로 구축 되었다. 저자명 모호성 해결은 개념망 기반 카테고리 유틸리티를 사용하여 저자 온톨로지 내에 존재하는 동명이인 저자(Candidate Authors)들로부터 해당 논문에 관련된 정확한 저자를 결정한다. 카테고리 유틸리티는 각각의 저자간의 intra-class 유사성 와 inter-class 비유사성을 기본적인 개념으로 하는 평가 함수다. 이에 비해 개념망 기반 카테고리 유틸리티는 모호성 해결을 위해 개념망이 갖는 개념 정보를 추가로 활용한다. 실험 결과를 분석한 결과 개념망 기반 카테고리 유틸리티가 일반적인 카테고리 유틸리티에 비교해서, 저자명 모호성 해결에 있어서 10% 정도 우수한 성능을 보였으며, 전체적으로 98%의 정확도를 보였다.

관계 데이터 모델 기반 라이프로그 관리 시스템과 그 응용 (A Lifelog Management System Based on the Relational Data Model and its Applications)

  • 송인철;이유원;김현규;김항규;함덕민;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권9호
    • /
    • pp.637-648
    • /
    • 2009
  • 하드 디스크 저장 매체의 가격이 하락함에 따라 가까운 시일 안에 개인 컴퓨터에 1TB가 넘는 하드 디스크가 기본으로 장착될 것으로 예상된다. 한 사람이 한 달에 1GB의 데이터를 저장한다고 가정하면 대략 1TB면 그 사람의 일생 동안에 걸친 데이터를 저장할 수 있다. 이에 따라 개인이 일상 생활에서 보고들은 것을 기록한 라이프로그(lifelog)를 효과적으로 관리하는 라이프로그 관리에 대한 연구가 활발히 이루어지고 있다. 지금까지 관계 데이터 모델 기반, 온톨로지 기반, 파일 시스템 기반 라이프로그 관리 시스템(LMS: Lifelog Management System) 등 다양한 LMS들이 제안되었지만, 관계 데이터 모델 기반 LMS는 질의 처리 성능이 뛰어난 반면 복잡한 질의를 잘 처리하지 못하고 온톨로지 기반 LMS는 복잡한 질의를 처리할 수 있는 반면 질의 처리 성능이 떨어지며 파일 기반 LMS는 질의만 지원하는 등 저마다 장단점을 가진다. 또한 이들 시스템들은 라이프로그 그룹을 효과적으로 관리하기 위한 기능을 제공하지 못하고 있고 효과적인 검색을 위해 라이프로그의 태그(데타데이터)를 수정하거나 새로운 태그를 추가하기 위한 편리한 인터페이스를 제공하지 못하고 있다. 본 논문에서는 이러한 문제점들을 해결하기 위해 관계 데이터 모델 기반 라이프로그 관리 시스템을 제안한다. 제안하는 시스템은 라이프로그를 관계 데이터 모델로 모델링하고 사용자 질의를 SQL로 변환해 처리함으로써 질의 처리 성능이 뛰어나다. 또한 복잡한 질의를 잘 처리하지 못하는 관계 데이터 모델 기반 LMS의 단점을 보완하기 위해 찾으려는 라이프로그와 직접적으로 관련 있는 라이프로그에 대한 정보에 기반해 라이프로그를 검색하는 단순화된 관계 질의를 지원한다. 이와 더불어, 제안하는 시스템은 라이프로그 그룹 생성, 편집, 검색, 플레이 및 공유 기능을 제공함으로써 라이프로그 그룹에 대한 효과적인 관리를 지원한다. 마지막으로 제안하는 LMS에서 제공하는 라이프로그 태깅 도구는 태그 추상화를 통해 여러 종류의 태그를 손쉽게 수정하거나 추가할 수 있는 기능을 제공한다. 본 논문에서는 제안하는 시스템의 설계 및 구현을 설명하고 이 시스템을 활용한 다양한 응용을 소개한다.

OntCIA: 시맨틱 웹 기술 기반의 소프트웨어 변경 영향분석 시스템 (OntCIA: Software Change Impact Analysis System Based on the Semantic Web)

  • 송희석
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.111-131
    • /
    • 2004
  • 소프트웨어 유지보수 단계에서는 고객니즈, 마케팅 정책, 법, 제도의 변화 등으로 인한 다양한 시스템 변경 요구를 수용하여야 한다. 그러나, 소프트웨어의 비가시성문제로 인해 새로운 변경 요구사항 발생 시 수정 대상 모듈을 발견하는데 지대한 시간이 요구될 뿐 아니라 모듈의 재 사용을 어렵게 만들어 중복 모듈이 양산 됨으로써 향후 장애의 근원이 되는 악순환이 전개된다. 이에 본 연구에서는 시맨틱 웹(Semantic Web) 기술을 활용하여 이동통신사의 과금/청구 도메인의 관리자와 개발자들이 공유하고 있는 개념과 개념간 관계를 명시적으로 표현하고 이를 이용하여 변경대상 모듈을 쉽게 발견 할 뿐 아니라, 발견된 모듈에 대해 구조적 호출 및 조립 관계를 분석하도록 지원하는 온톨로지 기반 변경 영향 분석 시스템(OntCIA; Ontology based Change Impact Analysis System)을 제시한다. OntCIA는 스트링 매칭과는 근본적으로 다른 의미적 모듈검색을 지원하며 잦은 변경이 요구되는 호출 및 조립 구조 정보는 데이터 베이스에서 관리하고 도메인 지식은 온톨로지로 관리함으로써 유지 보수가 용이한 구조를 가진다.

  • PDF

ISNI Korea 컨소시엄의 저작권 권리 단체 데이터 공동 활용을 위한 기술요소 도출 연구 (A Study on Derivation of Technical Elements for Joint Use of Copyright Rights Group Data by ISNI Korea Consortium)

  • 박진호;곽승진;이승민;오상희
    • 한국비블리아학회지
    • /
    • 제31권1호
    • /
    • pp.379-392
    • /
    • 2020
  • 본 연구는 한국 인명, 단체명에 대한 등록 책임기관인 국립중앙도서관이 중심이 되어 운영중인 ISNI Korea 컨소시엄의 데이터 활용성을 높이기 위한 기술 요소를 제시하는 것이 목적이다. ISNI Korea 컨소시엄의 경우는 서지 관련 개인, 단체명 정보 외에 다양한 창작물 관련 정보 등록을 목적으로 한다. 이를 위해 본 연구에서는 데이터 제공기관 협의체인 ISNI Korea 컨소시엄인 저작권 단체의 메타데이터 현황과 ISNI의 링크드 데이터 명세서를 검토하여 향후 필요한 기술 요소를 도출하였다. 그 결과 메타데이터 측면에서는 데이터 입수, 정제, 저장, 식별자 관리, 컨소시엄 메타데이터 관리로 총 5개, 링크드 데이터 관점에서 RDF 데이터 관리(저장소), RDF 데이터 발행, RDF 데이터 검색, RDF 데이터 조회, RDF 데이터 다운로드, 온톨로지 조회, 표준용어 조회, 매핑 정보 관리 총 8개 기술요소를 도출하였다.

시소러스 국제표준 기반 기본 범주의 확장에 관한 연구 (A Study on the Expansion of Fundamental Categories Based on Thesaurus International Standards)

  • 장인호
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.273-291
    • /
    • 2019
  • 본 연구는 시소러스 국제표준(ISO 25964-1) 제11절 "패싯 분석"과 제5절의 "시소러스에 있어서의 개념 및 그들의 범위"를 분석하여, 제11절에 예시된 기본 범주(대상, 물질, 에이전트, 행위, 장소, 시간 등)를 확장하는 데에 목적이 있다. 이를 위해 온톨로지의 최상위 개념(구구리일랑(溝口理一郞)의 상위 온톨로지인 YAMATO)과 기존의 기본 범주들(Ranganathan의 PMEST, FRBR 제3집단, CRG 13 범주 등)을 참조하여, 기본 범주에 정신적 실체를 명시적으로 추가하고, 일부를 조정하여 기본 범주를 확립했다. 또한, 확립된 기본 범주를 Ranganathan의 PMEST의 구체성/추상성과 구구리일랑(溝口理一郞)의 YAMATO의 독립성/종속성을 기반으로 재편성 및 구조화하였다. 최상위 범주를 독립 실체와 종속 실체로 이분하고 하위 구분으로 전자는 28범주, 후자는 2범주를 두었다. 본 연구의 결과는 기본 범주의 활용이 기대되는 분류, 택소노미, 시소러스 등의 제어 어휘 및 정보검색용 온톨로지를 생성할 때 최상위 개념으로서 재활용되고 참조할 수 있을 것으로 기대된다.

효과적인 지식확장을 위한 LOD 클라우드에서의 변화수용적 심층검색 (Change Acceptable In-Depth Searching in LOD Cloud for Efficient Knowledge Expansion)

  • 김광민;손용락
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.171-193
    • /
    • 2018
  • 본 연구는 시멘틱 웹의 실질적 구현체인 LOD 클라우드에서 연결정책을 활용함으로써 LOD들간 연결을 효과적으로 제공하고 LOD의 변경된 내용을 검색결과에 빠짐없이 반영할 수 있는 방안을 제시한다. 현재 LOD 클라우드에서는 개체간 연결은 를 이용하여 개체들이 동일함을 명시적으로 기술하는 방식으로 이루어져 있다. 하지만, 이러한 명시적 연결방식은 LOD 클라우드 규모의 방대함에도 불구하고 개체간 동일성을 개체단위에서 파악하여야 하는 어려움이 있으며 주기적으로 LOD에 추가하여야 함에 따라 검색 시 개체들이 누락되는 한계가 있다. 이를 극복하기 위하여 본 연구에서는 명시적 연결을 생성하는 대신 LOD별로 연결하고자 하는 LOD와의 연결정책을 수립하여 LOD와 함께 공개하는 방식을 제안한다. 연결정책을 활용함으로써 연결하여야 할 동일개체를 검색시점에서 파악할 수 있으므로 추가되었던 개체들을 누락됨 없이 검색결과에 포함시킬 수 있고 LOD 클라우드에서의 연결성도 효과적으로 확충할 수 있다. 확충된 연결성은 정보의 지능적 처리의 선행과정인 지식확장의 근간이 된다. 연결정책은 연결하고자 하는 소스와 타겟 LOD의 주어 개체들간의 동일성을 평가하는데 도움이 되는 술어 쌍을 명세하는 방식으로 수립하며 검색 시 이러한 술어쌍에 대응하는 RDF 트리플을 검색하고 이들의 목적어들이 충분히 동일한 것인가를 평가하여 주어개체들의 동일수준을 판단한다. 본 연구에서는 이러한 연결정책을 이용하여 여러 LOD들을 심층적으로 검색하는 시스템을 구현하였다. 검색과정에서는 기존 명시적 연결들도 함께 활용하도록 구현하였다. 검색시스템에 대한 실험은 DBpedia의 주요 LOD들을 대상으로 진행하였다. 실험결과 연결대상 개체들의 목적어들이 0.8 ~ 0.9의 유사수준을 가지는 경우 적정한 확장성을 가지고 충분히 신뢰적인 개체들을 적절하게 포함하는 것으로 확인하였다. 또한, 개체들은 8개 이상의 동일연결을 제공하여야 검색결과가 신뢰적으로 활용될 수 있을 것으로 파악되었다.

디지털 아카이브즈의 문제점과 방향 - 문화원형 콘텐츠를 중심으로 - (Digital Archives of Cultural Archetype Contents: Its Problems and Direction)

  • 함한희;박순철
    • 한국비블리아학회지
    • /
    • 제17권2호
    • /
    • pp.23-42
    • /
    • 2006
  • 본고는 문화원형콘텐츠를 유통시키고 있는 문화콘텐츠닷컴의 디지털아카이브 시스템에 주목해서 문제점을 분석하고 대안을 제시하는 것이 목적이다. 문화원형콘텐츠는 전통문화와 컴퓨터기술을 접목시켜 개척한 새로운 분야이다. 정부에서는 이 산업을 육성해서 한국문화의 세계화와 국가 경쟁력을 강화시킬 의도를 가지고 있다. 우리나라의 역사와 전통 풍물 생활 전승 예술 지리지 등 다양한 분야의 문화원형을 디지털 콘텐츠화하여 문화산업에 필요한 창작소재로 제공하는 것이 그 핵심내용이다. 아울러 디지털 콘텐츠 유통체계 정립과 저작권 관리를 통해서 공공부문 문화콘텐츠의 산업적 활용도를 제고하려는 의도도 포함된다. 본고에서 다루는 대상자료는 현재 문화콘텐츠닷컴에서 유통, 관리되고 있는 문화원형콘텐츠들이다. 이 성과물들은 2002년부터 2005년까지 개발되어서 문화콘텐츠닷컴 DB에 구축되어 있다. 이 자료들을 통해서 현재의 디지털아카이브 시스템의 문제점을 분석하였고, 현재의 시스템이 안고 있는 한계점을 요약하면 다음과 같다. 첫째는 각 자료에서 사용하는 주요 용어의 선택에 따라 유사한 자료들이 서로 다른 주제로 분류되면서 다른 항목에 속하게 되는 것이다. 둘째는, 따라서 서로 다른 항목 간에 교차검색이 이루어지지 않는 한계점이 있다. 현재의 제 문제를 해결할 수 있는 방법으로 본고에서는 온톨로지 기능을 포함한 데이터마이닝시스템을 이용해서 풍부한 지식정보표현과 활용이 가능한 디지털아카이브 시스템을 제안하고 있다. 데이터마이닝은 다섯 가지의 방법으로 가능하다. 의미검색 문서요약 문서클러스터링 문서분류 그리고 주제추적이다. 최근에 빠르게 개발되고 있는 디지털 신기술도 인문학과 긴밀하게 연결되지 않으면, 그 활용도가 제한적이라는 점을 본고를 통해서 지적하였다. 창작소재로서의 문화원형콘텐츠의 활용도를 크게 향상시킬 수 있는 길은 바로 신지식관리를 위한 통학적(uni-discipline) 접근이라는 점을 일깨우고자 한다.

온톨로지 기반 영화 메타데이터간 연관성을 활용한 영화 추천 기법 (The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata)

  • 김재영;이석원
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.25-44
    • /
    • 2013
  • 최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. 하지만 서비스되는 콘텐츠의 양이 방대하여 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 콘텐츠의 검색 시간과 노력이 증가 하게 되었다. 이를 극복 하기 위해 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다. 기존의 연구에는 사용자의 선호도 분석을 통하여 영상 콘텐츠를 추천하거나 비슷한 성향을 가지는 사용자들을 분류하여 콘텐츠를 추천하는 기법들이 연구되어 왔다. 본 논문에서는 영상 콘텐츠 중 영화의 추천을 위해 사용자 개인의 영화 메타데이터의 선호도를 분석하고, 영화의 메타데이터와 영화의 유사성을 도출하여 이를 기반으로 영화 추천 기법을 제안한다. 영화의 특징을 담고 있고, 사용자의 영화 선호도에 영향을 끼치는 장르, 줄거리, 배우, 키워드 등의 영화 메타데이터를 기반으로 온톨로지를 구축하고, 확률 기법을 통한 메타 데이터간의 유사성을 분석하여 유사 메타데이터를 연결한다. 또한 사용자의 선호도와 그룹을 정의하고, 사용자 정보를 활용하기 위한 사용자 모델을 정의한다. 제안하는 추천 기법은 1) 사용자 정보기반의 후보 영화 검색 컴포넌트, 2) 사용자 선호기반의 후보 영화 검색 컴포넌트, 3) 1)과 2)의 결과를 통합하고 가중치를 부여하는 컴포넌트, 4) 최종결과의 분석을 통한 개인화된 영화 추천 컴포넌트 등 총 4가지 컴포넌트로 구성된다. 제안하는 추천 기법의 실험을 위하여 20대 남/녀 10명씩 20명을 대상으로 실험을 진행하였으며, 실험결과 평균 Top-5에서 2.1개 Top-10에서 3.35개 Top-20에서 6.35의 영화가 보고 싶은 영화로 선택되었다. 본 논문에서는 영화 메타데이터간의 연관성 도출을 통하여 영화간의 유사성을 도출하고 이를 기반으로 사용자의 기본적인 정보를 활용한 추천뿐만 아니라 사용자가 예상하지 못한 영화의 추천이 가능하다.

오픈소스 도구를 이용한 기록정보 링크드 오픈 데이터 구축 절차 연구 (A Study on the Procedure for Constructing Linked Open Data of Records Information by Using Open Source Tool)

  • 하승록;임진희;이해영
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.341-371
    • /
    • 2017
  • 웹을 통해 제공되는 서비스는 현재 문서중심에서 데이터 중심으로 변화를 겪고 있으며, 그 변화의 중심에는 Linked Open Data(LOD)가 존재한다. 본 연구는 이러한 흐름에 부응하여 기록정보의 LOD 구축을 위한 구체적인 절차와 방법을 살펴보고자 하였다. 또한 소규모 아카이브의 서비스 지속가능성을 염두에 두고, 오픈소스 소프트웨어를 활용하여 LOD 구축 절차를 진행하는 범례를 제시하고자 했다. 이에 본 연구에서는 LOD 구축을 위한 5단계의 프레임워크를 제안했다. 그리고 일상아카이브인 '인간과 기억 아카이브'의 일기 기록물 컬렉션을 수집하여, 제안된 5단계 프레임워크에 따라 오픈소스 소프트웨어인 Protege와 Apache Jena Fuseki를 활용하여 POC(Proof of concept)를 진행하였다. 오픈소스를 활용하여 기록정보의 LOD를 구축한 뒤, 상호연결(Interlinking)과 SPARQL 검색을 통해서 외부 LOD와 연결되는 모습을 확인할 수 있었다. 또한 기록정보의 LOD 구축 절차 진행과정의 경험을 바탕으로 내용정보 기술의 품질 향상, 아키비스트의 역량 고도화, 기록정보의 접근성 향상을 위한 상호연결 고도화, LOD 서비스의 수준 결정, LOD 구축을 위한 도구 선정 등, 기록관 LOD 구축을 위한 필요요건을 제시했다.