• 제목/요약/키워드: 스키마 추출

검색결과 150건 처리시간 0.025초

한국어 디비피디아의 자동 스키마 진화를 위한 방법 (A method of Automatic Schema Evolution on DBpedia Korea)

  • 김선동;강민서;이재길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2014
  • 디비피디아 온톨로지는 위키피디아에서 구조화된 데이터를 추출한 지식 베이스이다. 이러한 지식 베이스의 자동 증강은 웹을 구조화하는 속도를 증가시키는데 큰기여를 할 수 있다. 본 연구에서는 한국어 디비피디아를 기반으로 새로운 트리플을 입력받아 기존의 지식 베이스를 자동 증강시키는 시스템을 소개한다. 스키마를 자동 증강하는 두 가지 알고리즘은 최하위 레벨인 인스턴스가 지닌 프로퍼티, 즉 rdf-triple 단위에서 진행되었다. 알고리즘을 사용한 결과 첫째, 확률적 격상 방법을 통해 단계별로 입력받는 인스턴스와 하위 클래스의 프로퍼티를 이용하여 상위 클래스의 스키마가 정교해졌다. 둘째, 이를 바탕으로 타입 분류가 되어 있지 않았던 인스턴스들이 가장 가까운 타입에 자동 분류되었다. 지식 베이스가 정교해지면서 재분류된 인스턴스와 새로운 트리플셋을 바탕으로 두 가지 알고리즘은 반복적으로 작동하며, 한국어 디비피디아 지식 베이스의 자동 증강을 이루었다.

RDF/S 데이터의 관리를 위한 그래프 데이터 모델 기반 저장 기법 (Storing Scheme based on Graph Data Model for Managing RDF/S Data)

  • 김연희;최재언;임해철
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권2호
    • /
    • pp.285-293
    • /
    • 2008
  • 차세대 웹으로 인식되고 있는 시맨틱 웹에서는 정보 리소스의 개념과 의미적 관계를 정의하는 메타데이터와 온톨로지의 역할이 무엇보다 중요시되고 있다. 따라서 RDF와 RDF 스키마 같은 시맨틱 웹 언어로 표현되어 있는 시맨틱 데이터의 효과적인 저장 및 검색 기법이 요구된다. 본 논문에서는 RDF와 RDF 스키마를 함께 고려하여 시맨틱 웹 데이터의 질의 유형을 크게 3가지로 분류하였다. 그리고 RDF와 RDF 스키마가 그래프 데이터 모델로 표현이 가능하고 다양한 질의의 형태가 그래프 모델에서 추출 가능한 경로식으로 표현될 수 있다는데 초점을 맞추고 효율적인 질의 처리를 위한 저장 기법을 제안한다. 본 논문에서 제안한 저장 구조는 RDF와 RDF 스키마에 기본적으로 기술되어 있는 클래스, 프로퍼티, 리소스에 대한 정의나 계층 정보는 물론 추출 가능한 모든 경로 정보를 유지할 수 있다. 본 논문에서 제안한 저장 기법을 통해 일반적인 질의 유형은 물론 그래프 모델 상의 복잡한 경로식으로 표현되는 질의 유형에 대해서도 테이블의 조인 횟수를 최소화하면서 특정 클래스나 프로퍼티로부터 시작하는 모든 경로에 대한 질의 처리가 가능한 장점이 있다.

  • PDF

온톨로지를 적용한 생명정보 검색 시스템 (Towards Bio-Information Retrieval using Ontology)

  • 이동훈;양정진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.262-264
    • /
    • 2004
  • OMIM이나 MedLine과 같은 바이오 정보를 포함한 대규모의 데이터베이스에서의 바이오 정보검색이나 추출은 단계별 처리가 상호적인 운용에 의한 것이 아니라 수동 또는 Perl script에 의한 것이 대부분이다. 바이오정보(bio-information)의 효과적 추출과 유추를 위해서는 현재 상이한 스키마로 이루어진 다양한 데이터베이스들 간의 이질적 데이터(heterogeneous data)를 체계적이고 효율적으로 통합하는 표준 방안이 필요하다. 이를 위해서는 서로 다르게 표현된 다양한 개념간의 관계를 표현하는 지식체계가 필요하다. 본 연구에서는 이러한 지식체계인 온톨로지(ontology)와 자원 메타정보(metadata)를 표현하기 위한 국제적 표준안으로 대두되고 있는 시맨틱 웹(semantic web)에서 제공하는 온톨로지, 메타정보, 스키마 통합 안을 발전적으로 적용하여 이질적 바이오 정보의 효율적 통합처리 방안을 제시하고자 하였다.

  • PDF

주석 및 내용 기반 뉴스 동영상 검색을 위한 데이터베이스 스키마 및 질의 유형 설계 (Design of Database Schema and Query Type for Supporting Caption- and Content-based News Video Searches)

  • 전미경;김인홍;강현석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.79-84
    • /
    • 1998
  • 일반적으로 동영상 검색을 위해 주석 기반과 내용 기반 검색을 사용하는데, 주석 기반 검색은 사용자의 주관이 개입되어 일관성을 잃기 쉽고, 내용 기반 검색은 동영상 데이터가 담고 있는 의미가 추출되기 어렵다는 단점을 가지고 있다. 그래서, 본 논문에서는 이 두 검색 기법을 상호 보완하여 검색의 효율성과 정확성을 높이기 위해 통합 동영상 데이터 모델(IVDM)을 제안하고, 이것을 기반으로 뉴스 동영상 검색을 위한 데이터베이스 스키마와 질의 유형을 설계한다. 이 모델은 동영상 데이터를 계층적으로 구조화한 형태로 상위수준에서는 주제별로 부여된 메타 정보로 주석 기반 검색을 지원하고, 하위 수준에서는 동영상 데이터에서 색깔, 모양, 움직임, 질감 등의 특징 데이터를 추출하여 내용 기반 검색을 지원한다.

  • PDF

XML Schema에 대한 유효성을 보장하는 효율적인 XML Data 갱신 기법 (An Efficient Updating Method conforming to XML Schema for XML data)

  • 이지현;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.43-45
    • /
    • 2004
  • XML은 인터넷 상에서의 표준 데이터 형식으로 XML 데이터에 대한 구조적 제약 조건들은 DTD나 XML Schema에 정의한다. XML Schema에 유효한 XML 문서는 XML Schema에 정의된 모든 구조적 제약 조건들을 만족해야 하며, 갱신이 발생한 후에도 대응되는 XML Schema에 대해 유효함이 보장되어야 한다. 본 연구는 DBMS에 저장되어 있는 XML Schema에 대해 유효한 XML 데이터를 갱신 할 때 필요한 효율적인 유효 검증 기법을 제안한다. 이 유효 검증 기법에서는 유효 검증 범위를 갱신과 관련된 영역에 한정시키고 갱신 이전에 유효 검증을 수행하여 유효 여부를 판단한다. 또한 본 연구에서는 유효 검증을 위한 유효 검증 제약 조건들과 XML Schema문서의 특성을 분석하여 유효 검증 시 필요한 스키마 정보만을 효율적으로 추출할 수 있는 XML Schema 저장 방법 및 그에 따른 스키마 정보 추출 방법을 제안하고 실험을 통해 그 성능을 보인다.

  • PDF

데이터웹하우스 시스템에서 메타데이터 스키마의 설계 및 활용 (Design and Application of Metadata Schema in Datawebhouse System)

  • 박종모;조경산
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.701-706
    • /
    • 2007
  • 고객관리에 중요한 정보로 활용되는 웹로그 분석과 의사결정을 지원하기 위한 데이터웨어하우스를 결합하여 데이터웹하우스가 등장하였다. 그러나 시스템에 분산되어 저장된 정보를 통합하는 데이터웹하우스는 다양하고 이질적인 정보를 포함하므로 관리적 측면에서 복잡한 작업을 필요로 한다. 본 연구는 데이터웹하우스 환경에서 데이터를 효과적으로 관리하고 통합하기 위한 메타데이터 스키마를 제안한다. 제안된 스키마는 데이터웹하우스 개발을 지원하고 기업의 정보 자산에 대한 통합 관리를 가능케 한다. 또한 데이터웹하우스의 웹로그 추출을 위한 ETL 메타데이터를 사용하여 웹로그 데이터 처리시간을 향상시킬 수 있다.

워드넷을 이용한 스키마 엘리먼트 매칭 시스템 (Schema Element Matching System using WordNet)

  • 이민호;이원구;최윤수;윤화묵;최동훈;조민희;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.122-124
    • /
    • 2012
  • 정보의 상호운용성 확보를 위해서 여러 형태로 정의되어 있는 스키마들을 매칭하는 것은 반드시 필요한 작업이다. 워드넷은 영어의 의미 어휘목록으로 유의어 집단과 어휘 목록사이의 다양한 의미관계를 기록하여 자동화된 본문 분석과 인공지능 응용에 활용할 수 있다. 본 논문에서는 워드넷을 이용하여 스키마 엘리먼트 이름의 의미 집합을 추출하고 대응하는 엘리먼트 의미 집합과의 유사도를 측정함으로써 스키마 엘리먼트를 매칭하는 시스템을 제안한다. 본 시스템은 다중매칭된 복잡한 관계를 간단한 방법으로 단일매칭화함으로써 사용자가 직관적이고 용이하게 사용할 수 있다. 이를 통하여 데이터 통합, 변환, 분산 검색 등 정보의 상호운용이 필요한 다양한 분야에서 활용될 수 있을 것으로 기대한다.

Automatic Creation of SHACL Schemas for Validation of RDF Knowledge Graph Structures Based on RML Mappings

  • Choi, Ji-Woong
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권9호
    • /
    • pp.77-89
    • /
    • 2022
  • 본 논문에서는 RML 매핑 방식으로 구축한 RDF 지식 그래프의 구조를 묘사하고 검증할 용도의 SHACL 스키마를 자동으로 생성하는 시스템을 제안한다. 제안하는 시스템은 기존 연구와는 달리 RML 매핑 규칙 뿐만 아니라 RML 매핑의 입력인 CSV, JSON, XML, 데이터베이스와 같은 다양한 포맷의 데이터에서 추출한 메타데이터도 함께 사용하여 스키마를 생성한다. 따라서 기존 연구 기반의 스키마에서는 부재했던 데이터 타입, 문자열 길이, 값의 범위, 차수 관련 제약 조건이 스키마에 포함된다. 그리고 기존 연구에서 간과한 소위 반복된 속성 문제를 제안하는 시스템은 해결한다. 297개의 케이스로 구성된 적합성 테스트를 통해 제안된 시스템이 그래프에 대한 올바른 제약 조건을 생성함을 보여준다. 제안된 시스템은 오류가 발생하기 쉬운 기존 수동 검증 프로세스를 자동화하는 데 기여할 수 있다.

XML에 기반을 둔 C 원시 코드의 주석 관리 시스템 (An XML-based Comment Management System for C Source Code)

  • 박근옥;임종태
    • 정보처리학회논문지D
    • /
    • 제11D권4호
    • /
    • pp.799-808
    • /
    • 2004
  • C 언어가 주로 사용되는 미션 크리티컬 응용 소프트웨어 영역에는 문서화, 간결성, 정확성을 갖는 원시 코드가 요구된다. 본 연구는 XML 기반의 C 원시 코드의 주석관리 체계를 제안한다. 이 주석 관리체계는 주석 사용자 모듈, 검토자 모듈, 주석 추출 모듈, 주석 추적 연계 모듈, 주석 태그 정의 모듈, 저장관리 모들을 포함하는 6개 모듈로 구성된다. 본 연구에서 정의된 XML 주석 태그는 IEEE 표준 1028과 IEEE 표준 1012를 적용하는 개발공정 활동의 범주를 포함한다. C 원시 코드에 주석을 삽입하고 추출하기 위하여 XML 스키마가 사용되며. 주석 추출 결과의 시각적 표시 처리를 위하여 XSL-FO가 사용된다.

XML을 이용한 데이터베이스 통합방안에 관한 연구 (A Study on the Database Integration Methodology using XML)

  • 오세웅;이홍걸;이철영;박종민;서상현
    • 한국항해항만학회지
    • /
    • 제29권10호
    • /
    • pp.883-890
    • /
    • 2005
  • 물류환경에 있어서 데이터베이스 통합의 문제는 중요 과제로 인식되어 스키마 통합 시 발생하는 스키마 충돌을 이론적인 측면에서의 해결 방법이 제시되었으나 실제 시스템 구현 측면에서의 연구는 부족한 실정이다. 본 연구는 실제적인 DB 통합법과 관련하여 XML 기술을 이용한 통합법을 제시하고 통합 알고리즘으로 개체 및 속성간의 유사도 측정에 기반한 계량화된 충돌 식별법을 사용하였다. 구체적으로 DB 스키마를 XML 스키마로 변환시켜 개체명과 속성명을 추출한 다음, DB 통합 시 빈번히 발생하는 의미적 충돌(Semantic Conflict) 현상인 이른바 이름 충돌 식별을 위한 하나의 해결법으로서 시소러스(Thesaurus) 사전과 형태소 분석을 통해 개체 및 속성 간 종합적인 유사도 측정하는 계량화된 식별방안을 사용하였다.