• 제목/요약/키워드: schema for datasets

검색결과 13건 처리시간 0.024초

ShEx Schema Generator for RDF Graphs Created by Direct Mapping

  • Choi, Ji-Woong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.33-43
    • /
    • 2018
  • In this paper, we propose a method to automatically generate the description of an RDF graph structure. The description is expressed in Shape Expression Language (ShEx), which is developed by W3C and provides the syntax for describing the structure of RDF data. The RDF graphs to which this method can be applied are limited to those generated by the direct mapping, which is an algorithm for transforming relational data into RDF by W3C. A relational database consists of its schema including integrity constraints and its instance data. While the instance data can have been published in RDF by some standard methods such as the direct mapping, the translation of the schema has been missing so far. Unlike the users on relational databases, the ones on RDF datasets were forced to write repeated vague SPARQL queries over the datasets to acquire the exact results. This is because the schema for RDF data has not been provided to the users. The ShEx documents generated by our method can be referred as the schema on writing SPARQL queries. They also can validate data on RDF graph update operations with ShEx validators. In other words, they can work as the integrity constraints in relational databases.

R2RML Based ShEx Schema

  • Choi, Ji-Woong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.45-55
    • /
    • 2018
  • R2RML is a W3C standard language that defines how to expose the relational data as RDF triples. The output from an R2RML mapping is only an RDF dataset. By definition, the dataset has no schema. The lack of schema makes the dataset in linked data portal impractical for integrating and analyzing data. To address this issue, we propose an approach for generating automatically schemas for RDF graphs populated by R2RML mappings. More precisely, we represent the schema using ShEx, which is a language for validating and describing RDF. Our approach allows to generate ShEx schemas as well as RDF datasets from R2RML mappings. Our ShEx schema can provide benefits for both data providers and ordinary users. Data providers can verify and guarantee the structural integrity of the dataset against the schema. Users can write SPARQL queries efficiently by referring to the schema. In this paper, we describe data structures and algorithms of the system to derive ShEx documents from R2RML documents and presents a brief demonstration regarding its proper use.

해외 도서관 링크드 데이터 구축의 최근 동향 연구 - 발행 데이터세트, 재사용 어휘집, 인터링킹 외부 데이터세트를 중심으로 - (A Study on Recent Trends in Building Linked Data for Overseas Libraries: Focusing on Published Datasets, Reused Vocabulary, and Interlinked External Datasets)

  • 이성숙
    • 한국문헌정보학회지
    • /
    • 제56권4호
    • /
    • pp.5-28
    • /
    • 2022
  • 이 연구에서는 해외 도서관의 LD 구축 사례를 발행 데이터세트, 재사용 어휘집, 인터링킹 외부 데이터세트를 중심으로 분석하고, 분석 결과를 토대로 국내도서관의 LD 구축 방안에 대한 기초적인 데이터를 확보하였다. 21개 해외 도서관 사례 분석 결과, 해외 도서관은 충실한 전거 LD를 구축하였고, 발행 LD를 활용한 새로운 서비스를 진행하였다. 이를 위해 해외 도서관은 도서관의 주도하에 다른 도서관과 문화기관들과 지역 내에서, 국가 내에서, 국가적으로 협력하였고, 이러한 협력을 바탕으로 특성화된 데이터세트를 발행하였다. 해외 도서관은 발행 LD의 가시성을 높이기 위해 Schema.org를 사용하였고, 기술의 세분화를 위해 BIBFRAME 등을 사용하여 다양한 개체를 정의하고, 정의된 개체에 기반하여 LD를 구축하였다. 해외 도서관은 다양한 개체를 관련 정보 연계와 검색 결과 디스플레이, 브라우징, 대량 다운로드에 활용하였다. 해외 도서관은 인터링킹 외부 데이터세트를 지속해서 현행화하였고, 외부 데이터를 직접적으로 활용하여 목록정보를 보강하였다. 이 연구에서는 도출된 시사점을 토대로 국내도서관의 LD 구축 시 고려할 점을 제안하였다. 연구 결과는 향후 국내도서관이 LD 서비스를 계획하거나 기존 서비스를 고도화할 때 기초자료로 활용될 수 있을 것이다.

Vector space based augmented structural kinematic feature descriptor for human activity recognition in videos

  • Dharmalingam, Sowmiya;Palanisamy, Anandhakumar
    • ETRI Journal
    • /
    • 제40권4호
    • /
    • pp.499-510
    • /
    • 2018
  • A vector space based augmented structural kinematic (VSASK) feature descriptor is proposed for human activity recognition. An action descriptor is built by integrating the structural and kinematic properties of the actor using vector space based augmented matrix representation. Using the local or global information separately may not provide sufficient action characteristics. The proposed action descriptor combines both the local (pose) and global (position and velocity) features using augmented matrix schema and thereby increases the robustness of the descriptor. A multiclass support vector machine (SVM) is used to learn each action descriptor for the corresponding activity classification and understanding. The performance of the proposed descriptor is experimentally analyzed using the Weizmann and KTH datasets. The average recognition rate for the Weizmann and KTH datasets is 100% and 99.89%, respectively. The computational time for the proposed descriptor learning is 0.003 seconds, which is an improvement of approximately 1.4% over the existing methods.

Fact constellation 스키마와 트리 기반 XML 모델을 적용한 실험실 레벨의 단백질 데이터 통합 기법 (An Approach for Integrated Modeling of Protein Data using a Fact Constellation Schema and a Tree based XML Model)

  • 박성희;이영화;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.519-532
    • /
    • 2004
  • 유전자 및 단백질간의 복잡한 상호작용에 의해 기능이 결정되는 생명정보 데이터의 특성으로 인하여 생명정보 데이터 분석을 위해서는 이질적인 데이터를 통합적으로 분석할 수 있는 통합시스템이 요구된다. 따라서 이 논문에서는 생물학 실험실 레벨에서 단백질 구조 관련 데이터를 통합할 수 있도록 XML 모델기반에 웨어하우스 미디에이터 통합시스템을 제안한다. 제안 시스템은 fact constellation 모델을 기반하여 이질적인 소스에 대한 통합 모델링을 진행하고 통합 스키마를 XML 스키마로 변환하여 유지한다. 또한 통합 데이터베이스에 포함된 소스 데이터의 변경 및 출처에 대한 추적 관리를 위해 데이터의 점진적 갱신방법과 서열에 대한 버전관리를 이용한다. 실제로 이 시스템을 단백질 구조(PDB), 서열(Swiss-Prot)과 도메인 분류데이터(CATH) 통합에 적용한 통합 모델링 과정을 보여준다.

DDI 메타데이터를 활용한 METS 설계에 관한 연구 (A Study on METS Design Using DDI Metadata)

  • 박진호
    • 정보관리학회지
    • /
    • 제38권4호
    • /
    • pp.153-171
    • /
    • 2021
  • 이 연구는 데이터세트를 관리, 보존, 서비스하기 위해 DDI 메타데이터를 기반으로 METS를 활용하는 방안을 제시하였다. DDI는 통계 데이터 처리를 위한 표준으로 현재 DDI Codebook(DDI-C)과 DDI Lifecycle(DDI-L) 두 가지 버전이 존재한다. 본 연구에서는 DDI-C의 주요 요소를 주로 하였다. 이를 위해 우선 METS와 DDI-C의 구조와 요소를 분석하였다. 그리고 METS와 DDI-C의 주요 요소들에 대한 매핑작업을 수행하였다. 여기서 기준은 최종적으로 이를 표현할 형식인 METS로 삼았다. METS와 DDI-C가 완벽하게 1:1의 매핑을 보이지 않기 때문에 기준인 METS의 각 요소들에 가장 적합하게 부합하는 DDI-C 요소를 선택하였다. 그 결과 DDI-C 메타데이터요소를 활용한 새로운 데이터세트 관리전송 표준 METS를 설계하여 제시하였다.

다국적 임상시험 지원을 위한 CDISC 표준의 확장 (CDISC Extension for Supporting Multinational Clinical Trials)

  • 염지현;최인영;김석일;김혁만
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.566-575
    • /
    • 2009
  • CDISC 컨소시엄에서는 임상시험에서의 비효율적인 데이터 처리 과정을 개선하기 위해, 플랫폼에 독립적인 임상시험 데이터 표준을 정의하였다. 그러나, CDISC 표준은 여러 나라의 여러 기관이 함께 참여하는 다국가 임상시험에서 발생하는 임상시험 데이터를 다국어로 표현하는 방법에 많은 제약을 갖고 있다. 특히, CDISC가 제정한 표준 중 임상시험 데이터의 콘텐츠 및 포맷에 해당하는 SDTM(Study Data Tabulation Model)과 ODM(Operational Data Model)에서의 다국어 지원이 매우 미비하다. 본 논문은 CDISC의 SDTM과 ODM에서의 언어 설정에 대한 문제점을 해결하기 위해, SDTM과 ODM 표준의 확장을 제안한다. 이를 위해 SDTM에서는 다국어 지원을 위한 새로운 도메인을 설계하였고, ODM에서는 ODM의 확장 스키마를 서브타이핑 방법으로 구현하였다. 확장 SDTM과 ODM을 기반으로 임상시험 데이터를 처리하면, 다국가 임상시험이 수행되는 경우 다국어로 표현된 임상시험 데이터도 효율적으로 처리할 수 있다.

Standard-based Integration of Heterogeneous Large-scale DNA Microarray Data for Improving Reusability

  • Jung, Yong;Seo, Hwa-Jeong;Park, Yu-Rang;Kim, Ji-Hun;Bien, Sang Jay;Kim, Ju-Han
    • Genomics & Informatics
    • /
    • 제9권1호
    • /
    • pp.19-27
    • /
    • 2011
  • Gene Expression Omnibus (GEO) has kept the largest amount of gene-expression microarray data that have grown exponentially. Microarray data in GEO have been generated in many different formats and often lack standardized annotation and documentation. It is hard to know if preprocessing has been applied to a dataset or not and in what way. Standard-based integration of heterogeneous data formats and metadata is necessary for comprehensive data query, analysis and mining. We attempted to integrate the heterogeneous microarray data in GEO based on Minimum Information About a Microarray Experiment (MIAME) standard. We unified the data fields of GEO Data table and mapped the attributes of GEO metadata into MIAME elements. We also discriminated non-preprocessed raw datasets from others and processed ones by using a two-step classification method. Most of the procedures were developed as semi-automated algorithms with some degree of text mining techniques. We localized 2,967 Platforms, 4,867 Series and 103,590 Samples with covering 279 organisms, integrated them into a standard-based relational schema and developed a comprehensive query interface to extract. Our tool, GEOQuest is available at http://www.snubi.org/software/GEOQuest/.

RDF 스키마 함의 규칙 적용 순서를 이용한 RDFS 추론 엔진의 최적화 (An Optimization Technique for RDFS Inference the Applied Order of RDF Schema Entailment Rules)

  • 김기성;유상원;이태휘;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.151-162
    • /
    • 2006
  • W3C의 권고안인 RDF Semantics는 RDFS 추론에 사용할 RDFS 함의 규칙을 제안하였다. 널리 사용되고 있는 RDF 저장소 시스템인 Sesame는 전방향 추론 방식을 사용하여 RDBMS 기반 RDFS 추론을 지원한다. Sesame의 전방향 추론 전략을 사용할 때에는 데이타 저장 시에 추론을 하기 때문에 추론 성능이 데이타 저장 성능에 영향을 미친다. 이런 문제점을 개선하기 위해 본 논문에서는 RDBMS 기반의 전방향 추론 엔진의 성능 향상을 위한 RDFS 함의 규칙 적용 순서를 제안한다. 제안한 규칙 적용 순서는 추론 과정을 대부분의 경우 추론 과정의 반복 없이 한번에 끝낼 수 있도록 하며 완벽한 추론 결과를 보장한다. 또한 앞서 적용한 규칙에 의해 생성된 결과를 추측할 수 있어 추론 과정에서 중복된 결과 생성을 줄일 수 있다. 본 논문에서는 실제 사용하는 RDF 데이타들을 사용하여 Sesame와의 추론 성능을 비교하며 제안한 방법이 RDFS 추론 성능을 향상시킬 수 있음을 보인다.

환자 의료 정보 공유 및 데이터 통합을 위한 데모그래픽 데이터 활용 연구 (A Study for Sharing Patient Medical Information with Demographic Datasets)

  • 임종우;정은영;정병희;박동균;황보택근
    • 전자공학회논문지
    • /
    • 제51권10호
    • /
    • pp.128-136
    • /
    • 2014
  • 온라인에서 공유 및 활용되고 있는 정보들이 기하급수적으로 생성되는 인터넷 정보 시대에서, 개별 의료기관의 환자 정보는 의료기관 고유의 데이터베이스 구성 및 환자 사생활 정보 보호 문제 등의 이유로 인해 병원들 간의 환자 데이터 공유가 원활히 이루어지지 않고 있다. 환자 사생활 정보를 보호하면서 각 의료기관 고유의 환자 정보를 의료기관들 간에 상호 공유하는 것은 의료 정보화를 위해 아직도 해결해야 할 과제로 남아있다. 본 논문에서는 환자 사생활 정보를 보호하면서 환자의 의료정보를 공유하기 위해서, 국내외 의료정보 공유 현황 및 관련 국제 의료정보 표준안을 고찰 및 국내 의료기관의 데모그래픽 데이터를 활용하기 위해 실제 국내 의료기관의 환자 데이터 구조 및 특성을 분석하고 의료 정보 공유 시스템 구조 설계를 제안하고자 한다.