• 제목/요약/키워드: Document Databases

검색결과 130건 처리시간 0.022초

OWL 데이타 검색을 위한 효율적인 저장 스키마 구축 및 질의 처리 기법 (An Efficient Storage Schema Construction and Retrieval Technique for Querying OWL Data)

  • 우은미;박명제;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.206-216
    • /
    • 2007
  • 현재 웹의 한계를 극복하기 위해 제안된 시맨틱 웹을 구축하기 위해서는 데이타에 잘 정의된 의미를 부여하는 온톨로지 언어를 사용해야 한다. W3C에서 제안한 OWL은 대표적인 온톨로지 언어이다. 시맨틱 웹 상에서 OWL 데이타를 효율적으로 검색하기 위해서는 잘 구성되어진 저장 스키마를 구축해야 한다. 본 논문에서는 효율적인 질의 처리를 위한 저장 스키마와 그에 적절한 질의 처리 기법을 제안하고자 한다. 또한 OWL 데이타는 클래스와 프로퍼티들의 상속 관계 정보를 포함한다. 따라서 질의 수행 시질의에서 나타나는 클래스와 프로퍼티들 뿐 아니라 그것들과 관련된 계층 구조에 대한 탐색이 필요하다. 본 논문은 계층 정보를 유지하는 XML 문서를 생성하여 XML 데이타베이스 시스템에 저장한다. 이때 부모/자식 관계 추출에 용이한 기존의 넘버링 기법을 기반으로 노드의 순서 정보를 XML 문서의 애트리뷰트로 유지함으로써 질의에서 나타나는 클래스와 프로퍼티의 하위 정보들을 효율적으로 추출하고자 한다. 마지막으로 실험을 통한 질의 처리 성능의 비교를 통해서 본 논문에서 제안하고자 하는 기법들이 효과적임을 보인다.

TISS system 및 DELTA system에 의한 섬유식별 (Fiber Identification via the TISS and DELTA Systems)

  • 전수경
    • 한국가구학회지
    • /
    • 제10권1호
    • /
    • pp.1-12
    • /
    • 1999
  • Of the vast number of plant taxa in the world, the wood is one of the most useful resources. It is important to identify the fibers of wood and pulp for the plant taxonomy and for the uses, but we do not have enough information on them, on them, especially for the computerizd data. The fiber identification is one of the difficult tasks. In addition to the plant taxonomy and the fiber-using industries, such identification is also important in many other fields, including education. document examiners, etc. For these purpose, the fibers should be exactly distinguished. The TISS system I have programed to identify various woods would also be useful in the identification of fibers by the genus and species in the features of unknown samples and in searching the features of a species based on its scientific name. Such searching programs are being developed in many other countries with a view to searching for the species name by using the features of the cells of the woody materials. With the survey of all the available literature, the features of the fibers of 124 species both of softwood and hardwood were examined under the electron and optical microscopies. Each species were coded and carded by the feature, and the databases were built. The microscopic were inputted into a personal computer program called and by a slide film scanner. The new computer program called TISS 2 was developed using C computer language. Korean language fonts were added to the TISS 2. The TISS 2 can be in adding and searching a image of fiber features both of a known fiber and an unknown fiber. The databases were corded for the DELTA system with was developed by Dallwitz and Paine in Australia, 1986.

  • PDF

ORDBMS를 사용한 XML 질의 캐쉬의 효율적인 지연 갱신 (Efficient Deferred Incremental Refresh of XML Query Cache Using ORDBMS)

  • 황대현;강현철
    • 정보처리학회논문지D
    • /
    • 제13D권1호
    • /
    • pp.11-22
    • /
    • 2006
  • XML 문서의 생성 및 활용도가 증가함으로 인해 XML 문서를 데이터베이스에 저장하여 관리하는 기법이 활발히 연구되고 있다. 관계형 또는 객체 관계형 데이터베이스 관리 시스템(RDBMS/ORDBMS)을 XML 문서의 저장소로 사용하는 것은 현재 가장 실용적인 방법으로 받아들여지고 있다. 데이터베이스에 저장된 XML 문서에 대한 빠른 질의 처리를 위하여 XML 질의 캐쉬를 사용할 수 있다. 그러나 XML 질의 캐쉬의 사용은 하부 자료의 변경에 대한 일관성 유지비용이 든다. 본 논문에서는, ORDBMS를 XML 질의 캐쉬와 하부 XML 자료의 저장소로 사용하고 변경로그를 사용하여 XML 질의 캐쉬를 지연 갱신할 때, XML 질의 캐쉬에 대한 비효율적인 갱신의 원인인 변경로그에 저장된 동일한 XML 문서에 대한 중복 변경을 제거 또는 여과하는 알고리즘을 제시한다. 또한 이를 바탕으로 XML 질의 캐쉬의 갱신에 사용할 최적화된 SQL 문을 생성한다. 실험을 통해 본 논문에서 제안한 XML 질의 캐쉬의 지연 갱신 방법의 효율성을 보인다.

전문용어 정제를 위한 형태소 분석을 이용한 한의학 증상 진단 시스템 개발 (The Development of the Korean Medicine Symptom Diagnosis System Using Morphological Analysis to Refine Difficult Medical Terminology)

  • 이상백;손윤희;장현철;이규철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.77-82
    • /
    • 2016
  • 증상 진단 시스템이라 함은 환자가 자신의 증상을 설명하고, 한의사가 증상에 맞는 질병 진단을 내리는 것을 말한다. 증상 진단 시스템을 자동화하기 위해서는 환자의 자연어로 이루어진 증상 설명에 대한 분석이 필요하다. 이에 본 논문에서는 증상 설명에 대하여 형태소 분석을 수행하고 한의학 병증 데이터와 비교하여 적합한 진단을 내리도록 증상 진단 시스템을 개발하였다. 증상 진단 검색의 효율을 높이기 위해서 Document형 NoSQL인 MongoDB를 이용하여 각각의 병증 데이터를 하나의 도큐먼트로 하고, 그 안의 필드값을 유연하게 관리할 수 있도록 데이터베이스를 구축하였다. 또한, 진단의 근거가 되는 한의사의 병증 설명과 환자의 증상 설명에서 사용되는 용어의 차이를 줄일 수 있도록 환자의 증상 설명을 축적하고 정제하여 일반인에게 친숙한 단어로 구성된 설명데이터를 제공할 수 있게 하였다.

온라인 정보탐색의 효과변인 분석 (An Analysis on the Factors Affectingy Online Search Effect)

  • 김선호
    • 한국문헌정보학회지
    • /
    • 제22권
    • /
    • pp.361-396
    • /
    • 1992
  • The purpose of this study is to verify the correlations between the amount of the online searcher's search experience and their search effect. In order to achieve this purpose, the 28 online searchers working at the chosen libraries and information centers have participated in the study as subjects. The subjects have been classified into the two types of cognitive style by Group Embedded Figure Test. As the result of the GEFT, two groups have been identified: the 15 Field Independance ( FI ) searchers and the 13 Field Dependance ( FD ) searchers. The subject's search experience consists of the 3 elements: disciplinary, training, and working experience. In order to get the data of these empirical elements, a questionnaire have been sent to the 28 subjects. An online searching request form prepared by a practical user was sent to all subjects, who conducted searches of the oversea databases through Dialog to retrieve what was requested. The resultant outcomes were collected and sent back to the user to evaluate relevance and pertinence of the search effect by the individual. In this study, the search effect has been divide into relevance and pertinence. The relevance has been then subdivided into the 3 elements : the number of the relevant documents, recall ratio, and the cost per a relevant document. The relevance has been subdivided into the 3 elements: the number of the pertinent documents, utility ratio, and the cost per a pertinent document. The correlations between the 3 elements of the subject's experience and the 6 elements of the search effect has been analysed in the FI and in the FD searchers separately. At the standard of the 0.01 significance level, findings and conclusions made in the study are summarised as follows : 1. There are strong correlations between the amount of training and the recall ratio, the number of the pertinent documents, and the utility ratio on the part of FI searchers. 2. There are strong correlations between the amount of working experience and the number of the relevant documents, the recall ratio on the part of FD searchers. However, there is also a significant converse correlation between the amount of working experience and the search cost per a pertinent document on the part of FD searchers. 3. The amount of working experience has stronger correlations with the number of the pertinent documents and the utility ratio on the part of FD searchers than the amount of training. 4. There is a strong correlation between the amount of training and the pertinence on both part of FI and FD searchers.

  • PDF

HBase에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensic Investigation of HBase)

  • 박아란;정두원;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권2호
    • /
    • pp.95-104
    • /
    • 2017
  • 최근 스마트 기기의 발전과 소셜 네트워크 서비스(SNS)의 대중화로 기존 관계형 데이터베이스(RDBMS)에서는 처리하기 어려운 데이터들이 증가하고 있다. 이러한 대용량의 비정형 데이터를 실시간으로 처리하기 위한 대안으로 비관계형 데이터베이스(NoSQL DBMS)가 각광 받고 있다. 데이터베이스 디지털 포렌식 조사 기법은 대부분 관계형 데이터베이스를 대상으로 연구되어왔으나, 최근 NoSQL DBMS를 도입하는 기업이 증가하면서 NoSQL DBMS에 대한 디지털 포렌식 기법의 수요도 증가하고 있다. NoSQL DBMS는 정규화할 스키마가 존재하지 않고, 데이터베이스 종류나 운영환경에 따라 저장방식이 상이하기 때문에 디지털 포렌식 조사 시 이를 고려한 새로운 기법들이 필요하다. NoSQL DBMS 중 문서형 데이터베이스에 대한 연구는 진행되어 왔지만, 이를 다른 종류의 NoSQL DBMS에 그대로 적용하기엔 한계가 있다. 이에 본 논문에서는 NoSQL DBMS 중 컬럼형 데이터베이스인 HBase의 구동 방식과 데이터 모델을 소개하고, 운영환경 파악과 아티팩트 수집 및 분석, 삭제된 데이터의 복구 방안에 대해 제안하여 이를 바탕으로 HBase에 대한 디지털 포렌식 조사 기법에 대해 연구하였다. 또한 실험 시나리오를 통해 제안된 HBase에 대한 디지털 포렌식 조사 기법을 검증한다.

Development of a GML 3.0 Encoding System Using Mapping Rules

  • Lee Yong Soo;Kim Dong O;Hong Dong Sook;Han Ki Joon
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.723-728
    • /
    • 2004
  • Recently, because of the extensive use of geographic information in the various fields, the requirement for the easy circulation and utilization of the various geographic information among the individuals, organizations, societies and countries is raised. In order to support the interoperability of the heterogeneous geographic information in the various fields, OGC(Open GIS Consortium) proposed the GML(Geography Markup Language) specification that defines the XML encoding rule about the heterogeneous geographic information. In addition, ISO/TC 211 adopted the GML specification to make it as the international standard. Therefore, in this paper, we first analyzed the GML 3.0 specification in detail that can support the interoperability of the heterogeneous geographic information. And then we suggested and applied the mapping rule that define the encoding method to improve the encoding process easily and efficiently. Finally, we designed and implemented the GML 3.0 encoding system using the mapping rule to encode the geographic information that was constructed in spatial databases into the GML 3.0 document. Especially, we used ZEUS as a spatial database system to test our encoding system in this paper.

  • PDF

XML Type vs Inlined Shredding into Tables for Storing XML Documents in RDBMS

  • Jin, Min;Seo, Min-Jun
    • 한국멀티미디어학회논문지
    • /
    • 제10권12호
    • /
    • pp.1539-1550
    • /
    • 2007
  • As XML is increasingly used for representing and exchanging data, relational database systems have been trying extend their features to handle XML documents XML documents can be stored in a column with XML data type like primitive types. The shredding method, which is one of the traditional methods for storing and managing XML documents in RDBMS, is still useful and viable although it has some drawbacks due to the structural discrepancy between XML and relational databases. This method may be suitable for data-centric XML documents with simple schema. This paper presents the extended version of the Association inlining method that is based on inlined shredding and compares the performance of querying processing to that of XML type method of conventional relational database systems. The experiments showed that in most cases our method resulted in better performance than the other method based on XML data type. This is due to the fact that our shredding method keeps and uses the order and path information of XML documents. The path table has the information of the corresponding table and column for each distinct path and the structure information of the XML document is extracted and stored in data tables.

  • PDF

이용 기반 데이터베이스 구축 방안에 관한 연구 (A Study on STI Database Construction on Demand)

  • 조현양
    • 정보관리학회지
    • /
    • 제17권2호
    • /
    • pp.155-170
    • /
    • 2000
  • 본 연구에서는 효율적인 서지정보 데이터베이스를 구축하기 위한 여러 가지 방안들이 제시되었다. 대상 자료의 선정으로부터 입력 양식의 표준화 및 입력시스템의 활용 등에 이르기까지 다양한 요소들이 검토되었으며, 특히 대상 자료의 선정시에 고려하여야 할 부분을 중점적으로 다루었다. 입력 대상 자료의 우선 순위를 결정하기 위하여 이용자 정보요구의 파악이 비교적 용이한 원문복사 서비스 현황을 비교, 분석하였다. 이용현황에 대한 분석 결과 다양한 형태의 자료 가운데 가장 우선적으로 입력하여야 할 대상은 조사결과 Proceeding인 것으로 나타났으며, 학술지는 우선순위에서 그 다음을 차지하였다. 또한 학술지의 경우 학술지별 원문복사 신청 현황을 분석하여 SCI의 전체 인용빈도와 영향력 지수(Impact Factor)에 의한 순위와 비교ㆍ분석하였다.

  • PDF

A Secure Face Cryptogr aphy for Identity Document Based on Distance Measures

  • Arshad, Nasim;Moon, Kwang-Seok;Kim, Jong-Nam
    • 한국멀티미디어학회논문지
    • /
    • 제16권10호
    • /
    • pp.1156-1162
    • /
    • 2013
  • Face verification has been widely studied during the past two decades. One of the challenges is the rising concern about the security and privacy of the template database. In this paper, we propose a secure face verification system which generates a unique secure cryptographic key from a face template. The face images are processed to produce face templates or codes to be utilized for the encryption and decryption tasks. The result identity data is encrypted using Advanced Encryption Standard (AES). Distance metric naming hamming distance and Euclidean distance are used for template matching identification process, where template matching is a process used in pattern recognition. The proposed system is tested on the ORL, YALEs, and PKNU face databases, which contain 360, 135, and 54 training images respectively. We employ Principle Component Analysis (PCA) to determine the most discriminating features among face images. The experimental results showed that the proposed distance measure was one the promising best measures with respect to different characteristics of the biometric systems. Using the proposed method we needed to extract fewer images in order to achieve 100% cumulative recognition than using any other tested distance measure.