• 제목/요약/키워드: Document Databases

검색결과 130건 처리시간 0.024초

XML 데이타베이스에서 경로-지향 질의처리를 위한 병렬 매치 방법 (A Parallel Match Method for Path-oriented Query Processing in iW- Databases)

  • 박희숙;조우현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.558-566
    • /
    • 2005
  • XML은 인터넷상에서 데이타를 표현하고 교환하기 위한 새로운 표준이다. 본 논문에서는, XML문서에 대한 경로-지향 질의어의 평가를 위한 새로운 접근법에 대하여 기술한다. 본 논문의 접근법에서는, 경로-지향 질의어의 평가속도를 개선하기 위해 경로서명을 이용하는 병렬 매치 인덱싱 구조의 제안과 함께 데이타베이스 안에 저장된 엘리먼트들의 경로서명들과 입력된 질의어의 경로서명 사이에 매치작업을 수행하기 위한 병렬 매치 알고리즘을 설계한다. 먼저, 병렬 매치 구조를 형성하기 위해서는 XML 문서상의 모든 경로서명들에 대한 이진 트라이를 구성한 다음 이들을 병렬 매치 인덱싱 구조로 변환한다. 경로-지향 질의어의 검색 연산을 수행하기 위해 병렬 매치 인덱싱 구조와 병렬 매치 알고리즘을 사용한다. 본 논문에서 제안한 방법에서 알고리즘의 시간 복잡도는 XML 문서내의 경로서명의 수에 대하여 로그값에 비례한다.

Xenie: Integration of Human 'gene to function'information in human readable & machine usable way

  • Ahn, Tae-Jin
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.53-55
    • /
    • 2000
  • Xenie is the JAVA application software that integrates and represents 'gene to function'information of human gene. Xenie extracts data from several heterogeneous molecular biology databases and provides integrated information in human readable and machine usable way. We defined 7 semantic frame classes (Gene, Transcript, Polypeptide, Protein_complex, Isotype, Functional_object, and Cell) as a common schema for storing and integrating gene to function information and relationship. Each of 7 semantic frame classes has data fields that are supposed to store biological data like gene symbol, disease information, cofactors, and inhibitors, etc. By using these semantic classes, Xenie can show how many transcripts and polypeptide has been known and what the function of gene products is in General. In detail, Xenie provides functional information of given human gene in the fields of semantic objects that are storing integrated data from several databases (Brenda, GDB, Genecards, HGMD, HUGO, LocusLink, OMIM, PIR, and SWISS-PROT). Although Xenie provide fully readable form of XML document for human researchers, the main goal of Xenie system is providing integrated data for other bioinformatic application softwares. Technically, Xenie provides two kinds of output format. One is JAVA persistent object, the other is XML document, both of them have been known as the most favorite solution for data exchange. Additionally, UML designs of Xenie and DTD for 7 semantic frame classes are available for easy data binding to other bioinformatic application systems. Hopefully, Xenie's output can provide more detailed and integrated information in several bioinformatic systems like Gene chip, 2D gel, biopathway related systems. Furthermore, through data integration, Xenie can also make a way for other bioiformatic systems to ask 'function based query'that was originally impossible to be answered because of separatly stored data in heterogeneous databases.

  • PDF

XML 데이타베이스 변경 연산의 즉시 부분 검증 메카니즘 (Immediate and Partial Validation Mechanism for Update Operations in XML Databases)

  • 김상균;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.540-551
    • /
    • 2003
  • 최근에 데이타베이스에 저장된 XML문서의 변경에 대한 여러 연구들이 수행되었다[1-3]. 이 연구들은 우선 변경 연산들을 정의하고 이 연산들을 수행할 때 발생하는 의미적 문제들을 해결하는 방법을 제안하였다. 이러한 연구들에서는 변경 연산을 수행한 후에 검증을 수행하기 때문에 여러 가지 충돌 문제가 발생한다. 이러한 충돌문제를 해결하기 위해서는 XML데이타베이스 시스템이 변경 연산을 수행하기 전에 이 연산이 DTD에 따르는지 즉시 검증할 수 있어야 한다. 또한 지금까지의 연구들은 변경된 XML문서를 검증할 때 변경된 부분을 검증하지 않고 문서 전체를 검증한다. 따라서 많은 응용프로그램들이 XML문서를 변경한다면 이 연산에 대한 검증 과정 때문에 심각한 성능 저하를 가져올 것이다. 이 연구에서는 이 두 가지 문제점을 해결하기 위한 방법을 제안한다. 우선 DTD정보를 추출하여 데이타베이스에 저장하고 데이타베이스에 저장된 XML문서를 변경할 때 이 저장된 DTD정보를 이용하여 변경 연산의 유효성을 검증함으로써 항상 유효한 XML문서를 데이타베이스에 유지하도록 한다. 이를 위해 유효성 검증을 변경 연산이 수행되기 전에 즉시 수행하고 검증 범위 또한 변경된 부분으로 한정시키는 메카니즘을 고안하였다.

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

유효한 XML 문서에 대한 경계 로킹에 기반한 시퀀스 그룹 검증 기법 (Sequence Group Validation based on Boundary Locking for Valid XML Documents)

  • 최윤상;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.628-640
    • /
    • 2005
  • 많은 웹 응용 영역에 XML이 적용되면서 트랜잭션의 변경과 접근에 대한 고립성을 만족시키는 XML 문서에 대한 병행수행은 중요한 이슈가 되고 있다. DTD(혹은 XML 스키마)의 규칙을 잘 지키는 문서를 유효한 XML 문서라 하는데, 유효한 XML 문서에 대한 갱신 연산은 연산 후의 XML 문서가 원래 DTD의 규칙을 그대로 유지해야하는 유효성 문제를 앉고 있다. 일반적인 유효성 검증 방법은 갱신 후의 XML 문서 전체에 대해 유효성을 검증하는 방법이다. 그러나, 위에서 언급한 유효성 검증 방법은 낮은 병행수행의 결과를 낳는다. 따라서, XML 문서의 유효성 검증 범위를 최소화하면서 높은 병행수행 정도를 보이는 새로운 유형성 검증 방법과 로킹 방법이 요구된다. 본 논문은 유효성 검증의 검증 범위를 최소화 시켜 유효성 검증이 효율적으로 수행될 수 있는 시퀀스 그룹 검증 기법을 제안한다. 또한 이 검증 기법의 정확성을 보장하면서 로킹되는 데이타 아이템의 수를 최소화 할 수 있는 경계 로킹 기법을 제안한다. 마지막으로 제안된 유효성 검증 기법과 경계 로킹 기법이 기존의 방법에 비해 트랜잭션의 병행수행 성능을 향상시키고 있음을 실험을 통해 보인다.

XML 문서 타입의 분류 (Taxonomy of XML Document Types)

  • 이정원;박승수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권2호
    • /
    • pp.161-176
    • /
    • 2005
  • XML이 가지는 표현의 유연성은 정보검색, 문서관리, 데이타 마이닝 둥의 분야에 커다란 영향을 미치고 있다. 그러나 새로운 XML 관련 기술들이 XML 문서의 특성을 체계적으로 파악하지 않고 일부 특성만을 다룰 수 있도록 개발되어 다른 타입의 XML 문서를 적용하면 성능 저하를 가져오기도 한다. 따라서 우수한 결과를 내는 방법론이라 하더라도 그 결과에 대한 신빙성을 뒷받침할 만한 척도가 미비한 실정이며 개발된 다양한 방법론을 응용 분야나 문서집합의 특성에 따라 적절하게 선택할 수 있는 기준도 모호하다. 본 논문에서는 XML이 가지는 특성을 토대로 크게 요소(element), 구조, 그리고 데이타를 중심으로 분류한 XML 문서 타입의 분류 체계(taxonomy)를 제안하고자 한다. 체계적인 XML 문서 타입의 분류체계는 새로 개발된 XML 기술들이 어떠한 XML 문서 타입을 처리 할 수 있는지를 평가할 수 있게 함으로써 결과의 신빙성을 증진시킬 수 있다. 또한 대상 XML 문서를 분류 체계에 의거하여 처리 가능한 타입들을 제시함으로써 응용 분야에 적합한 XML 기술을 선택할 수 있는 기초론 제공한다. 제안된 분류 체계를 토대로 XML 문서 마이닝에 적용해 본 결과 전처리(preparations) 과정에서 고려할 수 있는 XML 문서 타입을 밝혀내고 실험 선정 대상 문서의 타입을 제시할 수 있었다.

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

YCSB를 사용한 PostgreSQL과 MongoDB 성능 비교 분석 (Performance Comparison of PostgreSQL and MongoDB using YCSB)

  • 김기성
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1385-1395
    • /
    • 2016
  • 빅데이터와 함께 등장한 NoSQL은 기존 관계형 데이터베이스로는 해결하기 힘든 문제를 새로운 아키텍처와 데이터 모델로 해결하고자 한다. 관계형 데이터베이스와는 달리 NoSQL 데이터베이스는 기능과 아키텍처 그리고 한계점이 제품마다 다르기 때문에 NoSQL 데이터베이스를 선택하기 위해서는 많은 고려사항이 필요하다. 이렇게 데이터베이스의 선택의 폭이 넓어진 만큼 선택의 어려움은 더욱 증가했다고 볼 수 있다. 또한 NoSQL 데이터베이스의 발전은 기존의 관계형 데이터베이스의 기능을 확장하는 데도 기여했다. 본 논문에서는 NoSQL 데이터베이스를 보다 정확히 이해하기 위해 관계형 데이터베이스와 비교 분석하고 오픈 소스 관계형 데이터베이스인 PostgreSQL의 최신 NoSQL 관련 기능에 대해 알아본다. 또한 NoSQL 데이터베이스 벤치마크(YCSB)를 사용해 NoSQL과 PostgreSQL의 성능을 비교하고 앞으로의 발전 방향에 대해서 논한다.

An Effective XML Schema Conversion Technique for Improving XML Document Reusability using Pattern List

  • Ko, Hye-Kyeong;Yang, Minho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제9권2호
    • /
    • pp.11-19
    • /
    • 2017
  • The growing use of XML markup language has made amount of heterogeneous. XML documents are widely available in the Web. As the number of applications that utilize heterogeneous XML documents grow, the importance of XML document extraction increases greatly. In this paper, we propose a XML schema conversion technique that converts reusable XML schema from XML documents. We convert the schema graph and we use the reusability pattern list. The converted XML schema is evaluated in terms of cohesion, coupling, and reusability. The converted XML schema could be used to construct databases for various fields where XML is used as an intermediation of data exchange.

컨텐츠 통합 관리 시스템의 설계 및 구현 (Design and Implementation of Contents Integration and Management System)

  • 이중화;김태석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.472-475
    • /
    • 2003
  • 본 연구에서는 각 지역 데이터베이스에 저장되어 있는 컨텐츠들을 통합 관리할 수 있는 컨텐츠 통합 관리 시스템을 개발하였다. 컨텐츠 통합 관리 시스템은 각 지역 데이터베이스에 저장되어 있는 컨텐츠들의 저장 스키마를 표준화된 XML 문서로 변환하여 통합된 전역 데이터베이스를 생성한다. 본 연구에서 개발한 컨텐츠 통합 관리 시스템은 컨텐츠의 지속적인 확보를 위해 서로 다른 환경에서 저장되고 운영되고 있는 컨텐츠를 통합관리 할 수 있는 효과적인 방법을 제시한다.

  • PDF