• 제목/요약/키워드: Document Databases

검색결과 130건 처리시간 0.024초

XML 기반의 이기종 DBMS간 데이터 복제 웹 에이전트 설계 및 구현 (Design and Implementation of Data Replication Web Agent between Heterogeneous DBMSs based on XML)

  • 유선영;임재홍
    • 한국항해항만학회지
    • /
    • 제26권4호
    • /
    • pp.427-433
    • /
    • 2002
  • 최근 인터넷에서 사용되고 있는 하이퍼텍스트 생성 언어(HTML : Hyper Text Markup Language)는 제한된 태그(Tag)들을 사용하기 때문에 문서를 구조화시키지 못해 정보 축적과 정의추출 방법이 비효율적이고 추출한 정보의 가공이 어렵다. 그러나 확장성 생성 언어 (XML ; eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 자유롭게 정의할 수 있고 다른 사람들도 그 태그를 사용할 수 있기 때문에 HTML에 비해 정보 축적과 정보추출 방법이 용이하다. 서로 다른 데이터베이스를 사용하고 있는 항만 관련 업체들간의 물류에 관한 정보를 공유하거나 교환하기 위해서는 HTML이 아닌 XML이 더 적합하다. 본 논문에서는 항만업체들의 요구를 수용하기 위해 XML을 이용하여 웹에서 이기종 데이터베이스 관리 시스템(DBMS ; Database Management System)간의 데이터 복제 및 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

빠른 XML질의 처리를 위한 세그먼트 조인 기법 (Segment Join Technique for Processing in Queries Fast)

  • 배진옥;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.334-343
    • /
    • 2005
  • XML 데이타를 대상으로 선형 질의나 가지모양 질의 같은 복잡한 질의가 많이 연구되고 있다. 이와 같은 질의를 처리하기 위해 XML 데이타를 구조정보에 의해 미리 인코딩한 후, 질의 처리시 구조정보를 이용하여 빠르게 질의를 수행하는 구조 조인 알고리즘들이 제안되었다. 그 중 최근에 제안된 TwigStack 알고리즘과 TSGeneric 알고리즘은 각각 인덱스가 없는 환경과 있는 환경에서 수행시간이 입력 데이타의 양과 비례하는 최적의 성능을 보여주었다. 하지만 이들 알고리즘은 질의의 길이(질의에 나타난 엘리먼트 개수)에 비례하여 입력데이타의 양이 증가하고, 따라서 수행시간이 길어진다는 제한점이 있다. 이 논문에서는 기존의 구조 조인 알고리즘들에 구조 인덱스를 결함한 세그먼트 조인 기법을 제안한다. 이 기법은 질의 노드와 노드 간의 구조 조인과는 달리, 구조 인덱스를 이용하여 일련의 질의 노드들을 하나의 세그먼트로 식별한 후 세그먼트와 세그먼트 사이의 조인을 수행한다. 그 결과 세그먼트마다 하나의 질의 노드만을 읽음에 의해 질의를 처리할 수 있게 되어 수행성능이 향상된다. 다양한 데이타셋에 대해 인덱스가 없는 환경에서 실험 결과, 세그먼트 조인 기법을 적용한 SegmentTwig 알고리즘은 TwigStack 알고리즘보다 우수한 성능을 보였다.

질의기반 사용자 프로파일을 이용하는 개인화 웹 검색 (Personalized Web Search using Query based User Profile)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제17권2호
    • /
    • pp.690-696
    • /
    • 2016
  • 사용자 입력 질의와 웹 문서에 포함된 단어들의 형태적 일치를 검사하여 관련 문서를 검색하는 검색엔진은 사용자의 개인별 관심 분야를 반영하는 검색 결과를 생성하기 어렵다. 본 논문에서는 개인별 관심사를 파악하여 질의 의도에 적합한 내용의 문서를 검색하는 개인화된 웹 검색 방법을 제안한다. 개인화 검색의 성능은 사용자의 개인적 관심사를 정확하게 표현하는 우수한 사용자 프로파일을 생성하는 전략에 좌우된다. 본 연구에서 개인 프로파일은 사용자가 최근 입력한 질의어들과 검색에서 클릭했던 문서들에 나타나는 주제어들이 출현 빈도를 반영한 가중치와 함께 등록된 데이터베이스이다. 특히 중의적 질의어의 정확한 의미를 결정하기 위해 워드넷을 기반으로 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 기존 웹 검색 시스템의 사용자 측에 질의확장 모듈과 순위재계산 모듈을 추가하는 확장모듈을 구축하여 비교 실험하였으며, 본 연구의 방법을 적용한 개인화 웹 검색의 결과는 특히 10위 이내 상위의 결과 문서들에 대해 92%의 정확률과 82%의 재현율을 보여 향상된 성능을 검증하였다.

한글 문자 데이터베이스 PHD08 구축 (Construction of Printed Hangul Character Database PHD08)

  • 함대성;이득용;정인숙;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.33-40
    • /
    • 2008
  • 문자 인식의 응용이 형식 문서의 인식 같은 고전적인 영역을 벗어나 웹 문서나 자연 영상의 문자 인식으로 확장되고 있다. 이러한 새로운 응용에서는 명조나 고딕같은 표준 글꼴뿐만 아니라 다양한 모양의 글꼴을 사용하는 것이 보편적이다. 기존의 데이터베이스들은 주로 표준 글꼴을 대상으로 제작되어 새로운 응용에 사용하는데 한계를 안고 있다. 본 논문에서는 완성형 2350자 각각을 대상으로 9종류의 글꼴에 대해 글꼴 크기, 품질, 해상도를 달리하여 243개의 이미지 샘플을 생성하였다. 또한 이들 샘플 각각에 대해 이진 임계치와 회전 각도를 달리하여 변형된 샘플을 얻었다. 이러한 과정으로 각 글자마다 2,187개의 샘플을 생성하였으며, 총 5,139,450개의 샘플을 갖는 인쇄체 한글 데이터베이스를 구축하였다. 데이터베이스에 대한 특성과 상용 OCR 소프트웨어에 대한 인식 성능 등을 제시한다.

보존연한 도래 및 법적기준 준수를 위한 개인정보 정책적 폐기시스템을 활용한 폐기 누적현황 데이터베이스 구축에 관한 방안 제안 (A Proposal of Methods for Building Databases about the Accumulation of Disuse Utilizing the Political System to Discard Private Information According to the Expiration of In-service Life and Observation of Legal Standards)

  • 서우석
    • 디지털산업정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.45-53
    • /
    • 2018
  • The Personal Information Protection Act has been revised continuously since its establishment, and as a way to secure stability properly, the guidelines as well as enforcement ordinances and regulations have been changed, too. It seems that people's recognition and awareness of private information have already evolved to a certain level that is regarded to be fairly high. However, no one can exactly imagine how much ripple effect scrapping discarded paper regarded simply as waste material which is often and easily practiced in our everyday lives exerts and how many socially significant events it may arouse in our lives. Private information is produced, operated, preserved, utilized, distributed within the frame of law unidentified, and then discarded with a particular purpose. While going through a series of processes, each piece of that private information comes to be reproduced melting a lot of information. It is used and also changed beneficially sometimes to richen our lives or as basic material for welfare. Meanwhile, its importance is decided by its weight or mass and then often gets discarded after all. It means that the process of disuse is being done in a way to arouse the possibility of invasion of personal rights and also the second and third and also more exposure of private information. Therefore, approaching the meaning of automation politically, this study aims to suggest how to secure stability in the process of discarding private information in terms of logical automation.

The Development of A System for Translation of Korean Definition of IEV and Implementation of Korean Electropedia

  • Moon, Bonghee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.141-148
    • /
    • 2020
  • 본 논문에서는 IEV의 영어 기술 용어의 정의를 한국어로 번역하는 시스템의 개발 및 한국어 일렉트로피디아인 웹 시스템의 구현을 소개하고 있다. 작업 과정은 3부분으로 구성되었다. 첫 번째 작업은 IEV의 영어 정의를 한국어로 번역하기 위한 데이터베이스를 구축하는 것이다. 두 번째 작업은 한국 TC 1 멤버들이 개발된 컴퓨터 프로그램과 작업 데이터베이스를 사용하여 영어 용어의 정의를 한국어로 번역하고 한국어의 정의를 유의미한 수준으로 수정하는 것이다. 마지막 작업은 프로젝트 보고서를 위한 문서를 만들고 한국어 일렉트로피디아인 웹 시스템을 구현하는 것이다. 그 결과, 전자 용어의 영어 정의 20,996개가 한국어로 번역되었고, 이를 기반으로 프로토타입의 한국어 일렉트로피디아 웹 시스템이 구현되었다. 향후, 한국의 정규 일렉트로피디아를 개설하고 IEC의 일렉트로피디아와 연계할 필요가 있다.

색인된 XML 문서에서 레벨 정보를 이용한 효과적인 구조 조인 기법 (Efficient Structural Join Technique using the Level Information of Indexed XML Documents)

  • 이윤호;최일환;김종익;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.641-649
    • /
    • 2005
  • 오늘날 인터넷의 발달과 함께 XML이 많이 사용됨에 따라, XML 저장소와 질의 처리에 관한 연구가 활발하게 이뤄지고 있다. XML에서는 경로 질의를 사용하는데, 이러한 경로 질의를 효과적으로 처리하기 위하여 여러 가지 색인 기법들이 연구되었다. 최근에는 구조 조인 기법이 각광을 받고 있다. 구조 조인 기법은 엘리먼트들의 포함 관계를 살펴 질의를 처리한다. 특히 문서 전체에 대한 탐색을 하지 않고 해당하는 엘리먼트들의 역색인 리스트만을 비교하여 질의 처리를 수행하는 장점을 갖는다. 하지만 구조 조인 기법은 실제 질의 결과에 포함되지 않는 불필요한 엘리먼트들도 탐색해야 하는 비효율성을 가진다. 따라서 본 논문에서는 구조 조인 기법의 성능을 개선하는 레벨 구조 조인 기법을 제안한다. 제안하는 기법은 경로 질의 내 엘리먼트 사이의 관계 정보와 XML 문서 내의 엘리먼트들의 레벨 분포 정보를 이용한다. 이를 통해 구조 조인을 수행할 때, 비교되는 역색인 리스트 내의 모든 엘리먼트들이 아닌, 특정 레벨에 해당하는 엘리먼트들만을 이용하여 비교를 수행함으로써 질의 처리의 속도를 향상시킬 수 있다.

구조적 중복을 사용한 XML 문서의 릴레이션으로의 분할저장 (Shredding XML Documents into Relations using Structural Redundancy)

  • 김재훈;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권2호
    • /
    • pp.177-192
    • /
    • 2005
  • 본 논문에서는 XML 데이타를 릴레이션으로 분할 저장할 경우, 분할된 XML 데이타로부터 질의 결과 XML 문서를 재구성하는데 소모되는 질의 처리비용을 줄이기 위한 구조적 중복 방법을 소개한다. 기본 아이디어는 주어진 질의 패턴을 분석하여, 적절한 데이타들을 중복시킴으로서 질의 처리 성능을 향상시키는 것이다. 이러한 구조적 중복 방법으로 실질적으로 유효할 수 있는 ID, VALUE, SUBTREE의 세 가지 유형의 특성을 분석하였다. 본 논문에서는 추가적으로 주어진 XML 데이타와 질의들이 매우 크고 복잡할 경우 최적의 중복 집합을 팎는 것이 매우 어려운 작업이 될 수 있으므로, 이를 위한 경험적 탐색 방법을 소개한다. 마지막으로 몇 가지 실험을 통하여, 중복 데이타를 사용함으로 발생하는 XML 질의 처리비용과 제안된 탐색 방법의 효율성을 분석한다. 중복 데이타를 사용함으로 XML 판독 질의는 빨라지지만, XML 갱신 질의는 중복 데이타의 갱신 일관성 비용 때문에 느려지는 것은 당연하다. 하지만 실험 결과는 매우 과도한 갱신 비용의 경우에도 in-place ID 중복은 효율적이며, 갱신 비용이 매우 과도하지만 않다면 multiple-place SUBTREE 중복은 판독 질의 처리 성능을 크게 향상시킬 수 있음을 보여주었다.

동적 XML 데이타 스트링의 안전한 질의 처리를 위한 효율적인 접근제어 레이블링 (Efficient Access Control Labeling for Secure Query Processing on Dynamic XML Data Streams)

  • 안동찬;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.180-188
    • /
    • 2009
  • 유비쿼터스 데이타 스트림 환경에서 동적 XML 데이타 스트림에 대한 효율적이고 안전한 접근제어 기법은 최근에 활발한 연구분야가 되어왔다. 본 논문에서 동적 XML 데이타 스트림 환경에서 효율적이고 안전한 접근제어를 위한 향상된 롤-기반 소수 레이블링 기법을 제안한다. 또한 지속적으로 갱신되는 XML 문서의 효율적인 레이블링 기법과 효율적이고 안전한 접근제어를 위한 기존연구의 문제점을 지적한다. 제안하는 향상된 레이블링 기법은 문서가 갱신될 때 다시 레이블링 하지 않고도 노드 사이의 조상-후손 관계와 형제 관계를 유지할 수 있으며, 레이블의 충돌 없이 XML 트리에 임의의 지속적인 노드 삽입 또는 갱신을 지원한다. 또한, 롤-기반 소수 레이블링 기법을 통해 효율적인 접근제어를 구현하였다. 끝으로 본 논문의 제안 방법이 효율적이고 안전함을 실험을 통해 보여줄 것이다.

빈번히 갱신되는 XML 문서에 대한 프라임 넘버 레이블링 기법 (An Improved Method of the Prime Number Labeling Scheme for Dynamic XML Documents)

  • 유지열;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.129-137
    • /
    • 2006
  • XML 레이블링 기법은 엘리먼트 간의 조상-자손 관계 및 형제들 간의 순서 둥을 쉽게 결정할 수 있도록 하는 색인을 위한 인코딩(encoding)이라고 할 수 있다. 특히 근래에는 Web Services 및 AXML (Active XML)과 같은 기술에 동적 XML 문서가 등장하게 되었고 이로 인해 동적 XML 레이블링 기법이 필요하게 되었다. 대표적인 동적 레이블링 기법인 프라임 넘버 레이블링(prime number labeling)기법은 XML 문서의 엘리먼트 간의 부모-자식간의 관계를 소수의 특성을 이용하여 결정할 수 있도록 하는 기법이다. 이 기법은 새로운 엘리먼트가 삽입이 될 때 부여되는 레이블이 기존의 레이블 정보를 변화시키지 않는다는 장점이 있으나 형제간의 순서를 결정하는 순서 값(Order number)을 갱신하기 위해 추가의 연산 및 자료구조를 유지하는 비용을 갖는 단점을 가지고 있다. 본 논문에서는 이러한 비용을 줄이기 위해 요소의 순서정보를 나타내는 오더 값을 공유하는 기법과 삽입되는 위치에 따라 레이블의 값 또는 오더 값을 이용하여 형제간의 순서를 결정할 수는 방법을 제안하여 기존방법보다 적은 비용으로 처리할 수 있도록 하였다.