• 제목/요약/키워드: 문서구조

검색결과 1,613건 처리시간 0.03초

XML 공유 구조 발견을 위한 변형 순차패턴 마이닝 알고리즘 (Adapted Sequential Pattern Mining Algorithms for Finding XML Common Structure)

  • 이정원;이기호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.1-3
    • /
    • 2002
  • 최근 XML관련 연구가 급증하면서 저장 기법, 질의 최적화, 인덱싱 등의 기법이 활발히 개발되고 있다. 그러나 하나의 DTD나 XML Schema를 공유하는 문서집합이 아닌 다양한 구조를 가진 문서들을 대상으로 하는 경우, 다중 문서간의 구조적 유사성이나 차이 등을 파악할 필요가 있다. 특히 서로 다른 사이트나 문서관리 시스템에서 도출된 문서들을 병합하거나 분류할 필요가 있을 때, 두 문서의 병합 가능성 및 분류 기준을 파악하는 것은 매우 중요하다. 따라서 본 연구에서는 여러 문서들의 구조를 구성하는 경로들간의 유사성을 파악하기 위해 기존의 순차패턴 마이닝 알고리즘을 변형하였다. 변형된 순차패턴 마이닝 알고리즘[1]을 통해 두 문서간의 정확한 공유 경로를 찾을 수 있었다.

  • PDF

관계형 모델에 대한 XML계층 구조 사상 기법 (A Mapping Technique of XML hierarchical structure from Relational Model)

  • 안영희;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.196-198
    • /
    • 2002
  • 웹 상에서 다양한 데이터를 표현하고 정보교환을 위한 수단으로 등장하는 XML문서가 급속도로 증가하고 데이터베이스를 이용한 XML 문서 저장기법에 대한 많은 연구가 현재 진행되고 있다. XML 문서의 구조 정보를 활용하기 위해서는 기존의 문서와는 다른 계층적인 트리 방식으로 처리되어야한다. 본 논문에서는 관계형 데이터베이스에 XML문서를 저장할 때 XML이 지니는 구조정보를 효과적으로 데이터베이스에 표현할 수 있도록 스키마를 생성하는 사상 기법을 제안한다. XML 문서를 엘리먼트 타입에 따라 분류하여 효과적으로 스키마를 생성하고, XML문서의 구조를 나타내기 위해 레코드(record)단위로 ID를 생성한다. 또한 멀티미디어 데이터와 같은 동적인 데이터를 포함하고 있는 XML문서를 효율적으로 저장할 수 있고 빠른 검색이 가능하도록 스키마를 설계한다.

  • PDF

문서구조 추출기법을 이용한 엔지니어링 문서 텍스트 정보의 XML 변환 (Transformation of Text Contents of Engineering Documents into an XML Document by using a Technique of Document Structure Extraction)

  • 이상호;박준원;박상일;김봉근
    • 대한토목학회논문집
    • /
    • 제31권6D호
    • /
    • pp.849-856
    • /
    • 2011
  • 본 연구에서는 교량의 구조계산서와 같이 여러 종류의 머리기호를 사용하며 제목의 계층구조가 복잡한 형식을 띄는 엔지니어링 문서의 비구조화된 텍스트 정보를 제목의 계층 구조에 따른 준구조화된 XML 문서로 변환시키는 방법을 제시한다. 텍스트 정보로부터 제목의 계층구조를 자동으로 추출하기 위해 문서구조분석 방법의 하나인 문서구조추출 기법을 이용하는 방법을 개발하였으며, 특히 개조식 구문의 식별방법을 개발하여 구조계산서 문서 계층구조의 제목추출과정 및 계층구분의 전체 정확도를 향상시킬 수 있는 방법을 제시하였다. 제시된 방법에 따른 응용모듈을 개발하였으며, 총 40개의 교량 구조계산서를 대상으로 그 성능을 평가하였다. 먼저, 20개의 강거더 상부 구조계산서를 대상으로 선행 연구결과와 비교하여 본 연구에서 개발된 응용모듈의 정확성과 신뢰도가 향상됨을 보였다. 또한, 다른 구조형식에 대한 구조계산서 20개에 대하여 개발된 모듈의 적용성을 평가하였다. 그 결과 본 연구에서 제안한 방법에 의한 문서 계층구조 분석의 최종 정확도는 평균 99% 수준 이상을 나타내고, 표준편차는 1.52로 나타나 본 연구에서 제시된 방법이 다양한 형식의 머리기호를 사용하여 제목을 구분하는 여러 엔지니어링 문서에도 적용이 가능함을 보였다.

필드 구조 문서를 위한 교차 필드 검색 모델 (Cross Field Searching Model for Field Structured Documents)

  • 윤보현;왕지현;강현규
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.224-230
    • /
    • 2000
  • 기존의 전문 검색 시스템은 문서를 단지 단어의 연속이라는 제한적 관점에서만 바라보았다. 또한 기존의 필드 검색 시스템은 고정된 필드를 색인 및 검색대상으로 하거나, 문서의 내용이 아닌 메타 정보에 관한 검색만이 가능하였다. 본 논문에서는 내용과 필드 구조를 통합하여 가변 필드 구조 문서를 색인 및 검색하는 모델인 교차 필드 검색 모델을 제안한다. 기존 정보검색 시스템의 기능을 기본으로 제공하면서 필드구조를 색인/검색하기 위한 기능적 요구사항을 제시하고, 내용 및 필드 구조를 색인하면서 동적인 삽입/삭제가 가능한 색인 구조를 제안한다. 아울러 검색시에 문서 가중치를 계산하여 문서를 순위조정하는 분리언 모델, 확장 불리언 모델, 벡터 공간 모델의 변형 모델을 제시한다. 아울러 구현 사례로 STEER-XDS 검색 시스템에 대해 알아본다.

  • PDF

필드 구조 문서를 위한 교차 필드 검색 모델 (Cross Field Searching Model for Field Structured Documents)

  • 윤보현;왕지현;강현규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.224-230
    • /
    • 2000
  • 기존의 전문 검색 시스템은 문서를 단지 단어의 연속이라는 제한적 관점에서만 바라보았다. 또한 기존의 필드 검색 시스템은 고정된 필드를 색인 및 검색대상으로 하거나, 문서의 내용이 아닌 메타 정보에 관한 검색만이 가능하였다. 본 논문에서는 내용과 필드 구조를 통합하여 가변 필드 구조 문서를 색인 및 검색하는 모델인 교차 필드 검색 모델을 제안한다. 기존 정보검색 시스템의 기능을 기본으로 제공하면서 필드구조를 색인/검색하기 위한 기능적 요구사항을 제시하고, 내용 및 필드 구조를 색인하면서 동적인 삽입/삭제가 가능한 색인 구조를 제안한다. 아울러 검색시에 문서 가중치를 계산하여 문서를 순위조정하는 불리언 모델, 확장 불리언 모델, 벡터 공간 모델의 변형 모델을 제시한다. 아울러 구현 사례로 STEER-XDS 검색 시스템에 대해 알아본다.

  • PDF

XML 문서에서 엘리먼트 타입을 이용한 구조적 검색 기법의 설계 (Design of Structural Retrieval Scheme Using Element Type in XML Documents)

  • 김성완;정헌석;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.584-586
    • /
    • 2003
  • XML 문서의 검색을 위한 많은 연구들이 수행되고 있지만 순수하게 구조적 관계성만을 대상으로 하는 검색 즉, 구조적 검색 처리 기법에 대해서는 많이 다루지 않고 있거나 XML 문서 트리에 대한 반복적인 순회를 기반으로 처리하는 방법들이 제안되었다. 또한, 사용자가 원하지 않는 엘리먼트들을 제외하기 위해서는 부가적인 필터링 과정을 필요로 한다. 한편, 대부분의 XML 문서의 검색 관련 연구들은 엘리먼트의 삽입 또는 삭제 등 XML 문서의 부분적인 갱신 및 변경이 발생하는 환경을 고려하지 않고 있다. 본 논문에서는 사용자로부터 주어지는 질의에 포함된 엘리먼트 타입 정보 이용하여 XML 문서 트리에 대한 순회를 없애거나 최소화시키고, 필터링 과정도 필요로 하지 않는 구조적 검색 기법을 설계한다. 또한, 엘리먼트의 삭제 및 삽입 등 동적인 변경에 빠르고 유연하게 대처할 수 있는 인덱스 구조를 설계하고 이를 기반으로 구조적 검색 질의의 주요 유형에 대한 처리 방안을 예를 들어 설명한다.

  • PDF

구조적 문서의 효율적인 검색을 위한 자료 구조와 알고리즘 설계 (Design of Data Structures and Algorithms for Efficient Retrieval of Structured Documents)

  • 김영자;정채영;김현주;배종민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.60-62
    • /
    • 1999
  • SGML이나 XML과 같은 마크업 언어를 사용하여 생성된 구조적 문서에 대한 검색 시스템은 문서의 임의의 부분에 대한 검색을 지원한다. 문서의 구조에 바탕을 둔 다양한 유형의 사용자 질의를 처리하기 위해서는 색인에 필요한 메모리량이 커지게 된다. 색인에 필요한 메모리양을 줄이기 위해, 색인된 노드의 ID에서 찾고자 하는 노드의 ID를 계산할 수 있어야 한다. 그러나 이 경우 각 노드에 ID가 고정되기 때문에 문서의 갱신이 발생할 때 많은 부분이 수정되어야 하기 때문에 갱신에 필요한 오버헤드가 커지게 된다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 하여 노드의 ID를 구성함으로서, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시한다.

  • PDF

다중 문서에서 구조 정보를 이용한 XML 조인 질의 처리 (XML Join Query Processing using Structured Information from Multiple Documents)

  • 정성호;김병곤;정헌석;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.100-102
    • /
    • 2002
  • XML 문서에 대한 다양한 질의를 위해서 W3C에서는 XQL, XML-QL, XML-GL, XQUERY와 같은 질의어를 제안하였다. 이들 질의어는 다양한 질의 유형의 분류와 표현은 가능하나, 조인 질의의 경우 단순 조인 질의만을 지원할 뿐, XML 문서의 구조나 텍스트 정보의 유사성을 이용한 보다 다양한 조인 질의에 대한 연구가 미비하였다. 본 논문에서는 다중 문서에 대한 조인 질의를 체계적이고 효과적으로 표현하기 위해, 문서에 대한 조인 질의를 여러 타입으로 분류하였다. 또한 효율적인 질의처리를 위하여 다양한 일반 조인 질의 및 정보검색 기능을 지원하는 유사성 조인 연산자(similarity join operator), 순수 구조 기반 조인을 지원하는 구조 조인 연산자(structured join operator)를 지원하도록 XML 질의어인 QUILT를 확장하였다. 특히, 구조 정보만을 이용한 질의시 구조의 깊이(depth)정보를 이용하여 사용자의 요구에 맞게 질의 검색 범위를 설정하고, XML 문서에 대한 질의 문을 좀더 간결하게 표현할 수 있도록 설계하였다.

  • PDF

GDIT를 기반으로 한 구조적 문서의 효율적 검색과 갱신을 위한 인덱스 설계 (An Indexing Scheme for Efficient Retrieval and Update of Structured Documents Based on GDIT)

  • 김영자;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.411-425
    • /
    • 2000
  • SGML이나 XML언어를 사용하여 작성된구조적 문서들에 대한 정보검색 시스템들은 문서의 부분검색을 지원한다. 문서의 구조에 바탕을 둔 질의를 효율적으로 처리하기 위해서는 색인에 관련된 메모리 오버헤드를 줄여야 하고, 질의에 대한 응답시간이 빨라야 하고, 문서 구조에 바탕를 둔 다양한 유형의 사용자 질의를 지원해야 하며, 문서 구조에 대한 변경이 발생했을 때 색인 구조에 대한 변경사항을 최소화하여야 한다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 텍스트 레벨 엘리먼트만을 색인하여, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시하고 그 성능을 분석한다.

  • PDF

XML 문서의 안전한 브로드캐스팅을 위한 동적인 레이블링 기법 (Dynamic Labeling Scheme for Secure Broadcasting of XML Document)

  • 김민정;고혜경;이상근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.10-12
    • /
    • 2005
  • XML이 데이터 표현과 문서 교환의 표준으로 떠오름에 따라 XML문서에 대한 보안이 중요하게 되었다. 이 논문에서는 XML 보안을 위하여 W3C의 암호화 방법에 접근 제어 기법을 적용시킨 XML Pool Encryption 방법을 기반으로 XML 문서의 구조 정보를 빠르고 쉽게 파악할 수 있는 새로운 레이블링 기법을 제안한다. 제안하는 기법은 계층 구조의 특성을 갖는 XML 문서에서 하위 정보의 위치에 상위 정보의 위치를 포함시킴으로써 문서 일부에 대해서도 구조 정보의 유추가 가능하다. 또한 XML문서의 변화(문서의 갱신, 수정. 삭제) 시에도 문서 전체의 레이블링을 변화시키지 않고, 변화하는 부분에 대해서만 새로운 레이블을 부여한다는 장점이 있다. 실험 결과에서는 제안된 기법이 XML 문서상에서의 위치 정보를 찾는 데에 효율적임을 보여준다.

  • PDF