• 제목/요약/키워드: 문서구조

검색결과 1,613건 처리시간 0.026초

경로 기반의 XML 문서 유사도 계산 기법 (Technique for Path-based Similarity Evaluation of XML Documents)

  • 이동애;장덕성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.689-692
    • /
    • 2004
  • XML은 의미적으로는 동일하거나 혹은 유사하지만 서로 다른 구조의 XML 문서들을 허용하므로 XML 문서들을 대상으로 하는 검색, 클러스터링 등의 응용에서는 XML 문서들간의 유사도 계산이 선행되어져야 한다. XML 문서간 유사도를 계산하기 위해서는 문서의 구조 정보인 엘리먼트들과 이들 엘리먼트들의 계층적 구조가 고려되어져야 한다. 본 연구에서는 두 XML 문서가 얼마나 유사한 경로들을 공통으로 가지냐를 두 문서간의 유사도로 보고, 경로 유사도 계산식과, 이를 기반으로 하는 문서 거리 및 문서 유사도 계산식을 정의하여, 유사도 계산 기법을 제안한다. 제안된 기법과 기존 유사도 계산 기법들을 예제 문서들을 통해 계산결과를 비교한다.

  • PDF

온톨로지의 개념구조에 의한 웹페이지의 의미적 분류 (Semantic Classification of Web Pages using Ontology Concept Structure)

  • 송무희;임수연;박승배;강동진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.487-489
    • /
    • 2005
  • 본 논문에서는 온톨로지의 개념구조를 이용한 웹페이지의 의미적 분류방법을 제안한다. 웹 문서들이 가지는 용어 정보들과 어휘들 간의 개념 구조를 파악하여 온톨로지를 확장시키면서 이를 문서분류에 적용하여 의미적 분류가 이루어지게 한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하여 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 온톨로지와 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

웹 스키마를 이용한 HTML 문서의 XML 변환 (XML Conversion of HTML Documents Using Web Schema)

  • 오금용;박동문;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.175-177
    • /
    • 2001
  • 최근에 웹(Web) 사용의 지속적이 증가로 인하여 정보가 급증하고, 이로 인하여 웹은 정보교환의 의미뿐아니라 정보 저장이라는 중요한 의미를 지니게 되었다. 하지만 현재 많은 웹 페이지들이 HTML(Hyper Text Markup Language)문서로 제작되어 있어 정보관리의 의미에서 많은 부족함이 있고 이를 보완하기 위한 방법 중에 하나가 구조적이고 기능적 언어로 부상하고 있는 XML(exTensive Markup Language)을 기반으로 하여 문서를 제작하거나 변환하는 것이다. 본 논문은 HTML문서를 XML문서로 변환하는데 있어HTML문서 구조를 분석하고 분석결과를 토대로 형성되는 웹 스키마(Schema)를 이용하여 구조 중심의 변환이 이루어지도록 하는 방법에 대해서 제안한다.

  • PDF

구조 및 내용-기반 멀티미디어 문서검색 시스템의 설계 및 구현 (Design and Implementation of a Structure and Content-based Multimedia Document Retrieval System)

  • 진두석;이정재;장재우
    • 한국정보처리학회논문지
    • /
    • 제7권11호
    • /
    • pp.3341-3355
    • /
    • 2000
  • 최근 멀티미디어 문서의 개수가 기하 급수적으로 증가함에 따라, 사용자가 요구하는 멀티미디어 문서를 보다 효과적으로 저장 및 검색할 수 있는 멀티미디어 문서 검색 시스템을 개발하는 것이 필요하다. 본 논문에서는 XML로 정의된 문서를 문서 구조 및 이미지 내용을 기반으로 보다 효율적으로 검색할 수 있는 시스템을 설계 및 구현한다. 효율적인 구조-기반 검색을 지원하기 위해서 구조 인덱스를 o2store 저장 시스템을 사용하여 구현한다. 아울러 내용-기반 검색을 지원하기 위해서 X-트리에 기반한 효율적인 고차원 색인구조를 구현한다. 마지막으로 구현된 멀티미디어 문서검색 시스템을 검색시간, 저장시간, 부가 저장 공간의 관점에서 성능평가를 수행한다.

  • PDF

XML 시각화를 통한 자동 질의문 생성 (Auto generation of a query language through visualization of XML)

  • 송민호;이기호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.637-639
    • /
    • 2002
  • XML 문서를 효과적으로 관리하고 검색하기 위한 다양한 XML 질의 언어에 대한 연구가 활발히 수행되고 있지만 다양한 XML 질의 언어의 구문은 일반 사용자들이 숙지하는데 어려움이 있고, 또한 텍스트 형태의 XML 문서는 계층적인 구조로 되어있어 이러한 XML 문서의 구조를 알아야만 질의를 할 수 있다는 문제점이 있다. 따라서 본 논문에서는 복잡한 XML 질의어 구문과 질의 대상인 XML 문서의 구조를 동시에 시각화하고, 사용자와의 상호작용을 통해 질의문을 자동으로 생성하고자 한다. 이를 위해 본 논문에서는 다음과 같이 세 가지 컴포넌트를 기반으로 자동 질의어 생성을 위한 visual query interface를 제안하였다. 이 컴포넌트는 계층적 XML 문서 구조를 보여주는 XML structure viewer, 질의에 사용되는 연산자들을 아이콘화한 operator panel, 그리고 이 두 컴포넌트의 상호작용으로 작성된 질의 구문을 문법적으로 검사하기 위한 query statements panel로 구성된다. 이를 통해 다양한 계층적인 XML 문서의 구조와 복잡한 XML 질의 언어의 구문에 대해서 잘 모르는 초보자라 하더라도 쉽게 XML 문서 상에서 질의를 할 수 있다.

  • PDF

멀티미디어를 활용한 가상대학 XML 문서에서 Paser의 역할 (The Role of Paser for XML Documents using Multimedia in the Crber University)

  • 공범용;황병곤;조세홍
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.745-750
    • /
    • 2002
  • 최근 인터넷기술이 발전하면서 교육환경에서 멀티미디어 기술을 활용한 패러다임 전환이 이루어지고 있고, 이 전환에 가상대학에서 사용되어 지고 있는 문서의 역할의 중요성은 크게 주목을 받고 있다. 문서의 표준화를 위하여 구조적인 문서 처리가 가능한 XML이 대두될 것이다. XML에서 논리적 구조를 표현하는 방법은 사용자 정의인 문서타입(DTD)과 XML Schema의 두 가지 방식이 있으며, 향후 멀티미디어를 활용한 XML 문서에서 Paser의 역할이 중요하게 될 것으로 예측되어진다. 이에 따라 본 논문에서는 멀티미디어를 활용한 XML 문서에 필요한 자료들을 분석하고 가상대학에서 발생되는 문서행정업무를 효율적으로 지원하는 방안을 제안하는 XML 문서에서 Paser의 역할을 제시하고자 한다.

  • PDF

문서의 동적 삽입 삭제를 위한 STEER 역파일 구조 (STEER Inverted File Structure for Dynamic Document Insertion/Deletion)

  • 김남일;박영찬;주종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.174-176
    • /
    • 1998
  • 역파일 구조(inverted file structure)는 검색 속도가 빠르기 때문에 정보검색 시스템의 색인정보 하부 저장구조로 널리 이용되지만 문서의 동적 삭제는 어려운 형태이다. 본 논문에서는 기존역파일 구조에 문서마다 색인어의 포스팅 레코드를 기록한 목록을 유지함으로써 문서의 동적 삭제가 용이하고, 위치정보를 포스팅 레코드에서 분리하여 위치 검색이 효율적인 역파일 구조를 설계한다. 설계된 역파일 구조는 STEER(Structured Entity Element Retrieval) 정보검색 시스템에서 구현되었다.

  • PDF

엔지니어링 문서의 문장 자동 계층정의 방법론 (The methodology of automatic hierarchical definition for the sentences in engineering documents)

  • 박상일;김봉근;김경환;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2009년도 정기 학술대회
    • /
    • pp.352-355
    • /
    • 2009
  • 본 연구에서는 토목분야의 엔지니어링 문서를 대상으로 자동으로 문장의 계층을 정의하여 비 구조화 문서를 준 구조화 문서로 변환하는 방법론을 제시하고, 이를 시범적으로 구현하였다. 이는 기본적으로 문장의 머리기호가 그 문서에서의 계층을 표현한다는 점을 바탕으로 연구가 이루어졌다. 이를 위하여 본 연구에서는 첫째, 문장을 머리기호와 내용으로 분리하는 방법을 개발하였고, 둘째, 분리한 머리기호를 바탕으로 머리기호간 상대적인 위치를 파악하여 문장의 계층을 정의하는 프로세스를 제안하였다. 또한 제안한 방법을 이용하여 구현한 시범 모듈을 실무에서 사용하는 엔지니어링 문서를 대상으로 성능을 평가하여 개발한 모듈의 효용성을 검증하였다.

  • PDF

MathML 수식 편집을 포함한 XML문서편집 시스템의 설계 및 구현 (Design and implementation of XML document edit system, inclusive of MathML mathematical formula edit)

  • 윤화묵;김철순;정회경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.250-252
    • /
    • 2002
  • 정보화 사회로 발전해 나아감에 따라 컴퓨터를 이용한 문서처리의 중요성이 날로 증가해 가면서, 문서를 전자적으로 처리하기 위한 전자문서처리 시스템이 널리 이용되고 있는 실정이다. 하지만 기존의 문서편집 시스템들에서 수학식의 표현은 이 미지나 텍스트 등의 비 구조적인 방법에 의해 표현되거나 처리됨에 따라 사용자가 읽거나 표현하는데 어려움이 있다. 따라서 이러한 단점을 보완하면서 최소한의 노력으로 효과적으로 수학식을 표현하는 구조적 인 문서생성을 위한 노력이 필요하다. 이에 본 논문에서는 수학식 표현을 구조적으로 생성해주는 MathML(Mathematical Markup Language)의 적용이 가능한XML(eXtensible Markup Language)기반의 구조적 문서생성을 위한 문서 편집 시스템을 설계 및 구현하였다.

  • PDF

< a href > 태그 추출을 이용한 웹 문서 구조화 (Web site construction using tag extraction)