• Title/Summary/Keyword: 문서 구조 분석

Search Result 497, Processing Time 0.027 seconds

Design and Implementation of A Structure Analyzer for Efficient Homepage Management (효율적인 홈페이지 관리를 위한 구조 분석 시스템의 설계 및 구현)

  • 최봉준;박규석
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11b
    • /
    • pp.1027-1030
    • /
    • 2003
  • 네트워크기술의 발달로 인하여 인터넷 이용자의 급증과 함께 그에 따른 정보를 제공하기 위한 인터넷 홈페이지도 기하급수적으로 증가하게 되었다. 인터넷 홈페이지의 운영 기간이 증가함에 따라 홈페이지를 구성하는 웹 문서와 웹 컨텐츠의 수도 증가하게 된다. 따라서, 이러한 웹 문서와 웹 컨텐츠에 대한 관리를 위하여 WCMS(Web Contents Management System)이 도입되고 있지만, WCMS에서는 웹 컨텐츠의 생성, 출판, 관리가 주요 기능으로, 웹 컨텐츠의 사용 횟수, 웹 문서의 다운로드 속도, 웹 문서 다운로드 용량, 데드 링크 여부 등을 분석하고 관리해 주는 소프트웨어가 필요하게 되었다. 본 논문에서는 웹 문서를 시각적으로 분석하여 웹 컨텐츠를 추출하고 웹 문서 내에서의 웹 컨텐츠 위치 및 크기를 분석한 후, 웹 컨텐츠의 연결 가능 여부를 분석하여 데드링크일 경우, 시각화하고, 웹 컨텐츠가 얼마나 사용되는지 등 홈페이지를 효율적으로 관리할 수 있는 구조 분석 시스템을 설계 및 구현하였다.

  • PDF

An Efficient Querying Method for XML Documents (XML 문서에 대한 효율적인 검색기법)

  • Yun, Jeong-Hye;Lee, Mee-Hee;Woo, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.11-14
    • /
    • 2004
  • 최근에 전자상거래, e-learning, e-book 등과 같은 다양한 분야에서 디지털 문서의 효율적인 관리를 위하여 XML문서를 이용하고 있다. 이에 따라 대량의 XML 문서들을 효율적으로 저장하고 관리하는 시스템의 필요성이 증가하고 있다. 이러한 시스템의 대부분은 XML 문서가 트리 구조로 이루어져 있기 때문에 DOM을 이용하고 있다. 그러나 DOM은 문서 전체의 문서 구조 정보를 메모리 트리 구조로 생성하는 과정에서 많은 시스템 자원을 필요로 한다. 본 논문에서는 이벤트-기반인 SAX를 이용하여 문서의 구조 정보를 내부 트리 구조로 만드는 대신 구문 분석 이벤트를 직접 응용프로그램에 전달하는 방법을 사용함으로써 DOM에서의 시스템 자원을 많이 사용하는 문제를 해결하였다.

  • PDF

A New Method for Nonparametric Document Layout Analysis (매개변수에 무관한 새로운 문서 구조 분석 방법)

  • 류대석;강선미;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.482-484
    • /
    • 1999
  • 본 논문에서는 매개변수 없이 입력 문서 영상을 최대 동질 영역들로 분할한 다음, 각 동질 영역을 텍스트, 그림, 표 그리고 선으로 자동 분류하는 새로운 방법을 제안한다. 다단계 분석과 하향식 접근 방법을 사용하기 위하여 문서 영상을 피라미드 구조로 계층화하였으며, 어떤 영역을 분할할 지의 여부를 결정하기 위하여 그 영역의 주기성을 이용하여 판단하였다. 이러한 주기성 정보를 이용함으로써, 어떠한 매개변수 없이도 활자체 크기와 행간에 무관하게 텍스트 영역을 정확히 분석할 수 있었으며, 피라미드 구조를 만드는데 걸리는 시간이 질감 분석 접근방법보다 빠른 방법으로 설계되었다. Washington 대학의 문서 영상 데이터베이스를 이용한 실험 결과, 제안된 방법이 기존의 방법들보다 더 정확하게 문서 영상을 분할 및 분류할 수 있음을 확인할 수 있었다.

  • PDF

The Efficient Schema Conversion to map the XML Document into the RDB (XML의 RDB로의 맵핑을 위한 효율적인 스키마 변환)

  • 김태희;김선경
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2003.11a
    • /
    • pp.429-433
    • /
    • 2003
  • 웹상의 문서는 데이터 중심의 표준 언어인 XML 문서로 표현된다. XML 데이터를 범용적이고 우수한 성능의 관계형 데이터베이스와 연동하여 이용하기 위해서는 두 구조 사이의 맵핑 과정이 필요하다. 계층적 구조의 XML 문서와 데이터베이스의 평면적인 구조의 차이를 고려한 구조 맵핑을 위해서 검색 시스템에 적합한 가상분할 방식으로 엘리먼트를 분석하여 관계 스키마를 정의한 후 XML 문서를 저장한다. 이를 위해 스키마는 DTD 에 독립적인 형태로 변환하고, 엘리먼트의 추가와 삭제, 검색의 효율성을 위해 노드간의 위치 정보와 함께 독립적인 ID를 부여하여 구조적 검색을 수행할 수 있게 하였다.

  • PDF

A Design and Implementation of XML Document Retrieval System Based on XQL supporting Web Publishing Framework (웹 출판 프레임워크를 지원하는 XQL기반 XML 문서 검색 시스템 설계 및 구현)

  • Moon, Jong-Hwan;Kim, Cheol-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1095-1098
    • /
    • 2001
  • 정보의 구조적 표현 가능하고 인터넷을 기반으로 하는 정보교환의 매개체로써 다양한 응용분야에 확산되고 있는 XML(extensible Markup Language)은 차세대 인터넷 전자문서 표준으로 주목받고 있다. 최근들어 기존 문서를 XML로 변환하거나 신규 문서를 XML로 작성하는 사례가 늘면서 대량의 XML문서가 생성되고 있으며 이에 따라 대량의 XML 문서를 효율적으로 검색하기 위한 XML 검색 시스템이 요구되어지고 있다. 본 논문에서는 내용기반, 구조기반, 속성기반 검색을 지원하는 XML 문서의 질의언어로 제안되어진 XQL과 XML 문서를 분석하는 문서 구조 처리기, 사용자 입력 질의를 실행하기 위한 질의 언어 처리기를 가지는 XML 문서검거 시스템을 제시하고 검색된 문서의 견과를 웹 출판 프레임워크(Web Publishing Framework) 인 Cocoon을 적용하여 다른 포맷의 문서로 전환 가능한 시스템을 설계 및 구현하였다.

  • PDF

Text Undestanding System for Summarization (텍스트 이해 모델에 기반한 정보 검색 시스템)

  • Song, In-Seok;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

A Study on Adaptive Web Site Construction by Analyzing User Access Patterns (사용자 접근 패턴 분석을 이용한 적응형 웹사이트 구축에 관한 연구)

  • 고경자;김인철
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.151-157
    • /
    • 2000
  • 본 논문에서는 웹사이트에 접근하는 사용자 접근 패턴을 학습하여 정보 제공이 보다 용이한 구조로 자동 개선시켜 나가는 적응형 웹사이트를 구축하고자 한다. 즉, 기존 웹사이트의 구조를 가늠한 한 파괴하지 않는 범위 내에서 김 사이트를 변경하고자 관련성은 높으나 접근 경로가 긴 문서들의 클러스터를 찾아내고, 이들에 대한 별도의 색인 페이지를 생성하여 웹사이트 내에 위치시킨다. 이를 위하여, 먼저 대용량의 웹 서버 로그 데이터들을 대상으로 순차 패턴 탐색 방법인 AprioriAll 알고리즘을 적용함으로써 웹문서간의 충분한 연관성 지지도를 갖는 사용자 순차 접근 패턴을 분석해낸다. 사용자 순차 접근 패턴 분석을 통해 관련성 있는 문서들의 집합을 알아낸 후, 웹사이트의 하이퍼 링크 구조 정보를 고려하여 접근 경로가 긴 문서들만을 골라 웹 문서 클러스터를 생성시킨다. 이러한 웹문서 클러스터들에 대한 색인 페이지를 추가 생성하여 제공함으로써 사용자들의 보다 효과적인 정보 접근을 지원한 수 있는 웹사이트로의 변경이 가능하다.

  • PDF

ETRI신기술-DSSSL 준거 SGML 브라우저 기술

  • Electronics and Telecommunications Research Institute
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.3 s.57
    • /
    • pp.120-122
    • /
    • 1999
  • 문서의 내용을 효율적으로 표현하기 위해서는 문서를 문서구조와 형식으로 분리하는 것이 필요하다. 인터넷에서의 문서구조는 SGML(Standard Generalized Markup Language)에서 파생된 HTML로 표현하는 것이 일반화되었으며, 1996년에 이르러 문서형식 부분도 DSSSL(Document Style Semantics and Specification Language: ISO/IEC 10179)로 제정되었으나 아직 개발 사례는 없다. 동 기술은 DSSSL 형식에 따라 복합문서를 볼 수 있게 개발한 Library를 기반으로 SGML 기반 브라우저를 1998년 4월 세계 최초로 개발하였다.

  • PDF

Analysis of file structure about Red Star's SeoKwang Document Processing System for security vulnerability analysis (보안 취약점 분석을 위한 붉은별(Red Star) 서광문서처리체계 파일 구조 분석)

  • Park, Chanju;Kang, Dongsu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.110-112
    • /
    • 2018
  • 북한은 소프트웨어 개발기관인 조선콤퓨터센터(KCC)를 설립하고 자체 소프트웨어를 개발하여 사용하고 있다. 조선콤퓨터센터(KCC)는 리눅스 오픈소스 기반의 붉은별 운영체제를 개발하고, 내부 응용프로그램인 서광문서처리체계를 개발하여 사용하고 있다. 이러한 내부문서체계의 보안 취약점을 분석하기 위해 서광문서체계와 유사한 워드프로세스의 CVE 보안 취약점을 분석하고, 서광문서체계의 파일인 ODT 파일의 구조를 분석한다.

Main Points Extraction and Layout Vectorization of Hand-designed Forms (손으로 설계한 서식 문서의 주요점 검출 및 서식 구조 벡터화)

  • Kim, Byeong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.519-522
    • /
    • 2001
  • 본 논문은 손으로 자유롭게 그린 서식 문서의 주요점을 검출하여 서식의 구조를 벡터화하는 방법을 제안한다. 선 성분의 주요점을 검출하여 그 구조를 벡터화하는 방법은 주로 인쇄 서식 문서의 구조 분석에 적용하기 좋은 방법이다. 이에 반해 손으로 설계한 서식 문서는 주요점 부분이 왜곡되어 있기 때문에 주요점의 검출이 손쉽게 이루어지기 곤란하다. 이 논문에서는 이러한 문제를 해결하기 위해 손으로 설계한 서식 문서를 세선화한 다음 여유 성분을 갖는 마스크를 적용하고 후처리를 통해 주요점 부분의 심한 왜곡을 보상하는 방법을 제안하여 손으로 설계한 서식 문서에서도 주요점의 검출이 가능하도록 하였다. 제안한 방법의 유효성을 확인하기 위한 실험 결과 손으로 설계한 서식의 경우 91.9%, 인쇄 서식의 경우 100%의 벡터화 성공률을 보여주어 제안한 방법이 손으로 설계한 서식 구조의 벡터화에 유효함을 확인하였다.

  • PDF