• 제목/요약/키워드: 문서표현

검색결과 1,136건 처리시간 0.03초

XML 문서를 위한 구조정보 추출기의 설계 및 구현 (Design and Implementation of a Structure Information Extractor for XML Documents)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

능동문서: 서식설계자의 의도가 내장된 프로그램 (Active Documents: Another Kind of Program Implying Intention of Form Designers)

  • 남철기;배재학;유해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.353-356
    • /
    • 2003
  • 인터넷 기반의 많은 응용이 문서중심의 컴퓨팅 모델로 전환되고 있다. 문서는 문서설계자의 의도를 함축하고 있으며 이는 업무처리 과정의 자동화에 적극적으로 활용될 수 있다. 이러한 무서의 본질 파악을 통해 본 논문에서는 문서를 실행 가능한 컴퓨터 프로그램의 시각으로 접근한다. 이를 위해 서식, 데이터, 규칙 그리고, 질의로 구성되는 능동문서 모델을 제시한다. 모델의 각 요소는 문서의 재사용성과 상호 운영성을 위해 XML로 일관되게 표현된다. 능동문서는 사용자 인터페이스를 제공하는 수동적인 역할뿐만 아니라 문서설계자가 의도하는 문서처리 절차와 업무규칙을 기계가 읽고 추론하여 처리할 수 있는 문서이다. 이를 통해 문서와 기계가 상호작용을 할 수 있으며 다른 응용 프로그램과 협력할 수도 있다. 이러한 능동문서의 적용 가능함을 보이기 위해 기업가거래(B2B) 시스템에서 구매주문 처리의 예를 보였다. 요컨대 본 논문에서 제시한 능동문서는 지식표현 및 처리기능이 내장되어 있는 바, 문서중심의 지능적인 응용프로그램 개발을 가속화하는 토대를 마련할 수 있을 것으로 기대한다.

  • PDF

< a href > 태그 추출을 이용한 웹 문서 구조화 (Web site construction using tag extraction)

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다. 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서요약 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC 에서 구축한 신문기사 105 건을 이용하였다. 문서요약 시스템에 의해서 생성된 요약문서의 크기가 본문 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

효과적인 웹 문서 추천을 위한 동적 사용자 프로파일 생성 기법 (Dynamic User Profile Creation Method for Effective Recommendation for Documents on the Web)

  • 윤윤경;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.453-455
    • /
    • 2000
  • 기하급수적으로 증가하는 인터넷의 정보량에서 최적의 정보를 찾고자 하는 사용자의 요구가 증가함에 따라 개별적 사용자에게 필요한 정보만을 제공하는 것이 필요하다. 이러한 사용자의 요구를 충족시키기 위해 사용자의 행동을 관찰하고 학습하여 사용자 대신 문서를 수집하는 웹 문서 추천 에이전트의 필요성이 대두되었다. 본 논문에서는 웹 문서 추천에이전트에서 사용되는 프로파일을 효과적으로 생성하고 학습하기 위한 문서 표현 방법, 특징 선택법을 제안한다. 제안된 문서 표현 방법은 슬라이딩 윈도우 방법을 통해 인접한 단어쌍의 문맥 정보를 이용하고, 의존 구조를 이용하며 사용자의 관심 변화에 빨리 적응 할 수 있도록 시간에 대한 가중치를 반영한다. 제안된 방법으로 프로파일을 구성한 웹 문서 추천 에이전트는 사용자의 관심 분야를 효과적으로 반영하고 관심 변화에 빨리 적응하여 사용자에게 알맞은 문서를 추천한다.

  • PDF

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

지식기반 방식을 이용한 웹 뉴스문서 검색 에이전트 시스템 연구 (A Study of Knowledge Based Agent System for Web New-Document Retrieval)

  • 이성열;백혜정;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.102-104
    • /
    • 2000
  • 현재 인터넷상의 정보와 문서의 양은 상상을 초월하는 증가추이를 나타내고 있다. 이와 더불어 표현하려는 목적에 따라 체계적으로 정리되고 정형화된 문서들 또한 증가하고 있다. 이러한 문서들 중에는 각 인터넷 신문사나 웹진과 같은 문서들이 포함되는데, 이러한 문서들은 각각의 내용구성과 표현 형식에 있어서 비슷한 구성을 지니고 있다. 본 논문에서는 이러한 체계적이고 정형화된 웹 뉴스 문서검색을 위하여 '지식기반 방식을 이용한 웹 뉴스문서 검색 에이전트 시스템'을 제안한다. 사용자는 시스템에서 제공하는 지식을 기반으로 검색하고자 하는 대상을 에이전트 시스템에게 요청하게 되고 지식기반을 이용한 에이전트 시스템은 보다 정확한 정보를 사용자에게 제공하게 된다.

  • PDF

관계형 모델에 대한 XML계층 구조 사상 기법 (A Mapping Technique of XML hierarchical structure from Relational Model)

  • 안영희;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.196-198
    • /
    • 2002
  • 웹 상에서 다양한 데이터를 표현하고 정보교환을 위한 수단으로 등장하는 XML문서가 급속도로 증가하고 데이터베이스를 이용한 XML 문서 저장기법에 대한 많은 연구가 현재 진행되고 있다. XML 문서의 구조 정보를 활용하기 위해서는 기존의 문서와는 다른 계층적인 트리 방식으로 처리되어야한다. 본 논문에서는 관계형 데이터베이스에 XML문서를 저장할 때 XML이 지니는 구조정보를 효과적으로 데이터베이스에 표현할 수 있도록 스키마를 생성하는 사상 기법을 제안한다. XML 문서를 엘리먼트 타입에 따라 분류하여 효과적으로 스키마를 생성하고, XML문서의 구조를 나타내기 위해 레코드(record)단위로 ID를 생성한다. 또한 멀티미디어 데이터와 같은 동적인 데이터를 포함하고 있는 XML문서를 효율적으로 저장할 수 있고 빠른 검색이 가능하도록 스키마를 설계한다.

  • PDF

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

문서관리를 위한 자동문서범주화에 대한 이론 및 기법 (An Automatic Text Categorization Theories and Techniques for Text Management)

  • 고영중;서정연
    • 정보관리연구
    • /
    • 제33권2호
    • /
    • pp.19-32
    • /
    • 2002
  • 최근 디지털 도서관이 등장하고 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 효율적인 정보 관리 및 검색이 요구되고 있다. 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 하는 동시에 방대한 양의 수작업을 감소시키는데 그 목적이 있다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 색인 과정을 통해 표현한다. 또한, 문서 분류기를 통해 문서를 목적에 맞게 분류한다. 본 논문에서는 자동 문서 범주화를 수행하기 위한 각 단계를 소개하고 각 수행 단계에서 사용되는 여러 가지 기법들을 소개하고자 한다.