• 제목/요약/키워드: 문서지

검색결과 2,040건 처리시간 0.029초

XML 저장 관리 시스템에서 효율적인 버전 관리 및 문서 저장 방안 (An Efficient Method of Document Store and Version Management for XML Repository System)

  • 정현주;김권양;최재혁
    • 컴퓨터교육학회논문지
    • /
    • 제6권4호
    • /
    • pp.11-21
    • /
    • 2003
  • 빠르게 변하는 정보화 사회에서 방대한 양의 문서 정보를 전자 문서로 만들고 관리하는 것은 필수적이다. 이러한 전자 문서를 표현하는 데 있어서 사용하는 문서 내에 포함된 모든 정보를 손실 없이 저장하고 관리하는데 적합한 언어가 전자 문서의 표준인 XML이다. 본 논문에서는 문서의 변경이 발생한 경우에 문서 전체가 아닌 변경이 발생한 내용만 버전을 부여하고 저장함으로써 저장 공간을 절약하였다. 그리고 문서의 변경 내용이 일정한 크기 이하이면 JOIN 연산을 생략할 수 있도록 시스템을 설계함으로써 JOIN 연산으로 인한 시스템의 성능 저하를 줄여 효율적인 XML 문서 저장과 빠른 검색 및 버전 관리가 가능한 방안을 제시하고, 이를 적용한 문서 저장 관리 시스템을 구현하였다.

  • PDF

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

인터넷 정보 추출을 이용한 웹문서 구조화 (Web Site Construction Using Internet Information Extraction)

오류 학습 문서 제거를 통한 문서 범주화 기법의 성능 향상 (A Text Categorization Method Improved by Removing Noisy Training Documents)

  • 한형동;고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.912-919
    • /
    • 2005
  • 문서 범주화에서 이진 분류를 다중 분류에 적용할 때 일반적으로 '한 범주에 적합-다른 모든 범주에서는 부적합(One-Against-All) 판정 방법'을 사용한다. 하지만, 이러한 '한 범주에 적합-다른 모든 범주에서는 부적합 판정 방법'은 한 가지 문제점을 가지는데, 적합(positive) 집합의 문서들은 사람이 직접범주를 할당한 것이지만 부적합(negative) 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 많이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 슬라이딩 원도우(sliding window) 기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 제안된 기법은 먼저 슬라이딩 윈도우 기법을 사용하여 오류 문서들을 추출하고 이들을 EM알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

의미관계 정보를 이용한 약품 온톨로지의 구축과 활용 (Medicine Ontology Building based on Semantic Relation and Its Application)

  • 임수연;박성배;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.428-437
    • /
    • 2005
  • 온톨로지는 주어진 응용 도메인의 특성을 나타내는 관련 개념들의 집합과 정의, 그리고 그들간의 관계로 이루어진다. 본 논문에서는 온톨로지를 구축하고 갱신할 때의 시간과 비용을 줄이기 위하여 텍스트의 분석결과를 이용한 도메인 온톨로지의 반자동 구축방안을 제안한다. 이를 위하여 관련 문서들 내에 출현한 전문용어들의 처리방안을 제시하고, 추출한 개념들과 그들간의 관계를 온톨로지의 구축에 활용한다. 실험 도메인은 약품분야로 정하였으며, 구축한 온톨로지는 문서의 검색에 활용하였다. 온톨로지 내의 계층관계들이 문서검색에 효용이 있음을 보이기 위하여 일반적인 키워드기반 문서검색과 온톨로지 내의 관련 정보들을 연관피드백에 이용한 온톨로지기반 문서검색을 비교한 결과, 후자의 경우 정확률이 $4.97\%$, 재현율이 $0.78\%$ 향상됨을 알 수 있었다.

문장 중요도를 이용한 자동 문서 범주화 (Automatic Text Categorization using the Importance of Sentences)

  • 고영중;박진우;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.417-424
    • /
    • 2002
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나, 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서 요약에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이타를 구축하고 실험하였으며 문장 중요도를 사용하지 않은 시스템 보다 향상된 성능을 얻을 수 있었다.

U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서 (An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment)

  • 주길홍;최진탁
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.859-872
    • /
    • 2004
  • 컴퓨터와 통신 기술이 발전함에 따라 최근의 교육 환경은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습 방향으로 나아가고 있다. 방대한 양의 학습정보들은 대부분 문서 형태로 관리되고 있기 때문에 문서 단위로 표현된 많은 정도들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서틀을 주제별로 통합하는 방법으로 대용량의 문서들을 자통으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 따라서 본 논문에서는 새로운 학습 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 학습 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고. 이미 생성된 클러스터들의 구조를 적응적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 글러스터링의 정확도극 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안한다.

  • PDF

공인전자문서 보관소에서 생성되는 로그의 효율적이고 안전한 보관방법에 대한 연구 (An Efficient and Secure Method for Managing Logs of Certified e-Document Authority Using Hash Tree)

  • 장신명;문종섭
    • 융합보안논문지
    • /
    • 제9권2호
    • /
    • pp.23-32
    • /
    • 2009
  • 우리나라는 전자거래기본법에 의거해 2005년 3월 세계 최초로 공인 전자문서 보관소 제도를 채택하였다. 이를 통해 전자문서의 등록 보관 유통을 국가가 공인하는 보관소를 통해 이룰 수 있다. 공인 전자문서 보관소는 이용기관이나 이용자가 등록하는 문서의 보관도 중요하지만 수행한 이력을 안전하게 보관하는 것도 중요하다. 모든 수행 이력에는 공인된 인증서를 이용하여 전자 서명을 하도록 되어있지만 그 관리가 어려운 것이 사실이다. 본 논문에서는 공인전자문서 보관소 내에서 생성된 전체 로그를 효율적으로 인증할 수 있게 해시트리를 적용하여 관리하는 기술에 대한 연구를 서술한다.

  • PDF

유사 구조를 가지는 XML 문서들의 DTD 통합 알고리즘 (A Unification Algorithm for DTDs of XML Documents having a Similar Structure)

  • 유춘식;우선미;김용성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1400-1411
    • /
    • 2004
  • 논리적으로 동일한 종류에 속하여 서로 유사한 구조를 가지는 많은 XML 문서들이 서로 다른 종류로 분류되어 서로 다른 문서형 정의(DTD)를 가지게 되는 경우가 많다. 이로 인하여 XML 문서를 저장하기 위한 데이타베이스의 스키마가 서로 다르게 되고, 동일한 데이타베이스에 저장되어야 하는 XML 문서들이 서로 다른 데이타베이스에 저장되는 문제점이 발생하게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 유한 오토마타와 트리구조를 이용하여 유사한 구조를 가지는 XML 문서들의 DTD를 통합하는 알고리즘을 제안한다. 유한 오토마타는 DTD의 반복연산자나 연결자를 표현하기에 적합하고 표현 방법이 단순하므로 DTD 통합 알고리즘의 복잡도를 감소시킬 수 있다. 또한 제안한 알고리즘의 효과성을 검증하기 위하여 국내 학회 논문지의 논문 DTD를 통합하는데 본 논문에서 제안한 알고리즘을 적용한다.

문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템 (An Efficient Parallel Information Retrieval System using Document Clustering)

  • 강유경;류광렬;정상화
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권2호
    • /
    • pp.157-167
    • /
    • 2001
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

  • PDF