• Title/Summary/Keyword: 문서

Search Result 7,090, Processing Time 0.034 seconds

Implementation of A Browser for SGML-based Text Documents (SGML 기반의 텍스트 문서 브라우저의 구현)

  • Jang, Myung-Gil;Lee, He-Ran;Zhoo, Zong-Cheol;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.499-504
    • /
    • 1994
  • 기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.

  • PDF

A Web Document Ranking Method Using Knowledge Information (지식 정보를 이용한 웹 문서 순위 결정 방법)

  • 이용현;변영태;구연건
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.135-137
    • /
    • 1998
  • 다양하고 방대한 양의 정보가 산재해 있는 웹의 정보 소스들 중 특정 도메인에 해당하는 문서를 판단하는 방법과 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법을 제안한다. 웹에 산재되어 있는 정보들은 특정 도메인에 적합한 문서들만을 저장하기 위해 특정 지식 베이스를 기반으로 하는 지식 정보를 이용하여 문서의 평가 작업을 한다. 또한 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법으로 두 단계의 처리를 거친다. 첫째, 사용자로부터 주어진 질의에 대해 그 질의를 이루고 있는 각 단어들에 대한 상대적인 중요도를 반영한 P-norm 모델을 적용하여 문서의 순위를 결정한다. 두 번째 단계로 관련 문서들간의 유용한 링크 정보를 이용한 재조정 작업에 의해 문서의 순위를 결정하는 방법을 제시한다. 본 논문에서 제시한 방법에 의해 적절한 문서의 판단과 더 나은 정보의 제공을 수행할 수 있는 효과적인 정보 검색 기능을 가진다. 정보 탐색자에게 정확하고 효과적인 정보를 제공할 수 있게 되었고, 일반적인 웹 검색 방법과의 비교에 의해 검색 효율이 향상됨을 보인다.

  • PDF

Unsupervised Document Clustering for Constructing User Profile of Web Agent (웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류)

  • 오재준;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.105-107
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는, 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다. 지금까지의 방식은 사람이 관심부여에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서 분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서 분류 알고리즘과 그것을 바탕으로 얻어진 문서 분류 정보를 후처리 (Post-Processing)함으로써 보다 간결하고 정확한 문서 분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

Clustering and Association Rule Mining of Transactions using Large Items (주요 항목 집합을 이용한 문서 클러스터링 및 연관 탐사 기법)

  • 서성보;김선철;이준욱;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.169-171
    • /
    • 2000
  • 현재 광범위한 웹 문서를 검색하기 위해서 많은 사용자들이 여러 종류의 검색엔진을 사용하고 있다. 하지만 대부분의 사용자는 검색엔진에 의해 검색된 문서의 순서화가 된 긴 리스트의 검색 문서들과 이들이 갖는 낮은 신뢰도에 대해 검색된 문서 중에 자신이 원하는 타당한 문서를 검색하는 불편함이 있어 왔다. 정보 검색에서 문서의 클러스터링은 검색된 결과를 재구성하는 효율적이고 선택적인 방법이다. 이 연구에서는 문서를 트랜잭션 관점에서 해석하여 하나의 클러스터에 대해 유사성을 측정하기 이해 주요항목과 비 주요항목으로 구분하여 각 트랜잭션의 최소 비용 계산을 통해 자동화된 문서 클러스터링 기법을 제안한다. 또한 클러스터링 단계에서 주요 항목간의 연관 규칙을 생성하기 위하여 문서 클러스터링을 위한 디스크 엑세스 동안 키워드간의 연관성을 찾을 수 있는 효율적인 검색 기법을 제시한다.

  • PDF

The Optimization of Near Duplicate Detection Using Representative Unigram Grouping (대표 Unigram 군집화를 통한 유사중복문서 검출 최적화)

  • Kwon, Young-Hyun;Yun, Do-Hyun;Ahn, Young-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.291-293
    • /
    • 2012
  • SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

Dynamic Labeling Scheme for Secure Broadcasting of XML Document (XML 문서의 안전한 브로드캐스팅을 위한 동적인 레이블링 기법)

  • Kim Min-Jeong;Ko Hye-Hyeong;Lee SangKeun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.10-12
    • /
    • 2005
  • XML이 데이터 표현과 문서 교환의 표준으로 떠오름에 따라 XML문서에 대한 보안이 중요하게 되었다. 이 논문에서는 XML 보안을 위하여 W3C의 암호화 방법에 접근 제어 기법을 적용시킨 XML Pool Encryption 방법을 기반으로 XML 문서의 구조 정보를 빠르고 쉽게 파악할 수 있는 새로운 레이블링 기법을 제안한다. 제안하는 기법은 계층 구조의 특성을 갖는 XML 문서에서 하위 정보의 위치에 상위 정보의 위치를 포함시킴으로써 문서 일부에 대해서도 구조 정보의 유추가 가능하다. 또한 XML문서의 변화(문서의 갱신, 수정. 삭제) 시에도 문서 전체의 레이블링을 변화시키지 않고, 변화하는 부분에 대해서만 새로운 레이블을 부여한다는 장점이 있다. 실험 결과에서는 제안된 기법이 XML 문서상에서의 위치 정보를 찾는 데에 효율적임을 보여준다.

  • PDF

A Web-Document Categorization System Using the Hierarchical Information of the Concept (의미의 상하위 정보를 이용한 웹문서 분류시스템)

  • Kang, Won-Seog;Hwang, Do-Sam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.36-39
    • /
    • 1999
  • 본 논문에서는 다양성을 가진 웹문서의 범주를 결정짓는 웹문서 분류 시스템을 설계, 구축한다. 웹문서는 일관된 형식과 내용이 없이 만들어지기 때문에 문서의 범주를 결정하는 시스템을 구축하기는 쉬운 일이 아니다. 제안한 웹문서 분류 시스템은 잡음 처리에 적합한 신경망 방식을 적용하여 다양한 내용의 웹문서의 범주를 결정짓는다. 본 시스템은 한국어 문장을 분석하는 한국어 형태소 해석기, 단어의 의미를 획득하는 개념 획득기, 단어의 사용된 의미를 고르는 애매성 해소기, 그리고 문서의 범주를 결정하는 신경망 범주 결정기로 구성된다. 본 시스템은 단어의 의미를 이용하여 문서를 표현하고 분석하는 개념 중심의 문서 분류 시스템이다.

  • PDF

Transformation of Object-Oriented Databases into XML Documents using Object Identifiers (객체 식별자를 이용한 객체지향 데이터베이스의 XML 문서로의 변환)

  • Yun, Jeong-Hui;Park, Chang-Won;Jeong, Jin-Wan
    • Journal of KIISE:Databases
    • /
    • v.28 no.2
    • /
    • pp.131-139
    • /
    • 2001
  • 데이터 변환은 데이터 재사용, 데이터 교환 및 통합 등에 사용되는 중요한 기술이다. 본 논문에서는 객체지향 데이터베이스를 유효한 XML 문서들로 변환시키는 두 가지 알고리즘을 제시한다. 먼저 객체지향 데이터베이스의 스키마, 객체지향 데이터베이스, DTD 그리고 XML 문서를 정의한 뒤 두 가지 알고리즘, 즉 객체지향 데이터베이스의 스키마를 DTD로 변환시키는 알고리즘과 객체지향 데이터베이스를 XML 문서들로 변환시키는 알고리즘을 제시한다. 그리고 제시한 두 가지 알고리즘의 결과는 항상 잘 구성된 XML 문서들이고 유효한 XML 문서들임을 증명한다. 잘 구성된 XML 문서는 XML문서가 갖추어야 하는 필수 조건이므로 반드시 필요하다. 또한 유효성은 유효한 XML 문서들을 필요로 하는 XML 응용에 유효한 XML 문서를 제공할 수 있도록 한다.

  • PDF

PageRanking of Newly Crawled Web Documents (추가 수집 웹 문서를 위한 페이지랭크 할당 모델)

  • Oh, Eun-Jung;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.228-234
    • /
    • 2002
  • 사용자가 얻고자 하는 정보를 인터넷에서 빠르고 정확하게 검색하는 것은 중요하다. 웹 문서들 간의 상대적인 중요성을 나타내는 페이지랭크는 검객의 질을 높일 수 있어, 정보 검색에 많이 이용된다. 인터넷상의 웹 문서는 짧은 시간에 빠르게 증가하므로 새로운 문서들이 생성될 때마다 전체 문서의 페이지랭크를 계산하는 것은 많은 시간과 비용이 소모된다. 기존 웹 문서의 페이지랭크는 변경하지 않고 추가된 웹 문서들만으로 페이지랭크를 계산할 수 있다면 시간과 비용면에서 효율을 높일 수 있다. 본 논문에서는 추가되는 문서는 이전 문서의 페이지랭크에 많은 영향을 미치지 않는다는 점을 이용하여 추가되는 문서를 위한 페이지랭크를 할당 모델을 제시하고 평가한다.

  • PDF

Unsupervised Document Clustering for Constructing User Profile of Web Agent (웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류)

  • 오재준;박영택
    • Journal of Intelligence and Information Systems
    • /
    • v.4 no.2
    • /
    • pp.61-83
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다 지금까지의 방식은 사람이 관심여부에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서분류 알고리즘과 그것을 바탕으로 얻어진 문서분류정보를 후처리(Post-Processing)함으로써 보다 간결하고 정확한 문서분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF