• 제목/요약/키워드: 동적 문서

검색결과 228건 처리시간 0.039초

웹 수집 로봇 엔진의 설계 및 구현 (Implementation and Design of Robot Engine for Web Collection)

  • 김대유;김정태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.313-317
    • /
    • 2007
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 웹을 통하여 공개되고 있으며, 이용자는 웹 검색 서비스를 이용하여 이러한 정보들에 효과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가되고 있으며, 그에 따른 많은 웹 수집 로봇이 탄생되고 있다. 본 논문에서는 효과적인 웹 수집 로봇의 설계와 동적인 웹페이지에서 사용하는 자바스크립트의 링크 추출방안에 대하여 제시하고자 한다.

  • PDF

관련성 분포 정보를 이용한 정보원 선택 알고리즘 (An Algorithm for Collection Selection Using Relevance Distribution)

  • 김현주;김영자;배종민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.346-348
    • /
    • 2000
  • 본 논문은 통합 검색에서 이질의 정보원으로부터 정보를 검색할 때 주어진 질의에 대해 가장 적합한 정보원 선택에 대한 새로운 알고리즘을 제안한다. 제안된 알고리즘은 질의어와 검색에 참여한 정보원간의 관련성 분포 정보를 사용하였다. 이때 관련성 분포 정보는 질의어와 정보원 사이의 관련성 정도를 말하며, 이에 대한 평가는 질의에 대해 정보원으로부터 임의의 크기 N 만큼 검색 문서를 수집한 후에 이들을 평가하여 추정하였다. 본 논문에서 제안한 관련성 분포 정보는 검색 문서의 재평가 값, 관련 문서의 순서 정보, 정확도 등으로 평가한다. 또한 제안된 알고리즘은 정보원 평가에서 검색 인덱스 정보가 필요 없으며, tf, df, N등의 메타 데이터로만 평가할 수 있는 장점이 있어, 동적인 환경에 적용하기가 매우 쉽다.

  • PDF

Google Maps API를 이용한 공간 정보 시각화 (Visualization of Spatial Information using Google Maps API)

  • 민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.187-189
    • /
    • 2015
  • 최근 한국어 문서에서 공간 정보를 자동으로 추출하는 연구가 진행됨에 따라, 이를 응용한 다양한 소프트웨어 개발이 가능해 졌다. 본 논문에서는 문서에서 추출된 공간 정보 중 공간 관계 정보를 Google Maps API를 이용하여 시각화하는 방법에 대해 설명한다. 공간 관계 정보 중, 거리, 방향 등의 정적인 정보와 이동을 나타내는 동적 관계 정보를 표현하였으며, 이런 시각화는 문서에 나타난 공간 정보를 이해하는데 큰 도움을 줄 수 있을 것으로 기대한다.

  • PDF

점진적 학습 기반 모아 콘텐츠 큐레이션 서비스 시스템 설계 (Design of Moa Contents Curation Service System Based on Incremental Learning Technology)

  • 이정원;민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.401-402
    • /
    • 2018
  • 콘텐츠 큐레이션 서비스를 위해서 대용량 데이터를 학습하는 과정에서 발생하는 메모리부족 문제, 학습소요시간 문제 등을 해결하기 위한 "대용량 문서학습을 위한 동적학습 파이프라인 생성기술 중 빅데이터 마이닝을 위한 점진적 학습 모델" 기술이 필요하며, 본 논문에서 제안한 콘텐츠 큐레이션 서비스는 온라인상의 수많은 콘텐츠들 중 개인의 주관이나 관점에 따라 관련 콘텐츠들을 수집, 정리하고 편집하여 이용자와 관련이 있거나 좋아할 만한 콘텐츠를 제공하는 서비스이다. 본 논문에서 설계된 모아 큐레이션 서비스는 대용량의 문서를 학습함에 있어서 메모리 부족 문제, 학습 소요시간 문제 등을 해결하기 위해 학습데이터의 용량 제한이 없는 문서를 자유롭게 학습하고 부분적인 자질추가/변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법 등을 제시하였다.

  • PDF

동적 XML 데이타 스트링의 안전한 질의 처리를 위한 효율적인 접근제어 레이블링 (Efficient Access Control Labeling for Secure Query Processing on Dynamic XML Data Streams)

  • 안동찬;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.180-188
    • /
    • 2009
  • 유비쿼터스 데이타 스트림 환경에서 동적 XML 데이타 스트림에 대한 효율적이고 안전한 접근제어 기법은 최근에 활발한 연구분야가 되어왔다. 본 논문에서 동적 XML 데이타 스트림 환경에서 효율적이고 안전한 접근제어를 위한 향상된 롤-기반 소수 레이블링 기법을 제안한다. 또한 지속적으로 갱신되는 XML 문서의 효율적인 레이블링 기법과 효율적이고 안전한 접근제어를 위한 기존연구의 문제점을 지적한다. 제안하는 향상된 레이블링 기법은 문서가 갱신될 때 다시 레이블링 하지 않고도 노드 사이의 조상-후손 관계와 형제 관계를 유지할 수 있으며, 레이블의 충돌 없이 XML 트리에 임의의 지속적인 노드 삽입 또는 갱신을 지원한다. 또한, 롤-기반 소수 레이블링 기법을 통해 효율적인 접근제어를 구현하였다. 끝으로 본 논문의 제안 방법이 효율적이고 안전함을 실험을 통해 보여줄 것이다.

XML 문서의 유효성 문제 해결에 관한 연구 (A Study on Resolution of Validity in XML Document)

  • 홍성표;송기범;방극인;이준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.564-567
    • /
    • 2003
  • XML은 문서의 데이터 포맷 표현을 향상시키는데 중점을 두고 만들어졌기 때문에 문서 변조 및 데이터 삭제 등의 공격에 취약한 문제점을 가지고 있다. 이에 대한 해결책으로 XML 전자 서명, XML 암호화 기법, XML 접근 제어와 같은 다양한 해결책이 제시되었지만 XML 암호화로 인한 구조적인 XML 유효성 위반 문제 및 DTD 공격에 대한 해결책 부재 등의 문제점이 해결되지 않고 있다. 본 연구에서는 유효성과 암호화를 동시에 만족시켜줄 수 있는 방법으로 XML 스키마를 이용하는 방법을 제안하였다. XML 스키마는 정형 U 문서에 대해서도 지원이 가능하며, XML 문서에 대한 메타 정보를 담고 있으므로 따로 DTD를 필요로 하지 않는다. 또한 각각의 XML 문서에 대하여 동적인 생성이 가능하며 자체 유효성 검사 규칙을 가지고 있으므로 DTD 기반 XML 문서의 암호화에 대한 확장성이 뛰어난 장점을 가지고 있다.

  • PDF

XML을 위한 효율적인 저장구조 및 인덱싱 기법설계 (Design of Efficient Storage Structure and Indexing Mechanism for XML Documents)

  • 신판섭
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.87-100
    • /
    • 2004
  • 최근에 인터넷의 급속한 발전과 더불어 대량의 정보를 효과적으로 표현 및 교환할 수 있는 새로운 데이터 표준으로 XML (extensible Markup Language)이 제안되었으며, XML 문서에 대한 저장과 인덱싱에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 실시간 XML 문서 처리에 효율적인 주기억장치 기반의 XML 전용 저장 시스템을 설계하고, 사용자 질의에 포함된 엘리먼트 타입 정보를 이용하여 XML 문서트리에 대한 순회를 최소화시킬 수 있는 구조적 검색 기법을 설계한다 또한, 엘리먼트의 삭제 및 삽입 등 동적인 변경에 빠르고 유연하게 대처할 수 있는 인덱스 구조와, 링크 정보를 가지고 있는 XML 문서의 질의 처리를 위해 XLink 표준을 준수하여 테이블 형식의 링크 정보 인덱스 구조를 설계한다.

  • PDF

질의 응답 시스템을 위한 가변 길이 단락 검색 (Variable Length Passage Retrieval for Q&A System)

  • 이영신;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-266
    • /
    • 2002
  • 질의 응답 시스템에서 보다 정확하게 정답을 판별하기 위해서는 구문분석 혹은 의미분석 등과 같은 복잡도가 높은 분석작업이 요구되며, 이러한 질의 응답 시스템 성능의 상한을 결정하는 검색 시스템은 가급적 적은 양의 검색 결과를 내주어서 질의 응답 시스템이 처리해야 할 작업량에 대한 부담을 덜어주어야 한다. 본 논문에서는 이러한 요구를 만족시키는 검색 시스템으로 가변 길이 단락 검색 시스템(variable length passage retrieval system)을 제안한다. 제안하는 검색 시스템은 질의에 대한 정답을 포함하고 있을 가능성이 있는 텍스트 영역은 질의에 따라 그 크기가 다를 것이라는 가정으로부터 출발한다. 그러므로 문서 전체를 검색하거나 고정 길이 단락으로 나누어져 색인되어 있는 부분 문서들을 검색하는 기존의 검색 방법과 달리, 제안된 시스템은 문서에서 임의의 길이로 이루어진 단락을 대상으로 동적인 단락 검객을 수행한다. TREC QA track의 질의집합 중 1번부터 100번까지의 질의에 대해 실험을 수행한 견과, 문서 검색 시스템이나 고정 길이 단락 검색 시스템은 상위 1000개의 문장까지 검색을 하였을 때 각각 96%, 98%의 재현율을 보인 반면, 가변 길이 단락 검색 시스템은 800개의 문장만으로도 98%의 재현율을 보이고, 900개의 문장을 검색하였을 경우 100%의 재현율을 보였다.

  • PDF

동적 XML 조각 스트림에 대한 메모리 효율적 질의 처리 (Memory Efficient Query Processing over Dynamic XML Fragment Stream)

  • 이상욱;김진;강현철
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.1-14
    • /
    • 2008
  • 본 논문은 메모리 용량이 제약되어 있는 이동 단말기에서의 XML 데이터에 대한 질의 처리 기술에 관한 것이다. 대량의 XML 데이터에 대한 질의를 메모리 용량이 크지 않은 단말기에서 처리하는 경우 XML 데이터를 XML 조각(fragment)으로 분할하여 스트림으로 전송하고 처리하는 기술이 필요하다. 이는 전체 XML 문서를 재구성하지 않고 XML 데이터에 대한 질의 처리를 가능하게 한다. XFrag[4], XFPro[5], XFLab[6] 등 기존에 제시된 기법들은 질의 처리를 위해 조각에 대한 정보를 저장하고 사용한 후 더 이상 불필요해진 것들을 식별하여 삭제하지 못하기 때문에 조각 정보가 메모리에 계속 누적되어 대용량의 XML 데이터에 대해 질의 처리를 수행하기에는 문서 크기에 따른 확장성(scalability)이 떨어진다. 특히, XML 조각이 동적으로 생성되어 무한정 스트리밍되는 경우에 한정된 메모리로는 질의 처리를 보장할 수 없다. 본 논문에서는 동적 XML 조각 스트림에 대한 질의 처리에 있어 문서 크기에 따른 확장성 있는 질의 처리를 수행하기 위하여 누적된 조각 정보 삭제 기법들을 제시하고 이들을 바탕으로 기존 기법의 확장을 제시한다. 구현 및 성능 실험 결과 본 논문에서 확장된 기법이 기존의 기법보다 메모리 효율성이 현저히 높고 문서 크기에 따른 확장성이 월등히 우수한 것으로 나타났다.