• 제목/요약/키워드: Web Document Retrieval

검색결과 128건 처리시간 0.025초

구조화된 비디오 문서의 데이터 모델 및 질의어와 색인 기법 (Data Model, Query Language, and Indexing Scheme for Structured Video Documents)

  • 류은숙;이규철
    • 한국멀티미디어학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-17
    • /
    • 1998
  • 비디오 정보는 전자 도서관이나 WWW 및 주문형 비디오 (VOD) 시스템과 같은 다양한 응용분야에서 중요한 요소로 부각되고 있다. 비디오 정보는 특성상 계층적으로 구조화된 문서 형태를 가지기 때문에 본 논문에서는 이를 “구조화된 비디오 문서”라 부른다. 본 논문에서는 구조화된 비디오 문서를 데이터베이스에 효율적으로 저장하고, 검색하기 위한 데이터 모델과 질의어 및 색인 기법을 제안한다. 구조화된 비디오 문서는 논리적인 계층 구조 특성을 지니기 때문에, 본 논문에서는 객체 지향 데이터 모델을 이용하여 비디오 문서를 복합 객체로 모델링하고, 이를 저장하기 위한 객체 타입들을 정의한다. 또한 본 논문에서는 비디오 데이터의 캡션이나 주석을 기반으로 한 내용 기반 검색과 비디오 문서의 논리적 구조를 기반으로 한 구조 기반 검색을 제공하며, 비디오 문서의 시공간 관계 연산을 이용한 검색도 지원한다. 그리고, 구조화된 비디오 문서의 효율적인 질의와 색인 공간의 오버헤드를 줄이기 위해 최적화된 역 색인 기법을 제시한다.

  • PDF

XML을 기반으로 한 관계형 데이터베이스 메타데이터 리파지토리 설계 및 구현 (Design and Implementation of XML Based Relational Database Metadata Repository)

  • 권은정;용환승
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.1-10
    • /
    • 2002
  • 메타데이터는 데이터에 관한 데이터로 데이터를 관리하기 위하여 사용된다. 데이터베이스를 기반으로 하는 응용프로그램이 증가하면서 메타데이터를 관리하기 위해 XML(eXtensible Markup Language)형식의 메타데이터 모델 및 메타데이터 교환모델이 제안되고 있지만 XML형식의 메타데이터를 관계형 데이터베이스에 저장하는 것이 일반적이다. 따라서 본 논문에서는 관계형 데이터베이스의 메타데이터를 객체지향 데이터베이스에 저장하기 위해 메타데이터 모델과 메타데이터 교환모델을 설계하여 메타데이터를 관리하는 새로운 리파지토리 시스템 구현을 목적으로 한다. 관계형 데이터베이스의 메타데이터를 XML문서로 변형 후 객체지향 데이터베이스의 XML 데이터 서버인 eXcelon에 저장하여 XQL (XML Query Language)에 의해 질의함으로써 관계형 데이터베이스 시스템들의 메타데이터의 검색, 편집을 가능하도록 하고 XSL(extensible StyleSheets Language)의 적용을 통하여 다양한 양식으로 웹 브라우져 상에 메타데이터를 출력함으로써 메타데이터의 속성을 면밀히 파악할 수 있다.

Intelligent information filtering using rough sets

  • Ratanapakdee, Tithiwat;Pinngern, Ouen
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1302-1306
    • /
    • 2004
  • This paper proposes a model for information filtering (IF) on the Web. The user information need is described into two levels in this model: profiles on category level, and Boolean queries on document level. To efficiently estimate the relevance between the user information need and documents by fuzzy, the user information need is treated as a rough set on the space of documents. The rough set decision theory is used to classify the new documents according to the user information need. In return for this, the new documents are divided into three parts: positive region, boundary region, and negative region. We modified user profile by the user's relevance feedback and discerning words in the documents. In experimental we compared the results of three methods, firstly is to search documents that are not passed the filtering system. Second, search documents that passed the filtering system. Lastly, search documents after modified user profile. The result from using these techniques can obtain higher precision.

  • PDF

웹 기반의 교수 지원 시스템을 위한 XML 문서의 분류 및 검색 (Classification and Retrieval of XML Document for Teacher Support System based on Web)

  • 김행곤;김지영;최문경;김성원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1615-1618
    • /
    • 2001
  • 최근 인터넷이 급속히 성장함에 따라 웹을 기반으로 한 학습이 활발히 진행되고 있고, 또한 학교 업무의 효율화를 지원하기 위한 분야에서도 웹이 응용되고 있다. 특히 웹에서 교수를 위한 복잡한 학교 업무의 관리와 학습자료 및 업무 자료를 지원하기 위해서는 확장성과 호환성, 편의성을 가진 XML 형태의 문서가 제공되어져야 한다. 따라서 교수 업무 지원을 위해 XML 문서의 정보들을 효율적이고 정확하게 이용하기 위해 이들 문서를 적절하게 분류하고 저장, 검색하기 위한 방법이 필요하다. 본 논문에서는 XML로 작성된 교수 업무 지원 문서의 저장과 검색을 위한 선행작업으로서, 일반적인 메타 데이터와 DTD 데이터를 정의하고, 이렇게 정의된 데이터를 이용하여 패싯 검색과 구조기반 검색, 키워드 검색을 제공함으로써 사용자는 원하는 문서를 쉽게 검색한 수 있다. 따라서 이를 통해 교수 업무 지원 문서들을 웹 상에서 효율적이고 정확하게 저장하며, 사용자가 원하는 문서를 정확하고 신속하게 검색할 수 있게 하고자 한다.

  • PDF

전자저널 개발모형에 관한 연구 (The Development of the Prototype for Electronic Journal)

  • 정준민
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.203-218
    • /
    • 2001
  • 인쇄저널의 이미지베이스에서 출발한 전자저널의 발전방향을 전자저널의 매체라 할 수 있는 인터넷 또는 웹의 기본 기능과 기술적 배경을 전제로 추론하여 전자저널의 모델을 설정하여 보았다. 그간 전자저널에 대한 해석을 도서관의 단순한 매체 전환 및 관리 차원에서 해석하던 것을 새로운 형태의 전자저널 모형을 설계하여 제시하고 인쇄저널과의 공존과 향후 발전적 승계에 관한 방법도 아울러 제시하고 있다. 전자저널은 크게 관리자 공간, 커뮤니티 공간과 최신 게재논문 리스트 서비스, 카테고리 서비스, 정보검색 서비스 및 확장 검색 서비스 공간으로 되어 있으며 인쇄저널 발간에 따른 모든 요소적 특징을 상속하면서도 전자저널 만이 갖는 특징을 부각시킬 수 있도록 구성되었다. 그러나 논문의 결론 부분에서 결국은 이들 정보서비스 매체 및 인터페이스는 출판 및 교육의 영역까지 포함하여 새로운 형태로 발전할 것이라는 예측도 아울러 제시하고 있다.

  • PDF

퍼지추론을 적용한 웹 음란문서 검출 (Detection of Porno Sites on the Web using Fuzzy Inference)

  • 김병만;최상필;노순억;김종완
    • 한국지능시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.419-425
    • /
    • 2001
  • 본 논문은 인터넷 상에서 무수히 많은 음란 문서를 검출하는 방법을 제시한다. 제시된 방법은 정보검색 기술에 퍼지추론을 적용시킨 것이다. 먼저 음란 사이트 주소를 몇 개 선정하고 이 문서들로부터 어휘분석과 스테밍과정을 통하여 음란 사이트를 대표하는 후보단어들을 추출한다. 추출된 후보단어가 음란문서를 대표할 중요도를 계산하기 위해, 각 후보 단어별로 용어 빈도수(DF), 휴리스틱 정보(HI)를 계산하고 이 값들을 이용하여 퍼지추론을 수행한다. 이렇게 계산 된 후보용어의 중요도들이 주어진 사이트가 음란사이트인지 아닌지를 판별하는데 최종적으로 사용된다. 소규모 테스트 데이터를 갖고 실험한 결과, 본 논문에서 제시한 방법이 음란 사이트 자동 검출시 유용함을 알 수 있었다.

  • PDF

반복적 부스팅 학습을 이용한 문서 여과 (Text Filtering using Iterative Boosting Algorithms)

  • 한상윤;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.270-277
    • /
    • 2002
  • 문서 여과 문제 (text filtering)는 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 따라서 증가하고 있는 추세이다. 이 논문에서는 새로운 학습 방법인 에이다부스트 학습 방법을 문서 여과 문제에 적용하여 기존의 방법들보다 우수한 분류 결과를 나타내는 문서 여과 시스템을 생성하고자 한다. 에이다 부스트는 간단한 가설의 집합을 생성하고 묶는 기법인데, 이 때 각각의 가설들은 문서가 특정 단어를 포함하고 있는지 검사하여 이에 따라 문서의 적합성을 판별한다. 먼저 최종 여과 시스템을 구성하는 각 가설의 출력이 1 또는 -1이 되는 이진 가설을 사용하는 기존의 에이다부스트 알고리즘에서 출발하여 좀 더 최근에 제안된 확신 정도 (실수값)를 출력하는 가설을 이용하는 에이다부스트 알고리즘을 적용함으로써 오류 감소 속도와 최종 오류율을 개선하고자 하였다. 또 각 데이타에 대한 초기 가중치를 연속 포아송 분포에 따라 임의로 부여하여 여러 번의 부스팅을 수행한 후 그 결과를 결합하는 방법을 사용함으로써 적은 학습 데이타로 인해 발생하는 과도학습의 문제를 완화하고자 하였다. 실험 데이터로는 TREC-8 필터링 트랙 데이타셋을 사용하였다. 이 데이타셋은 1992년도부터 1994년도 사이의 파이낸셜 타임스 기사로 이루어져 있다. 실험 결과, 실수값을 출력하는 가설을 사용했을 때 이진값을 갖는 가설을 사용했을 때 보다 좋은 결과를 보였고 임의 가중치를 사용하여 여러번 부스팅을 하는 방법이 더욱 향상된 성능을 나타내었다. 다른 TREC 참가자들과의 비교결과도 제시한다.

WWW상에서의 온라인 정보통신표준 개발 시스템 설계 및 구현 (Design and Implementation of On-line Standards Development System on the World Wide Web)

  • 구경철;김형준;박기식;송기평;조인준;정회경
    • 한국정보통신학회논문지
    • /
    • 제2권4호
    • /
    • pp.559-573
    • /
    • 1998
  • 정보통신 표준화 기구들은 최근 동 분야가 국가 및 시장 경쟁력제고에 있어 전략적 수단으로 부상됨에 따라 더 많은 새롭고 복잡한 표준들을 보다 짧은 시간 내에 개발해야 한다는 문제에 직면하고 있으며, 이러한 문제 의 해결을 위해 이들은 표준개발절차의 많은 부분들을 전자화 시킨 소위 전자적 표준개발시스템 혹은 전자적 문서처리시스템의 구현을 꾀하고 있다. 본 논문에서는 이러한 정보통신분야의 환경변화에 효율적으로 대처하기 위해 국내 표준화 환경 및 표준화 순기(표준(안)연구개발표준(안)제안의견수렴표준화위원회 승인표준(안)확정)에 따른 Workflow기반 표준(안) 개발 환경을 WWW상에서 설계 구현한 표준정보유통망(SICN : Standards Information Cooperation Network) 시스템을 소개한다 구현된 온라인 표준개발 시스템은 기존의 인터라넷(Intranet)기반의 시스템과는 달리 개념적으로 인터넷의 제3물결이라 할 수 있는 엑스트라넷(Extranet) 개념의 Workflow 기반 시스템이라 할 수 있으며, 이는 향후 '가 상 표준 개발망(VSDN : Virtual Standards Development Network)'으로 확장 구현될 예정이다.

  • PDF

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.

정보검색 기법을 이용한 효율적인 자동 키워드 태깅 (An Efficient Method of IR-based Automated Keyword Tagging)

  • 김진숙;최호섭;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.24-27
    • /
    • 2008
  • 위키피디아의 백과사전에서 보여주는 바와 같이 주요한 용어에 대한 링크를 통한 태깅은 문서의 가독성을 크게 향상시킨다. 웹 2.0에서도 사회적 태깅(Social Tagging)의 중요성이 부각되고 있으며 시멘틱웹의 태그클라우드(Tag Cloud) 형태로 발전하고 있다. 본 논문에서는 대용량 통제어 사전에 등재된 주요 용어를 대상문서에 태깅하는 방법에 대해 연구결과를 제시한다. 기본적으로 사전에 있는 모든 용어(항목수 N)를 주어진 문서(길이 m)에서의 출현 여부를 문자열탐색을 통해 비교하여 태깅하는 방식은 O(mN)의 계산복잡도를 가진다. 그러나 본 논문에서 제시하는 바와 같이 정보검색을 이용할 경우에는 계산복잡도를 O(mlogN)으로 줄일 수 있었다. 정보검색을 활용하면 단순문자열 탐색에 비해서 평균 17.8배, 빠른 문자열탐색 알고리즘에 비해서도 평균 5.6배 이상 태깅 속도가 향상되었다.

  • PDF