• 제목/요약/키워드: XML Indexing

검색결과 111건 처리시간 0.034초

효율적인 인용분석을 위한 한국 SCI 시스템의 개발 (Development of a Korea SCI System for Efficient Citation Analysis)

  • 이계준;조현양;최재황;윤희준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.174-182
    • /
    • 2004
  • 정보가 생성되어 소멸되기까지의 과정에서 새로운 정보를 만들어내기 위해서 어떠한 형태로든 서비스되고 있는 정보를 수집하여 이것을 참고하고 인용하여 새로운 정보를 생성하게 된다. 본 논문에서는 인용한 문헌과 인용된 문헌 사이의 관계를 정의하고 관련 정보를 저장하여 서비스에 반영하는 KSCI (Korea Science Citation Index)을 구축하였다. KSCI 시스템은 현재 ISI사에서 서비스하고 있는 SCI(Science Citation Index)가 가지는 문제점인 순환 적인 검색을 해결하기 위하여 패스인코딩(Path Encoding) 색인 기법을 사용하여 본 시스템을 구축함으로서 저장의 측면에서 약 8.98%의 효율과 검색의 측면에서 약 40% 정도의 결과를 얻었다.

수식을 포함한 전자문헌의 구조적 처리를 위한 XML 문서편집시스템 (XML Document Editing System for Structural Processing of the Digital Document to Including Mathematical Formula)

  • 윤화묵;유범종;김창수;정회경
    • 정보관리학회지
    • /
    • 제19권4호
    • /
    • pp.96-111
    • /
    • 2002
  • 현재 기관이나 조직 내에 수많은 양의 데이터가 축적되어 존재하고 있으나 대부분의 데이터는 각 기관이나 조직에 따라 정형화된 형태로 남아있는 실정이다. 정형화된 정보는 정보의 교환 및 공유에 어려움이 있다. 이러한 단점을 극복하고자 지식정보자원관리라는 새로운 개념이 도입되었으며, 축적된 데이터들을 공유 및 관리하기 위한 지식정보자원의 디지털화가 실행되고 있다. 특히 과학기술 또는 교육학술 분야에서는 지식정보자원의 교환 및 공유에 필요한 데이터를 구조적으로 처리하고자 XML을 도입하려는 움직임이 일고 있으며, 이들 분야의 전자문서 안에 사용되어지는 수많은 수학식의 표현이 이미지나 텍스트 등의 비구조적인 데이터로 처리됨에 따라 검색과 인덱싱 또는 재사용성 등의 제한사항이 발생하게 된다. 이를 극복하고자 MathML을 이용한 수학식의 처리에 관심이 집중되고, MathML을 구조적인 문서상에 쉽고 효율적으로 처리할 수 있는 솔루션이 요구되고 있는 실정이다. 이에 본 논문에서는 지식정보자원을 목적으로 하는 전자문서의 구조적인 처리를 용이하게 하고, MathML에 대한 전문적인 지식이 없어도 구조적인 문서상에 쉽게 MathML을 생성 및 표현할 수 있는 XML 문서 편집 시스템을 구현하였다.

구조화된 그래픽 표현을 위한 XML 기반의 SVG 저작 시스템 (SVG Editing System based on XML for Structured Graphic Representation)

  • 김택천;김진수;정회경
    • 한국정보통신학회논문지
    • /
    • 제8권8호
    • /
    • pp.1661-1669
    • /
    • 2004
  • 인터넷의 급속한 발전은 기존의 정적인 웹을 탈피하여 사용자들로 하여금 더욱더 동적이고 다양한 컨텐츠를 요구하는 형태로 바뀌어 가는 실정이다. 이에 따라, SVG(Scalable Vector Graphics)는 기존의 인터넷에서 사용되던 비트맵 기반의 디스플레이 보다 훨씬 정교한 그래픽 표현을 제공하기 때문에 기능이나 장치 호환성의 문제없이 벡터 그래픽을 표현한다. 또한, 그래픽에 대한 논리적인 구조를 기술함으로써 인덱싱, 검색, 저장 또는 공유가 가능하도록 정의하고 있다. 그러나 복잡한 SVG 구문을 자세히 모르고도 편리하고 SVG 그래픽을 구현할 수 있는 SVG 저작 시스템이 요구되고 있다. 이에 본 논문에서는 SVG에 관한 기초기술 연구 및 구조화된 SVG 문서를 사용자 중심의 편집 인터페이스를 통해 일반 사용자들이 손쉽게 그래픽 객체를 직접 저작함에 따라 복잡한 SVG 구문을 자동으로 생성하는 SVG 문서 저작 시스템을 설계 및 구현한다.

유비쿼터스 상거래 환경의 컨텍스트 기반 점진적 선호 분석 기법 (Context-based Incremental Preference Analysis Method in Ubiquitous Commerce)

  • 구미숙;황정희;최남규;정두영;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1417-1426
    • /
    • 2004
  • 유비쿼터스 상거래의 도래에 따라 개인화된 서비스에 대한 관심이 높아지고 있고, 고객이 관심을 갖는 상품에 대한 정보를 제공하기 위해 추천 기법의 중요성은 지금까지의 많은 연구들을 통해 제시되고 있다. 그러나 기존 연구에서는 대부분 특징 기법에 의존적이고 전자 상거래에만 국한되어 적용될 수 있었다. 이러한 추천 기법을 유비쿼터스 상거래에 적용하기 위해서는 고객의 상황 또는 환경에 대한 정보 즉, 컨텍스트에 대한 확정된 도메인의 모델링과 각 추천 기법들의 상거래 활성화 단계별 장단점을 보완하기 위한 유기적 연계가 필요하다. 따라서 이 연구에서는 이러한 문제를 해결하기 위해 유비쿼터스 상거래에서 개인의 상거래 활동에 관련된 컨텍스트 정보를 모델링하고, 상거래 활성화 단계에 따라 상이한 특성을 갖는 각 추천 기법을 선호도 트리를 매개로 하여 연계하는 점진적 선호 분석 방법을 제시한다. 그리고 이러한 분석 과정을 통해 생성된 선호도 트리에서 정보를 효율적으로 처리하기 위해 XML 인텍스 기법을 적용한다.

디지털 방송을 위한 Set-Top Box기반 TV-Anytime 메타데이터 관리 시스템 (TV-Anytime Metadata Management System based on a Set-Top Box for Digital Broadcasting)

  • 박종현;강지훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.71-78
    • /
    • 2008
  • 디지털 방송은 양방향 통신을 기반으로 하여 고객의 요구를 만족시키는 다양한 부가 서비스를 제공한다. 새로운 방송환경을 위한 중요한 요소 중 하나는 분산되어있는 환경에서 여러 소비자와 공급자간의 상호운용성의 유지에 있다. 이를 위하여 디지털 방송을 위한 메타데이터의 표준이 제안되었고, TV-Anytime 메타데이터는 이러한 요구를 만족시키기 위한 차세대 방송 표준 메타데이터의 하나이다. 한편, 사용자 측면에서 다양한 방송 서비스 및 부가 서비스를 원활히 활용하기 위해서 방송사용자단말(Set-Top Box: STB) 환경에서 메타데이터를 효율적으로 관리하기 위한 연구들이 진행중이다. 본 논문에서는 TV-Anytime 메타데이터를 저 비용, 저 사양의 STB에서 효율적으로 관리하기 위한 메타데이터 관리 시스템을 제안한다. STB 기반 관리시스템은 메타데이터의 저장을 위한 저장엔진과 검색을 위한 XQuery엔진으로 구성되며, 효율적인 저장과 검색을 위해서 인덱싱 방법을 제안하고 있다. 또한. XML 검색을 위한 표준 질의어인 XQuery를 방송용 메타데이터 검색을 위한 질의어로 사용하는 우리의 메타데이터 관리 시스템은 향후 다양한 방송 응용들 사이에서 상호운용성(Interoperability)을 보장할 뿐만 아니라 메타데이터의 확장에도 유연하게 대처할 수 있다.

  • PDF

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

스포츠 경기를 위한 두 단계 실시간 하이라이트 색인 기법 (Two step real-time highlight indexing for sport game)

  • 김명훈;김혁만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.157-160
    • /
    • 2004
  • 디지털 방송 환경에서 메타데이터 서비스가 가장 주목 받고 있는 기술 중 하나이다. 그리고 컨텐트의 주요 장면만을 나타내는 하이라이트 메타데이터 서비스가 가장 혁신적이다. 계층 구조화된 하이라이트 메타데이터는 시청자가 다양한 관점(viewpoint)에서 방송을 시청할 수 있으며, 스포츠 경기의 하이라이트 장면만 선택적으로 볼 수 있는 서비스를 제공 한다. 하이라이트 메타데이터 서비스를 제공 하기 위해서는 실시간 하이라이트 메타데이터를 생성 하는 기법이 필요하다. 본 논문에서는 실시간 하이라이트 메타 데이터를 생성할 수 있는 두 가지 색인 단계를 정의하고, 시청자의 STB(Set-top Box) 저장된 디지털 스트림과 방송시간과의 동기화 방법을 제안한다. 그리고 하이라이트 정보를 MPEG-7 표준 스키마의 xml로 서술방법을 제안한다.

  • PDF

구조 기반 검색을 위한 색인 구조에 대한 분석 (Analysis of Indexing Schemes for Structure-Based Retrieval)

  • 김영자;김현주;배종민
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.601-616
    • /
    • 2004
  • 구조적 문서들에 대한 검색시스템은 구조 기반 검색 질의를 지원하여 다양한 수준의 검색 기능을 제공한다. 완전한 구조 기반 질의를 처리하기 위해서는 구조적 문서가 가지는 엘리먼트 간의 구조적 포함관계나 순서에 관한 정보를 유지되어야 한다. 본 논문에서는 엘리먼트와 엘리먼트 사이의 구조적 상관관계와 엘리먼트의 발생순서에 관련된 질의 등 여러 유형의 순수 구조 질의를 처리할 수 있는 네 가지 색인구조를 제시하고 그 성능을 평가한다. 제안된 색인 알고리즘은 전체 문서 인스턴스 트리 개념에 바탕을 두고 있다.

  • PDF

MPEG-7 기술자를 이용한 TV 골프 프로그램의 이벤트검출 및 요약 (Semantic Event Detection and Summary for TV Golf Program Using MPEG-7 Descriptors)

  • 김천석;이희경;남제호;강경옥;노용만
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.96-106
    • /
    • 2002
  • 본 논문에서는 최근 증가하는 TV 골프 경기의 하이라이트 부분을 요약하기 위해 시청자가 관심을 갖는 주요 이벤트를 시각 특징정보들을 이용하여 자동 추출할 수 있는 알고리즘을 제시하였다. 본 알고리즘은 4단계로 구성된다. 첫 번째 단계에서는 입력된 비디오의 샷 (Shot) 및 키 프레임 (Key Frame)을 구하여 데이터베이스화하는 구조를 분석하고, 두 번째 단계에서는 이들 정보를 이용하여 하위 레벨의 특징정보를 추출한다. 세 번째 단계에서는 특징 전보들을 통합하여 샷의 의미를 부여하여, 이벤트 구성 요소들과 정합시킨다. 네 번째 단계에서는 사전에 정의된 추론 규칙과 시간 정보를 이용하여 구성 요소들을 통합하여 이벤트를 결정한다. 본 연구에서는 하위 레벨의 특징 정보를 상호 호환성과 재사용성이 가능하도록 MPEG-7 비주얼 특징 정보를 사용하였다 TV-Anytime의 하이라이트/이벤트 스키마(schema)를 이용하여 검출된 이벤트들로 구성된 요약문을 XML 문서로 작성하였다. 제안 알고리즘의 성능을 검사하기 위해 비디오 자동 요약 시스템과 브라우징을 제작하여 실험하였으며 평균 80%의 검색 율과 정확도를 얻었다.