• 제목/요약/키워드: 본문 검색

검색결과 73건 처리시간 0.021초

네비게이션 정보추출에 의한 XML 본문검색시스템 (XML Fulltext Retrieval System by Extracting Navigation Information)

  • 강남규;이응봉;이석형
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.91-110
    • /
    • 2002
  • 최근, 키워드 기반 정보검색의 한계를 극복하기 위한 구조문서 기반의 연구가 활발하게 진행되고 있지만, 실제 적용에는 많은 어려움이 존재한다. 본 고에서는 구조문서에 대한 본문검색시스템을 제안한다. 본문검색시스템에 적용된 문서는 XML로 구축된 국가 연구개발보고서를 대상으로 하였으며, XML 연구보고서의 DTD. 본문 간의 이동을 위한 네비게이션 정보추출, 본문검색을 위한 검색엔진의 적용 방안에 관하여 살펴본다. 본 시스템은 XML 문서에 대해 문서의 구조정보를 저장하고 이를 검색하여 다양한 형태로 열람할 수 있는 검색엔진의 부재 상황을 본문검색이라는 방법으로 극복하기 위한 것이다.

XML 기반의 본문검색 미들웨어 시스템 설계 및 구현 (Design and Implementation of the Search Inside Middleware System by using XML)

  • 김효남
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.229-232
    • /
    • 2011
  • 최근 스마트 디바이스 기반의 다양한 콘텐츠 제작 공급에 대한 새로운 마켓 시장 형성과 태블릿 디바이스 기반의 전자책 시장 규모의 확대에 따른 새로운 유형의 디지털 콘텐츠 시장이 형성되고 있다. 디지털 미디어는 정보환경 범위를 종이의 범위에서 벗어나 매체와 연계한 다양한 형태로의 변화뿐만 아니라 서술 방식과 소통방식의 방법에도 변화를 발생하였다. 그리고 지면에서 국한된 아날로그 매체의 물리적, 공간적, 시간적인 한계를 뛰어넘어 다양한 콘텐츠를 손쉽게 접근할 수 있게 만들었다. 이런 환경에서 본문검색 서비스는 아날로그와 디지털 매체의 상호 공존관계를 형성할 수 있다. 본 논문에서는 그림종이문서를 본문검색이 가능한 이미지형태의 디지털문서로 변환해주는 디지털라이징 시스템으로 문자위치정보를 포함하는 광학문자인식(OCR)기능과 인식된 문자의 오류를 수정하는 에디터기능을 통해 추출된 내용을 XML형태로 제공하는 본문검색 시스템을 제안한다. 특히, 문자인식 후처리 공정에서 복수의 관학문자인식(OCR)엔진을 통해 결과 비교와 문자위치 정보 확인 및 편집, 맞춤법 검사 등의 특화된 기능 등은 본 논문에서 가지는 강점으로 디지털문서 구축에 소요되는 시간과 비용을 혁신적으로 절감시켜준다.

  • PDF

가변 블록 DCT를 이용한 영상 검색 시스템 (Image Retrieving System Using Variable Block DCT)

  • 김동우;서은주;장언동;한재혁;안재형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.847-850
    • /
    • 2001
  • 영상과 같은 다양하고 복잡한 데이터 검색은 기존의 키워드를 이용한 검색이 아닌 내용 기반 검색 방법이 요구된다. 본문은 JPEG/MPEG 과 같은 영상 압축 기법에서 사용되는 DCT 변환 부호화를 이용하여 각 블록의 평균인 DC 성분을 얻어 이 정보를 이용하여 영상을 검색하는 방법을 제시한다. 기존의 방법은 단순히 DCT 전체 성분을 이용하는 방법으로, 영상 전체의 DCT 정보를 처리하여야 하므로 시간과 메모리의 낭비가 있을 수 있다. 본문에서는 이러한 처리시간과 메모리의 낭비를 막기 위해 DC 성분만을 이용하여 영상 검색을 하며, 영상이 실제로 있는 부분에서는 블록의 크기를 가변적으로 변경하여 검색의 오류를 줄일 수 있다. 또한 검색을 전체 영상에 대한 빠른 1 차 검색과 동일 패턴을 가진 영상의 2 차 세부 검색으로 나누어 실행함으로써 보다 빠른 검색을 할 수 있다. 한편, 겹쳐진 영상에 대해서도 검색이 가능하다.

  • PDF

검색과 분류가 동시에 가능한 JULSE 시스템의 설계 및 구현 (Design and Implementation of Field Classification and Information Retrieval Engine;JULSE)

  • 장정효;손주성;김도연;이상곤;이원휘;안동언
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.673-676
    • /
    • 2005
  • 기존의 정보검색 엔진은 문서의 분야에 상관없이 본문 전체의 내용을 보여주므로 사용자가 적합한 내용인지를 파악하기 위해서는 본문 전체를 읽어 보아야 그 적절성 여부를 알 수 있다. 본 논문에서 제안하는 방법은 질의어가 지시하는 분야를 분야연상어를 이용하여 자동으로 파악하고, 사용자가 원하는 분야에서의 검색이 이루어지도록 하는 검색과 분류가 동시에 가능한 엔진을 설계하여 검색결과의 성능을 향상하고자 한다. 이와 함께 적당한 분야연상어가 다수 출현한 단락을 사용자에게 제공하여 본문 전체를 보지 않아도 질의어에 적당한 문서인지를 빠르게 파악하도록 설계하여 구현하였다.

  • PDF

사용자 태그와 중심성 지수를 이용한 블로그 검색 성능 향상에 관한 연구 (Enhancing the Performance of Blog Retrieval by User Tagging and Social Network Analysis)

  • 김은희;정영미
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.61-77
    • /
    • 2010
  • 최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.

관련성 귀환을 가진 질감 기반의 영상검색 (Texture-based Image Retrieval with Relevance Feedback)

  • 이신주;정성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.362-364
    • /
    • 2000
  • 본 본문에서는 간단하면서 효과적인 관련성 귀환을 가진 영상 검색시스템에 대하여 연구하였다. 먼저 영상 데이터베이스 내에 있는 영상들에 대하여 Gabor Wavelet 변환을 이용하여 질감특징을 추출하고, 추출한 특징값을 다양한 형태로 영상검색에 이용하였다. 초기 검색결과에 대하여 관련성 귀환을 영상 검색시스템에 적용하고, 이를 기존의 관련성 귀환을 가진 시스템과 비교하였다. 16종류의 512개의 영상으로 구성된 영상 데이터베이스에 대하여 실험한 결과, 제한된 방법은 INRIA의 방법보다 각 귀환단계에서 약 7~8%의 높은 검색 효율을 보였다.

  • PDF

웹의 개념지식을 위한 Anchor Text에서의 키워드 추출 알고리즘의 구현 (A Implementation of Keyword Extraction Algorithm Using Anchor Text for Web's Conceptual Knowledge)

  • 조남덕;배환국;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.72-74
    • /
    • 2000
  • 인터넷을 효과적으로 검색하기 위하여 검색엔진을 많이 이용하고 있다. 그런데 문서의 키워드를 추출할 적에 지금까지는 Anchor Text를 염두에 두지 않았었다. Anchor Text는 사람이 직접 요약한 것이고(요약성), 하이퍼링크를 포함하는 웹 문서에 반드시 존재하므로(보편성) 그 하이퍼링크가 가리키는 곳의 문서의 키워드를 추출에 적합한 용도가 될 수 있다. 웹 그래프는 이러한 Anchor Text를 이용하여 키워드를 추출함으로써 문서와 문서간, 단어와 단어간의 관계(연관성)까지도 나타내 줄 수 있게 한 검색 엔진 시스템이다. 그러나 Anchor Text 자체가 본문의 내용이 아니고, Anchor Text를 작성한 사람에 따라 다르게 작성되며, 본문의 내용과 무관한 내용도 작성할 수 있다. 따라서 Anchor Text 자체를 어떠한 여과 없이 문서의 키워드로 받아들이긴 힘들다. 본 논문에서는 TFIDF를 통해 좀 더 정확성이 있는 키워드를 추출하였다.

  • PDF

이미지 화일과 텍스트 화일의 검색효율성 비교 (A Comparison of Retrieval Effectiveness between Image File and Text File)

  • 임영선;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 1996
  • 본 논문은 본문 전체가 기계가독형 화일로 구성된 텍스트 전문데이터베이스와 이미지화일로 구성된 이미지 전문데이터베이스와의 검색효율성을 비교함으로써 도서관과 최종이용자의 입장에서 바람직한 전문데이터베이스가 어떤 것인지를 제안하고자 한다.

  • PDF

국내.외 Bio관련 웹사이트(1)

  • 장대자;이경개
    • 식품기술
    • /
    • 제14권4호
    • /
    • pp.68-86
    • /
    • 2001
  • 본문은 국·내외 생물산업분야 정보를 제공하고 있는 대학, 연구소, 단체, 기업의 web sit e를 검색하 여 주요 제공정보를 소개한 것입니다. 기술정보팀에서는 향후에도 유용 sit e를 검색하여 테마별로 소개할 예정이니 많은 활용바랍니다. U

  • PDF

자연어 질의 정보 검색 시스템의 비주제어 탐색 방법을 통한 성능 개선 (Improving the performance of natural language information retrieval system by using non-keyword search methods.)

  • 이승률;강현규;박세영;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.374-377
    • /
    • 1994
  • 본 논문에서는 한글 문서 검색 시스템에서 자연어 질의어로 검색할경우, 질의어를 주제어와 참조어로 나누어 재구성하여 검색하는 방법을 제시하였다. 먼저 주제어로 전문검색을 하여 후보 카드들을 추출한 후 비주제어로 다시 본문 탐색을 하여 추출된 카드의 가중치를 재조정함으로써 카드추출의 정확성을 높였다. 이 논문에 제시된 방법의 실험은 한국전자통신연구소 언어정보연구실에서 개발한 멀티미디어 전자 백과 사전의 자연어 검색모듈에서 행하여 졌다. 이 방법으로 별다른 검색속도의 저하나, 저장공간의 추가가 없이 기존의 검색 방법에서보다 약 58%정도의 검색의 정확성이 올라갔다. 본 논문에서 제시한 검색의 방법은 여러가지 응용의 자연어 인터페이스에서 데이타를 검색하는 정보검색의 분야에 적용되어 정확성을 높일 수 있을 것이다.

  • PDF