• Title/Summary/Keyword: 텍스트 검색

Search Result 684, Processing Time 0.031 seconds

Videotext Detection for Content-based Retrieval (내용기반 검색을 위한 비디오텍스트 검출)

  • Kwak, Dong-Youp;Kim, Eun-Yi;Chang, Jae-Sig;Kim, Hang-Joon
    • Annual Conference of KIPS
    • /
    • 2001.10a
    • /
    • pp.805-808
    • /
    • 2001
  • 본 논문은 비디오 영상에서 내용 기반 검색을 위한 비디오 텍스트를 검출하는 방법을 제안한다. 영어와 달리 한글과 같이 다중 분할된 문자가 포함된 비디오 텍스트를 자동으로 검출하기 위해 형태와 크기 및 위치 정보를 이용하고 이러한 정보들은 K-mean 클러스트링 알고리즘을 이용해 얻어진 템플릿의 형태로 표현 된다. 연결 성분 분석(connected component analysis)방법을 통해 비디오 영상을 분할하고, 잡음을 제거한 후 정확한 문자 성분을 검출하기 위해 클러스터 기반의 템플릿 매칭을 한다. 제안된 방법은 정확도와 에러율에서 기존의 방법보다 효과적 이었다.

  • PDF

A Study Video using Image and Voice Search (음성과 이미지를 이용한 동영상 검색에 관한 연구)

  • Sin, In-Gyeong;Park, Sung-Hyun;Ahn, Hyo-Chang;Rhee, Sang-Burm
    • Annual Conference of KIPS
    • /
    • 2012.11a
    • /
    • pp.568-571
    • /
    • 2012
  • 정보화 사회의 정보 기반 구조로서, 고속 정보망의 구축, 개인용 컴퓨터의 급속한 보급, 멀티미디어 기술의 발전 등으로 인하여 정보 서비스의 새로운 장이 열리고 있다. 동영상 데이터는 텍스트만이 아니라 영상정보, 음성정보등 각종 의미있는 다양한 멀티미디어 정보를 포함하고 있다. 본 논문에서는 동영상에서 음성과 영상을 분리하여 음성을 이용하여 음성열을 분할 및 복원하여 음성을 텍스트로 변환하여 텍스트색인파일을 만들고 영상은 이미지를 분할 및 히스토그램을 사용하여 이미지 샷을 검출하여 두 색인파일을 이용하여 인덱싱을 하여 동영상 검색에 활용한다.

VL-KE-T5: A contrastive learning-based pre-trained model using image-language parallel data composed of Korean and English (VL-KE-T5: 한국어와 영어로 구성된 영상-언어 병렬 데이터를 이용한 대조학습 기반 사전학습모델 구축)

  • San Kim;Saim, Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.337-342
    • /
    • 2022
  • 본 논문은 한국어-영어 기반 영상-언어 모델인 VL-KE-T5를 소개한다. VL-KE-T5는 영상-텍스트 쌍으로 구성된 한국어와 영어 데이터 약 2천 3백만개를 이용하여 영상-언어 모델의 임베딩 벡터들을 정렬시킨 사전학습모델이며, 미세조정을 통하여 여러 영상-언어 작업에 활용할 할 수 있다. VL-KE-T5는 텍스트 기반 영상 검색 작업에서 높은 성능을 보였으나, 세세한 속성을 가진 여러 객체들의 나열이나 객체 간 관계를 포함한 텍스트 기반 영상 검색에서는 비교적 낮은 성능을 보였다.

  • PDF

XML Mediator for Content-based Query Processing (내용기반 질의 처리를 위한 XML Mediator)

  • 유광열;김홍식
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.66-69
    • /
    • 2001
  • 최근 인터넷의 발전으로 방대한 정보가 존재함에 따라 이들 정보들을 통합 관리할 필요성이 증대하고, 웹 검색 시스템의 서비스가 텍스트뿐만 아니라 이미지나 사운드 데이터와 같은 멀티미디어 정보까지 보편화되어 검색의 결과로 서비스를 제공하고 있다. 기존의 검색결과를 보면 멀티미디어 데이터에 대한 검색결과는 부가적 정보로서 서비스를 제공하기 때문에 검색 결과에 대해서도 정확한 결과에 대한 서비스를 제공하지 못하고 있다. 본 논문에서는 XML기반에서 멀티미디어 데이터 소스에 대한 메타데이터를 DTD로 설계하여 내용기반 질의를 효과적으로 분산처리 할 수 있도록 Mediator를 설계한다.

  • PDF

A Document Summary System based on Personalized Web Search Systems (개인화 웹 검색 시스템 기반의 문서 요약 시스템)

  • Kim, Dong-Wook;Kang, Soo-Yong;Kim, Han-Joon;Lee, Byung-Jeong;Chang, Jae-Young
    • Journal of Digital Contents Society
    • /
    • v.11 no.3
    • /
    • pp.357-365
    • /
    • 2010
  • Personalized web search engine provides personalized results to users by query expansion, re-ranking or other methods representing user's intention. The personalized result page includes URL, page title and small text fragment of each web document. which is known as snippet. The snippet is the summary of the document which includes the keywords issued by either user or search engine itself. Users can verify the relevancy of the whole document using only the snippet, easily. The document summary (snippet) is an important information which makes users determine whether or not to click the link to the whole document. Hence, if a search engine generates personalized document summaries, it can provide a more satisfactory search results to users. In this paper, we propose a personalized document summary system for personalized web search engines. The proposed system provides increased degree of satisfaction to users with marginal overhead.

A System for the Decomposition of Text Block into Words (텍스트 영역에 대한 단어 단위 분할 시스템)

  • Jeong, Chang-Boo;Kwag, Hee-Kue;Jeong, Seon-Hwa;Kim, Soo-Hyung
    • Annual Conference of KIPS
    • /
    • 2000.10a
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

Web Search Engine based on Database Management System (데이터베이스 관리 시스템에 기반한 웹검색엔진의 구현)

  • Kang, Byung-Ju;Lee, Ji-Dong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.211-218
    • /
    • 1997
  • 웹검색엔진은 색인되는 웹문서가 많아질수록 시스템 확장성(scalability)이라든지, 데이터베이스 유지 관리의 용이성, 데이터의 안전성 문제, 등의 많은 문제가 웹검색엔진에 부담으로 주어지게 된다. 반면에 인트라넷(intranet)용 검색엔진의 경우는 확장성보다는 검색엔진 자체의 개발의 용이성이 더욱 중요하다. Oracle $ConText^{TM}$는 오라클 사(社의) RDBMS인 $Oracle7^{TM}$의 정보검색 확장 옵션으로 텍스트를 Oracle7의 기본 데이터 타입으로 사용될 수 있게 한다. Oracle7+ConText는 대용량의 문서 베이스와 개발의 용이성을 동시에 보장할 수 있는 매우 훌륭한 웹검색엔진 개발 도구이다. 우리는 이를 검증하기 위하여 Oracle7+ConText에 기반한 WEBSECT(Web Search Engine With ConText)라는 웹검색엔진을 개발하였다. 본 논문은 WEBSECT의 개발과 시험 운영을 통해 데이터베이스에 기반한 웹검색엔진의 우수한 확장성과 텍스트 애플리케이션 개발의 용이성 등을 소개한다.

  • PDF

Performance Improvement of Information Retrieval System through Weight Adjustment of Hypertext and Link Structure Analysis (하이퍼 텍스트의 가중치 조절과 링크 구조 분석 기법을 통한 검색 엔진 성능 개선)

  • Lee, Sang-Ho;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.108-112
    • /
    • 2003
  • 웹 문서의 가장 큰 특징 중 하나는 링크 구조이다. 이 링크들을 이용하여 전체 웹 문서를 커다란 하나의 네트워크로 구성할 수 있으며 이러한 네트워크를 분석함으로써 보다 중요한 문서, 보다 유용한 사이트를 찾아낼 수 있다. 전통적인 검색 모델인 벡터 모델의 성능 개선을 위해 이러한 링크 분석 기법을 활용하여 검색 정확도를 향상시키기 위한 방법을 제안한다. 또한 하이퍼 텍스트는 보다 정확한 키워드를 포함할 확률이 높으므로, 이를 가중치 계산에 적용하여 보다 정확한 결과를 산출한다.

  • PDF

The Method of Document Comparison using Document Hierarchy (문서의 계층화를 이용한 문서비교 방법)

  • Hwang, Myung-Gwon;Kong, Hyun-Jang;Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF

A Reasearch on Signature File Methods for Korean Text Retrieval (한글 텍스트 검색을 위한 요약 화일 기법에 관한 연구)

  • Song, Byoung-Ho;Lee, Suk-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.231-237
    • /
    • 1991
  • 텍스트에 대한 내용 본위 검색 기법으로서 요약 화일(signature file) 기법은 역화일(inverted file)이 허용되지 않을 때 매우 유용하다. 그러나 한글은 영문과 달리 어절의 형성이 복잡하고 띄어쓰기 형태가 고정되지 않음에 따라 기존의 단어 위주 영문 본위 요약 화일 기법을 그대로 적용시킬 수 없다. 본 논문에서는 이를 위하여 띄어쓰기를 무시하고 중복된 2음절 패턴을 도출하여 요약 화일을 구성, 검색하는 기법을 제안한다. 이 기법은 일본어, 중국어 등 비슷한 문제를 가진 외국어에도 적용될 수 있다.

  • PDF