• Title/Summary/Keyword: 텍스트 기반 검색

Search Result 373, Processing Time 0.021 seconds

A Study on Development of Patent Information Retrieval Using Textmining (텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구)

  • Go, Gwang-Su;Jung, Won-Kyo;Shin, Young-Geun;Park, Sang-Sung;Jang, Dong-Sik
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.8
    • /
    • pp.3677-3688
    • /
    • 2011
  • The patent information retrieval system can serve a variety of purposes. In general, the patent information is retrieved using limited key words. To identify earlier technology and priority rights repeated effort is needed. This study proposes a method of content-based retrieval using text mining. Using the proposed algorithm, each of the documents is invested with characteristic value. The characteristic values are used to compare similarities between query documents and database documents. Text analysis is composed of 3 steps: stop-word, keyword analysis and weighted value calculation. In the test results, the general retrieval and the proposed algorithm were compared by using accuracy measurements. As the study arranges the result documents as similarities of the query documents, the surfer can improve the efficiency by reviewing the similar documents first. Also because of being able to input the full-text of patent documents, the users unacquainted with surfing can use it easily and quickly. It can reduce the amount of displayed missing data through the use of content based retrieval instead of keyword based retrieval for extending the scope of the search.

VL-KE-T5: A contrastive learning-based pre-trained model using image-language parallel data composed of Korean and English (VL-KE-T5: 한국어와 영어로 구성된 영상-언어 병렬 데이터를 이용한 대조학습 기반 사전학습모델 구축)

  • San Kim;Saim, Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.337-342
    • /
    • 2022
  • 본 논문은 한국어-영어 기반 영상-언어 모델인 VL-KE-T5를 소개한다. VL-KE-T5는 영상-텍스트 쌍으로 구성된 한국어와 영어 데이터 약 2천 3백만개를 이용하여 영상-언어 모델의 임베딩 벡터들을 정렬시킨 사전학습모델이며, 미세조정을 통하여 여러 영상-언어 작업에 활용할 할 수 있다. VL-KE-T5는 텍스트 기반 영상 검색 작업에서 높은 성능을 보였으나, 세세한 속성을 가진 여러 객체들의 나열이나 객체 간 관계를 포함한 텍스트 기반 영상 검색에서는 비교적 낮은 성능을 보였다.

  • PDF

XML Mediator for Content-based Query Processing (내용기반 질의 처리를 위한 XML Mediator)

  • 유광열;김홍식
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.66-69
    • /
    • 2001
  • 최근 인터넷의 발전으로 방대한 정보가 존재함에 따라 이들 정보들을 통합 관리할 필요성이 증대하고, 웹 검색 시스템의 서비스가 텍스트뿐만 아니라 이미지나 사운드 데이터와 같은 멀티미디어 정보까지 보편화되어 검색의 결과로 서비스를 제공하고 있다. 기존의 검색결과를 보면 멀티미디어 데이터에 대한 검색결과는 부가적 정보로서 서비스를 제공하기 때문에 검색 결과에 대해서도 정확한 결과에 대한 서비스를 제공하지 못하고 있다. 본 논문에서는 XML기반에서 멀티미디어 데이터 소스에 대한 메타데이터를 DTD로 설계하여 내용기반 질의를 효과적으로 분산처리 할 수 있도록 Mediator를 설계한다.

  • PDF

Web based Image Retrieval system using User Sketch and Example Image Queries (예제 이미지와 사용자 스케치 질의에 의한 웹 기반 이미지 검색 시스템)

  • Hwang Byung-Kon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.4
    • /
    • pp.26-31
    • /
    • 2004
  • Due to the recent explosive progress of Web, We can easily access a large number of images from m. In this paper, we describe our approach of developing a general purpose content based image retrieval system over the H using a Web agent. The Web agent extracts text information of images from the links and file contents in HTML. The proposed system retrieves the images from database using the query by sketch and the query by example on Web browser. Experimental results demonstrate the effectiveness of the new approach.

  • PDF

A Design of Music Retrieval and Recommendation System based on Emotion (감성 기반 음악 검색 및 추천 시스템 설계)

  • Yoon, Bo-Kook;Hong, Seong-Yong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.153-155
    • /
    • 2011
  • 최근 음악 검색 연구에서 일반적으로 사용되는 방법은 키워드 중심의 텍스트 기반 검색방식, 음원의 특징 정보나 허밍 질의 처리 등을 이용하는 내용기반 검색 방식 등이 있다. 그러나 이러한 검색 방식은 단순히 원하는 음악을 질의에 따라 검색해 주며 인간의 감성을 고려하지 못하고 있다. 따라서 본 논문에서는 질의에 의한 검색뿐만 아니라 질의한 음원과 감성정도가 같은 음원을 추천하는 인간 감성 기반 음악 검색 및 추천 시스템을 제안한다. 인간 감성 기반 음악 검색 및 추천 시스템은 크게 2가지 요소로 구성된다. 첫 번째는 사용자가 질의한 질의어를 분석하는 감성기반 검색추론엔진과 두 번째는 음원의 특징 정보 및 감성 정보를 가지고 있는 음원 감성 정보 데이터베이스로 구성된다. 사용자의 감성에 따라 음악을 검색하고 추천한다는 것은 향후 음반 산업에 큰 발전에 기여할 것으로 기대한다.

Videotext Detection for Content-based Retrieval (내용기반 검색을 위한 비디오텍스트 검출)

  • Kwak, Dong-Youp;Kim, Eun-Yi;Chang, Jae-Sig;Kim, Hang-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.805-808
    • /
    • 2001
  • 본 논문은 비디오 영상에서 내용 기반 검색을 위한 비디오 텍스트를 검출하는 방법을 제안한다. 영어와 달리 한글과 같이 다중 분할된 문자가 포함된 비디오 텍스트를 자동으로 검출하기 위해 형태와 크기 및 위치 정보를 이용하고 이러한 정보들은 K-mean 클러스트링 알고리즘을 이용해 얻어진 템플릿의 형태로 표현 된다. 연결 성분 분석(connected component analysis)방법을 통해 비디오 영상을 분할하고, 잡음을 제거한 후 정확한 문자 성분을 검출하기 위해 클러스터 기반의 템플릿 매칭을 한다. 제안된 방법은 정확도와 에러율에서 기존의 방법보다 효과적 이었다.

  • PDF

Korea Electronic Technology Institute (멀티미디어 컨텐츠의 지능형 선택/검색 시스템 구현)

  • 이종설;이윤주;박우출;정하중;조위덕
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.61-63
    • /
    • 2002
  • 멀티미디어 컨텐츠의 지능형 선택/검색 시스템(MISS: Multimedia Content Intelligent Selection/search) 는 콘텐츠를 공급하는 서버에 다량의 멀티미디어 컨텐츠들이 존재하며, 이 컨텐츠 중에서 원하는 것을 검색, 선택하는 시스템이다. 지능적 검색, 선택기능을 갖는 MISS 시스템은 인터넷 및 네트워크상에 연결된 시스템들간의 맞춤형 서비스 구현에 필요한 핵심이며, 모든 종류의 멀티미디어 콘텐츠에 적용 가능하다. 현재 WWW 서비스경우는 정보를 찾기 위하여 웹상에서 문서를 찾아주는 텍스트 기반 정보검색기술이 사용되고 있는데, 점점 우리가 접하는 정보의 형태는 텍스트와 함께 화상, 음성, 동영상 등의 멀티미디어화 및 디지털화하고 있다. 사용자들에게는 멀티미디어 데이터를 효과적으로 찾아야 하는 필요성이 증가하고 이에 따라 방대한 양의 분산된 멀티미디어 데이터를 처리할 수 있는 색인 및 검색 도구의 요구가 커지게 되었다. MISS 시스템은 WWW 서비스의 요구에도 적용될 수 있다. MISS 시스템은 다량의 동영상 콘텐츠 중에서 특정 배우, 감독등의 여러 가지 검색 조건으로 콘텐츠를 검색/선택할 수 있고, 하나의 동영상 콘텐츠 내에서 특정Video Segment를 검색할 수 있다. 본 MISS 시스템은 동영상에 대한 Search/Query를 위한DS 구조로써 MPEG-7의 User preference metadata를 이용하였다.

  • PDF

The Extraction of Effective Index Database from Voice Database and Information Retrieval (음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.3
    • /
    • pp.271-291
    • /
    • 2004
  • Such information services source like digital library has been asked information services of atypical multimedia database like image, voice, VOD/AOD. Examined in this study are suggestions such as word-phrase generator, syllable recoverer, morphological analyzer, corrector for voice processing. Suggested voice processing technique transform voice database into tort database, then extract index database from text database. On top of this, the study suggest a information retrieval model to use in extracted index database, voice full-text information retrieval.

  • PDF

Design of Multimedia Retrieval System based on XML (XML기반 멀티미디어 검색시스템의 설계)

  • Yoon, Mi-Hee;Cho, Dong-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.59-62
    • /
    • 2003
  • 컴퓨팅 기술의 발달 밍 보편화로 인해 사용자들의 멀티미디어에 대한 요구가 증가하였고, 이러한 요구를 만족시키기 위해서는 단순한 텍스트 형식의 데이터가 아닌 멀티미디어 데이터, 특히 비디오 데이터에 대한 저장, 관리, 검색하는 기능이 필수적이다. 본 논문에서는 비디오데이터에 대한 효율적인 의미검색을 위해 주석기반 검색뿐만 아니라 특징기반 검색을 지원한다. 특히 사용자가 원하는 객체나 장면의 유사성 검색이 가능하며, 장면의 검색 결과로 제시된 장면을 선택한 후 선택된 장면을 기반으로 사용자가 원하는 좀 더 정확한 장면의 검색을 위한 SQBE(scene-query-by-example) 질의가 가능한 XML 기반 멀티미디어 검색시스템을 제안한다.

  • PDF

Detecting Intentionally Biased Web Pages In terms of Hypertext Information (하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구)

  • Lee Woo Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.1 s.33
    • /
    • pp.59-66
    • /
    • 2005
  • The organization of the web is progressively more being used to improve search and analysis of information on the web as a large collection of heterogeneous documents. Most people begin at a Web search engine to find information. but the user's pertinent search results are often greatly diluted by irrelevant data or sometimes appear on target but still mislead the user in an unwanted direction. One of the intentional, sometimes vicious manipulations of Web databases is a intentionally biased web page like Google bombing that is based on the PageRank algorithm. one of many Web structuring techniques. In this thesis, we regard the World Wide Web as a directed labeled graph that Web pages represent nodes and link edges. In the Present work, we define the label of an edge as having a link context and a similarity measure between link context and target page. With this similarity, we can modify the transition matrix of the PageRank algorithm. By suggesting a motivating example, it is explained how our proposed algorithm can filter the Web intentionally biased web Pages effective about $60\%% rather than the conventional PageRank.

  • PDF