• Title/Summary/Keyword: 텍스트 추출

Search Result 973, Processing Time 0.047 seconds

A Study on Efficient Extraction of Text frame in MPEG News Video Images (MPEG 뉴스영상에서 효율적인 텍스트 프레임 추출에 관한 연구)

  • 정하영;황보택근
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.234-237
    • /
    • 2000
  • 멀티미디어 데이터를 다루는 기술이 급격하게 발전함에 따라 멀티미디어 데이터베이스를 운용함에 있어서 사용자의 효율적인 검색을 지원하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 MPEG으로로 압축된 뉴스 영상에서 내용기반 검색을 위한 효율적인 텍스트 프레임 추출방법을 제시한다. 제시하는 방법은 문자가 있는 프레임을 탐색하는 데 있어서 압축된 데이터에 최소한의 복호화만을 함으로써 탐색시간을 줄이고, 뉴스 영상에서의 문자의 특성을 고려하여 중복 추출을 줄이고 시간을 단축한다.

  • PDF

Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data (계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출)

  • 엄재홍;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF

Automatic Acquisition of Ranked IS-A Relation from Unstructured Text (텍스트에서 IS-A 관계의 자동 추출 및 순위화)

  • Ryu, Pum-Mo;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.150-157
    • /
    • 2007
  • 본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.

  • PDF

AEMSER Using Adaptive Threshold Of Canny Operator To Extract Scene Text (장면 텍스트 추출을 위한 캐니 연산자의 적응적 임계값을 이용한 AEMSER)

  • Park, Sunhwa;Kim, Donghyun;Im, Hyunsoo;Kim, Honghoon;Paek, Jaegyung;Park, Jaeheung;Seo, Yeong Geon
    • Journal of Digital Contents Society
    • /
    • v.16 no.6
    • /
    • pp.951-959
    • /
    • 2015
  • Scene text extraction is important because it offers some important information on different image based applications pouring in current smart generation. Edge-Enhanced MSER(Maximally Stable Extremal Regions) which enhances the boundaries using the canny operator after extracting the basic MSER shows excellent performance in terms of text extraction. But according to setting the threshold of the canny operator, the result images using Edge-Enhanced MSER are different, so there needs a method figuring out the threshold. In this paper, we propose a AEMSER(Adaptive Edge-enhanced MSER) that applies the method extracting the boundary using the middle value of histogram to Edge-Enhanced MSER to get the canny operator's threshold. The proposed method can acquire better result images than the existing methods because it extracts the area only for the obvious boundaries.

Overlay Text Graphic Region Extraction for Video Quality Enhancement Application (비디오 품질 향상 응용을 위한 오버레이 텍스트 그래픽 영역 검출)

  • Lee, Sanghee;Park, Hansung;Ahn, Jungil;On, Youngsang;Jo, Kanghyun
    • Journal of Broadcast Engineering
    • /
    • v.18 no.4
    • /
    • pp.559-571
    • /
    • 2013
  • This paper has presented a few problems when the 2D video superimposed the overlay text was converted to the 3D stereoscopic video. To resolve the problems, it proposes the scenario which the original video is divided into two parts, one is the video only with overlay text graphic region and the other is the video with holes, and then processed respectively. And this paper focuses on research only to detect and extract the overlay text graphic region, which is a first step among the processes in the proposed scenario. To decide whether the overlay text is included or not within a frame, it is used the corner density map based on the Harris corner detector. Following that, the overlay text region is extracted using the hybrid method of color and motion information of the overlay text region. The experiment shows the results of the overlay text region detection and extraction process in a few genre video sequence.

Probabilistic filtering for a biological knowledge discovery system with text mining and automatic inference (텍스트 마이닝 및 자동 추론 기반 생물학 지식 발견 시스템을 위한 확률 기반 필터링)

  • Lee, Hee-Jin;Park, Jong-C.
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.2
    • /
    • pp.139-147
    • /
    • 2012
  • In this paper, we discuss the structure of biological knowledge discovery system based on text mining and automatic inference. Given a set of biology documents, the system produces a new hypothesis in an integrated manner. The text mining module of the system first extracts the 'event' information of predefined types from the documents. The inference module then produces a new hypothesis based on the extracted results. Such an integrated system can use information more up-to-date and diverse than other automatic knowledge discovery systems use. However, for the success of such an integrated system, the precision of the text mining module becomes crucial, as any hypothesis based on a single piece of false positive information would highly likely be erroneous. In this paper, we propose a probabilistic filtering method that filters out false positives from the extraction results. Our proposed method shows higher performance over an occurrence-based baseline method.

Study on Text Detection of Low-contrast Region in Natural Images Using Edge-Based Based Method (자연영상에서 저 대비 영역의 텍스트 영역 검출을 위한 에지-기반 방법에 관한 연구)

  • Bak, Jong-Cheon;Gwon, Gyo-Hyeon;Jeon, Byeong-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.187-190
    • /
    • 2010
  • 최근 모바일 기기 응용 분야에 관한 연구가 활발히 진행되고 있으며 모바일기기로 촬영된 영상에서 텍스트 정보를 추출하고자 하는 많은 연구도 진행되고 있다. 자연영상으로부터 텍스트 인식을 위한 전 단계로 텍스트 영역 검출은 필수적이므로 본 연구는 텍스트 영역의 에지-기반 특징을 고려하여 저 대비 영역에 존재하는 텍스트 영역을 검출하는 방법을 제안한다. 에지 성분은 캐니-연산자를 이용하여 검출하고 검출된 에지성분으로부터 후보 텍스트 영역을 검출하고, 후보 텍스트 영역에 대한 검증을 수행함으로서 최종적인 텍스트 영역을 검출한다. 제안한 방법은 낮은 대비를 갖는 자연영상에서 텍스트 영역 검출 성능을 개선하는 결과를 얻었다.

  • PDF

Extracting Comparative Elements from Comparative Sentences (비교 문장으로부터 비교 요소 자동 추출)

  • Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.225-228
    • /
    • 2011
  • 본 논문은 비교 마이닝(comparison mining) 의 일환인 비교 요소 자동 추출에 관하여 연구한다. 비교 마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계롤 자동 분석하며, 비교 문장인지 아닌지를 식별하는 단계, 비교 타입을 분류하는 단계, 다양한 비교 요소들을 추출하는 단계, 추출된 요소를 분석 및 요약하는 단계 등을 거치게 된다. 본 연구에서는 특정 타입의 비교 문장이 주어졌을때, 그 문장에서 비교 요소를 자동으로 추출하는 단계의 과제를 수행하며, 우열 비교 타입 및 최상급 타입 문장들을 대상으로 비교 주체, 비교 대상, 비교 술어를 추출한다. 실험 과정으로는, 우선 비교 요소 후보들을 선정하고, 그 후 각 요소별로 확률을 계산하여 가장 높은 수치를 기록한 요소를 정답으로 채택하게 된다. 확률 계산은 지지 벡터 기계 (Support Vector Machine)를 이용한다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소 추출을 수출한 결과, 정확도 86.81 %의 우수한 성능을 산출 할 수 있었다.

The Extraction of Effective Index Database from Voice Database and Information Retrieval (음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.3
    • /
    • pp.271-291
    • /
    • 2004
  • Such information services source like digital library has been asked information services of atypical multimedia database like image, voice, VOD/AOD. Examined in this study are suggestions such as word-phrase generator, syllable recoverer, morphological analyzer, corrector for voice processing. Suggested voice processing technique transform voice database into tort database, then extract index database from text database. On top of this, the study suggest a information retrieval model to use in extracted index database, voice full-text information retrieval.

  • PDF

Korean Text Automatic Summarization using Semantically Expanded Sentence Similarity (의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약)

  • Kim, Heechan;Lee, Soowon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.841-844
    • /
    • 2014
  • 텍스트 자동 요약은 수많은 텍스트 데이터를 처리함에 있어 중요한 연구 분야이다. 이중 추출요약은 현재 가장 많이 연구가 되고 있는 자동 요약 분야이다. 본 논문은 추출 요약의 선두 연구인 TextRank는 문장 간 유사도를 계산할 때 문장 내 단어 간의 의미적 유사성을 충분히 고려하지 못하였다. 본 연구에서는 의미적 유사성을 고려한 새로운 단어 간 유사도 측정 방법을 제안한다. 추출된 문장 간 유사도는 그래프로 표현되며, TextRank의 랭킹 알고리즘과 동일한 랭킹 알고리즘을 사용하여 실험적으로 평가하였다. 그 결과 문장 간 유사성을 고려할 때 단어의 의미적 요소를 충분히 고려하여 정보의 유실을 최소화하여야 한다는 것을 실험 결과로써 확인할 수 있었다.