• 제목/요약/키워드: 문자특징 추출

검색결과 252건 처리시간 0.023초

밝기 정보를 이용한 개선된 이진화 방법에 관한 연구 (A Study on Enhanced Binarization Method by Using Intensity Information)

  • 박경태;김정원;김광백
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.441-445
    • /
    • 2003
  • 영상의 이진화(image binarization)는 문자 인식, 영상 분석 등의 전처리 과정으로 다양한 분야에 적용되고 있다. 이진화는 임계치의 설정에 따라 작업 성능이 평가되며 대부분의 이진화 방법은 히스토그램을 사용하여 평균 밝기값이나 히스토그램의 골짜기(valley)를 임계치로 결정한다. 이와 같은 방법은 양봉의 특징을 보이지 않거나 특정 영상을 추출할 경우에는 적절한 임계치를 얻기 어렵다. 따라서 본 논문에서는 그레이스케일 영상에서 밝기 값을 여러 구간으로 분해하여 구간 밝기값의 평균값을 구하고, 각 구간의 평균값 사이 공간을, 각 구간의 양극과의 거리 비율로 나누어서 계산된 값을 임계치로 설정한다. 제안된 이진화 방법의 성능을 평가하기 위하여 다양한 영상에 적용한 결과, 기존의 이진화 방법들보다 효율적인 것을 확인하였다.

  • PDF

Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구 (A Study on the Classification of Hand-written Korean Character Types using Hough Transform)

  • 구하성;고경화
    • 한국통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.1991-2000
    • /
    • 1994
  • 본 논문에서는 필기체 문자 인식 시스템을 위하여 6형식 분류 알고리즘을 제안하였다. 입력 영상은 세선화 과정을 거친 후 잡음을 제거하는 절단화 과정을 거친 후 $64\times64$ 크기로 정규화하여 이용하였다. 6형식 분류는 신경회로망의 모델 중 다층 퍼셉트론의 학습알고리즘을 이용하여 대분류와 상세분류 과정에서 이루어진다. 특징값 추출은 부분적인 특정값으로는 Subblock Hough transform을 이용하였으며 전체적인 특징값으로는 표본화 Hough transfrom을 이용하였다. 실험은 10사람이 한 형식당 30번씩 쓴 1800자를 대상으로 하였으며 받침의 유무로 대분류한 후 각기 종모음과 횡모음의 유무로 상세분류하여 90%의 분류 성공율을 얻었다.

  • PDF

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출 (Extracting curved text lines using the chain composition and the expanded grouping method)

  • ;윤진선;송영준;김남;김용기
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.453-460
    • /
    • 2007
  • 본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

Syntactic법에 의한 한글의 패턴 인식에 관한 연구 (A Study on the Pattern Recognition of Korean Characters by Syntactic Method)

  • 김태균
    • 대한전자공학회논문지
    • /
    • 제14권5호
    • /
    • pp.15-21
    • /
    • 1977
  • 본 논문은 Syntactic법에 의한 한글의 인식 algorithm에 대하여 논한 것으로 인식절차는 크게 나누어 전처리, graph화, 분할의 3단계로 구성되어 있다. 전처리과정에서는 Hilditch의 thinning algorithm을 이용하여 입력문자의 골격패턴을 얻었다. graph화 단계에서는 세선화패턴으로 부터 4종류의 특징점을 추출하여 입력패턴을 기본패턴의 구성관계로 나타냈다. 분할단에서는 tree문법에 의한 패턴해석을 수행, 입력패턴을 구성하는 각 자모를 순차적으로 추출하였다. 본 algorithm의 효용성을 검토하기 위하여 전자계산기를 이용, 511자의 인쇄체 한글에 대하여 인식실험을 행하였다. 그 결과 약 90%의 정인식율을 얻었다.

  • PDF

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

다중 특징을 이용한 영상 및 비디오 내용 기반 검색 시스템 설계 (Content-Based Retrieval System Design for Image and Video using Multiple Fetures)

  • 고병철;이해성;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권12호
    • /
    • pp.1519-1530
    • /
    • 1999
  • 오늘날 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이타베이스에 대한 효율적인 관리는 더욱 중요한 의미를 가지게 되었다. 게다가 영상과 같은 비 문자형태의 데이타에 대한 사용자들의 내용기반 검색욕구 증가로 인해 비디오 인덱싱에 대한 관심은 더욱 고조되고 있다. 따라서 본 논문에서는 우선적으로 분할된 샷 경계면에서 추출된 대표 프레임과 정지 영상 데이타베이스로부터 유사 영상과 유사 대표 프레임을 검색할 수 있는 환경을 제공한다. 우선적으로 영상에 의한 질의는 기존에 주로 사용되어온 색상 히스토그램방식을 탈피하여 본 논문에서 제안하는 CS와 GS방식을 이용하여 색상 및 방향성 정보도 고려하도록 설계하였다. 또한 얼굴에 의한 질의는 대표 프레임으로부터 얼굴 영역을 추출해 내고 얼굴의 경계선 값 및 쌍 직교 웨이블릿 변환에 의해 얻어진 2개의 특징값을 이용하여 유사 인물이 포함된 대표 프레임을 검색해 내도록 설계하였다. Abstract There is a rapid increase in the use of digital video information in recent years, it becomes more important to manage multimedia databases efficiently. There is a big concern about video indexing because users require content-based image retrieval. In this paper, we first propose query-by-image system environment which allows to retrieve similar images from the chosen representative frames or images from the image databases. This algorithm considers not only the discretized color histogram but also the proposed directional information called CS & GS method. Finally, we designe another query environment using query-by-face. In this system , user selects a people in the representative frame browser and then system extracts a face region from that frame. After that system retrieves similar representative frames using 2 features, edge information and biorthogonal wavelet transform.

이미지로부터 계층적 문자열 추출에 관한 연구 (Hierarchical Text Extraction and Localization on Images)

  • 전병민;전우경
    • 한국산학기술학회논문지
    • /
    • 제19권1호
    • /
    • pp.609-614
    • /
    • 2018
  • 인터넷 기술의 급격한 성장으로 우리들은 언제 어디에서나 다양한 장치를 이용하여 온라인에 접속할 수 있으며, 실시간, 대용량의 영상 및 사진들이 인터넷상에 올려지고 있다. 이러한 영상들의 대부분은 영상에 관련된, 영상을 인식할 수 있는 간단한 주석을 갖는다. 그럼에도 아직도 주석이 없는 단일 영상이나 잘못된 주석이나 태그 정보 때문에 우리가 원하는 영상을 찾는데 문제점이 있어 이러한 문제해결을 위해서는 영상의 올바른 정보를 태깅하는 것이 필수적이다. 대부분의 태그는 문서나 주석의 형태를 가지므로 주석이나 문서의 정보가 올바르지 않으면 원하는 영상을 찾는데 많은 어려움이 따른다. 그리하여 더 나은 영상 탐색 결과와 올바른 영상 주석을 위해서 작가에 의한 주석뿐만 아니라 올바른 영상분석 또한 아주 중요하다. 영상 특징을 추출하는 것은 신뢰성 있는 영상 주석을 위해 필수 불가결한 요소이다. 따라서 본 논문에서는 다양한 불특정 영상으로 부터 계층적 텍스트 추출 방법을 사용하여 신뢰성 있는 영상 주석을 얻는다. 다양한 영상으로 부터 영상이나 사진 속에 포함된 텍스트 정보를 추출하는 방법을 제안하였으며, 실험결과 제안한 텍스트 추출기법이 대부분의 영상으로부터 정확하게 텍스트 특징을 추출하는 결과를 보여주었고, 성능 평가 결과 최소 0.04부터 최대 0.52의 높은 평가결과를 보여주었다. 또한 정확도 측면에서도 다른 기법들 보다 최소 18.1%부터 최대 37.9%의 높은 정확도를 보여주었다.

텍스트 기준점 기반의 저작권 침해 판단 시스템 구현 (System Implement to Identify Copyright Infringement Based on the Text Reference Point)

  • 최경웅;박순철;양승원
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.77-84
    • /
    • 2015
  • 기존 문서 저작물의 저작권 침해 판단 방법은 문서를 처음부터 끝까지 문장 단위로 자른 후, 문장 안에서 6어절 단위로 이동하면서 색인키를 생성하여 비교한다. 그러나 이 방법은 문서의 크기가 클 때 색인키가 대량으로 생산되어 표절 검사의 시간이 길어지는 단점이 있다. 이러한 단점을 제거하기 위하여, 본 논문에서 제안하는 방법은 일정한 크기의 윈도우를 문자 단위로 이동하면서 각 윈도우 내에 있는 가장 큰 어절을 선택하여 특징블록을 색인키로 정하는 것이다. 이 방법은 윈도우를 이동하는 과정에서 중복된 특징 블록을 제거하여 색인키의 수를 획기적으로 줄일 수 있다. 이를 적용한 시스템은, 상대적으로 적게 추출된 특징블록간 유사도를 비교함으로써, 두 문서 저작물사이에서 표절된 저작물의 침해 위치를 정확하고 빠르게 검색할 수 있다.

문자출력 무선호출기를 위한 음성인식 시스템 (Speech Recognition in the Pager System displaying Defined Sentences)

  • 박규붕;박전규;서상원;황두성;김현빈;한문성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-162
    • /
    • 1996
  • 본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

  • PDF

모바일 시스템 응용을 위한 실외 한국어 간판 영상에서 텍스트 검출 및 인식 (Text Detection and Recognition in Outdoor Korean Signboards for Mobile System Applications)

  • 박종현;이귀상;김수형;이명훈
    • 전자공학회논문지CI
    • /
    • 제46권2호
    • /
    • pp.44-51
    • /
    • 2009
  • 자연 영상에서의 텍스트 이해는 지난 수년간 매우 활발한 연구 분야로 자리하고 있다. 논문에서 우리는 한국어 간판 영상으로부터 자동으로 텍스트를 인식하는 방법을 제안한다. 제안된 방법은 상호명의 인식을 위한 텍스트 영역의 검출 및 이진화를 포함하고 있다. 먼저 수직, 수평 방향의 에지 히스토그램을 이용하여 텍스트 영역의 정교한 검출을 수행하였다. 두 번째 단계는 검출된 텍스트 영역에 대해서 연결요소 기법을 적용하여 각각의 독립된 한 개의 문자 영역으로 분할되어지고, 마지막으로 최소 거리 분류법에 의해 각각의 글자를 인식한다. 각각의 문자 인식을 위해 모양 기반 통계적 특징을 추출한다. 실험에서 제안된 전체적인 효율성 및 정확성을 분석하였으며, 현재 구현된 모바일 시스템의 실용성을 확인할 수 있었다.