• 제목/요약/키워드: 획 추출

검색결과 159건 처리시간 0.029초

칼라정보에 기반한 텍스트 영역 추출에서의 지워진 획 복구 (Recovery of Erased Character Strokes in the Extraction of Text Using Color Information)

  • 김선형;김지수;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.657-660
    • /
    • 2006
  • 자연영상이나 스팸메일 영상으로부터 텍스트 영역을 추출하고 추출한 텍스트 영역에 이진화를 수행하고 나면 가로 방향이나 세로획 방향으로 놓여 있는 "1" 그리고 "ㅡ" 에 해당하는 한글의 종성부분이 이미지 내의 잡영을 지울 때 종종 지워지는 결과를 볼 수 있다. 이렇게 지워진 획 부분을 되살리기 위한 방법으로 텍스트 Hinting 알고리즘을 제안한다. 텍스트 Hinting 알고리즘은 이진화된 이미지의 텍스트 픽셀 위치와 동일한 좌표에 해당하는 원본 이미지의 RGB 값을 추출하여 추출된 텍스트 후보 영역의 색상을 알아낸다. 추출된 텍스트 색상 레이어 이미지와 이진화된 이미지에 OR연산을 수행하게 되면 지워진 획 부분을 복원할 수 있다. 제안한 방법을 스팸 이미지에 적용한 결과 텍스트 추출결과를 획기적으로 개선할 수 있음을 보였다.

  • PDF

필기체 한글의 오프라인 인식을 위한 획 정합 방법 (A Stroke Matching Method for the Off-line Recognition of Handprinted Hanguls)

  • 김기철;이성환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.225-235
    • /
    • 1992
  • 본 논문은 오프라인 필기체 한글 인식에 관한 연구로서, 입력 문자 영상에 대한 위치 정규화, 외곽선 추적 및 세선화의 전처리 과정을 거쳐 외곽선의 방향 성분 분포, 세선화한 결과의 방향 성분 분포, 구조적 특징점 분포 등의 특징을 추출한 다음, 획을 추출하여 획의 방향과 길이에 대한중점 분포 특징으로 정합하는 필기 한글의 인식을 위한 획 정합 방법을 제안하였다. 인식 시간의 단축을 위해 먼저 외곽선의 방향성분분포를 이용하여 대분류하였으며, 한글 사용 빈도수 상위 520자로 구성되는 필기 데이타에 대한 실험 결과, 평균 91%의 인식률과 평균 0.46초의 문자당 인식 시간을 보임으로써 제안된 획 정합 방법이 입력 문자의 잡영이나 획의 기울기에 대한 변형을 효과적으로 흡수할 수 있음을 알 수 있었다.

  • PDF

의사결정 트리를 이용한 한글 자막 추출 (Korean Caption Extraction with Decision Tree)

  • 정제희;이승훈;김재광;이지형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.527-532
    • /
    • 2008
  • 자막은 영상과 관련이 있는 정보를 포함한다. 이러한 영상의 정보를 이용하기 위해서 자막을 추출하는 연구가 진행되고 있다. 기존의 자막 추출 연구는 언어 독립적인 특징으로 자막을 이루는 획의 에지는 일정한 간격을 유지하거나 수평라인으로 존재하는 글자의 분포를 이용한 방법을 제안하였다. 이러한 방법들은 획의 간격이 일정한 자막이나 하나의 글자가 하나의 획으로 이루어진 글자에서만 정상적인 동작을 보장하였다. 본 논문에서는 한글 자막 특징을 고려한 자막 추출 방법을 제안한다. 먼저, 한글 자막의 특징인 가로 획의 다수 분포를 고려한 적응형 에지 이진화를 수행하여 에지 영상을 생성하고 에지 연결 객체를 생성한다. 그 후에 생성한 연결 객체를 특징을 추출하여 사전에 생성한 의사결정 트리로 연결 객체를 자막과 비자막 연결객체로 분류한다. 의사결정 트리를 생성하기 위해서 사용한 연결 객체는 뉴스, 다큐멘터리 프로그램에서 획득하였으며, 성능 평가를 위해서 뉴스, 다큐멘터리, 스포츠 프로그램과 같은 대중 방송에서 획득한 영상에서 자막을 추출하였다. 평가 방법은 찾아진 연결 객체 중에 자막 연결 객체의 비율과 전체 자막 중에서 찾아진 자막 연결 객체의 비율로 분석하였다. 실험 결과에서는 제안한 방법이 한글 자막의 추출에 적용 가능함을 보여준다.

  • PDF

필기체 한글 문자 인식을 위한 획 추출에 관한 연구 (A Study on Stroke Extraction for Handwritten Korean Character Recognition)

  • 최영규;이상범
    • 정보처리학회논문지B
    • /
    • 제9B권3호
    • /
    • pp.375-382
    • /
    • 2002
  • 필기체 문자 인식은 온라인 필기체 문자 인식과 오프라인 필기체 문자 인식으로 나누어진다. 온라인 필기체 문자 인식은 타블렛과 같은 펜 기반의 전자식 입력 장치를 이용하여 필기의 순서와 획의 위치와 같은 동적인 필기 정보를 문자의 입력 시 획득할 수 있어 오프라인 필기체 문자 인식에 비해 큰 연구 성과를 이루었다. 그러나 오프라인 필기체 문자 인식은 온라인 필기체 문자 인식에서와 같이 동적인 정보를 입력받을 수 없고, 다양한 필기와 자소의 겹침이 심하며 획 사이의 잡영을 많이 가지고 있어 인식의 전처리 결과에 따라 인식 성능이 크게 달라진다. 본 논문에서는 오프라인 필기체 한글 문자 인식을 위해 문자의 동적인 정보를 포함하는 획을 효과적으로 추출하는 방법을 제안한다. 제안된 방법은 전처리 과정으로 먼저 Watershed 알고리즘을 이용하여 입력된 필기체 문자 영상의 향상 및 이진화를 수행한다. 이진화된 문자부를 변형된 Lu와 Wang의 세선화 알고리즘을 사용하여 세선화를 수행한 후 문자에서의 특징점을 추출하여 세그먼트 화소열을 추출하고, 최대 허용 오차법을 이용하여 벡터화한다. 벡터화의 수행으로 몇 개의 획이 하나의 세그먼트로 묶인 경우, 하나의 세그먼트 화소열은 2 또는 그 이상의 세그먼트 벡터로 분리된다. 추출된 세그먼트 벡터들을 완전한 획으로 재구성하기 위해서 오른손 필기 좌표계 시스템을 이용하여 벡터의 방향적인 성분을 인간의 필기 획의 방향에 알맞게 수정하고, 수정된 세그먼트 벡터의 방향성과 분기 정보를 이용하여 인접한 결합 가능한 세그먼트 벡터를 결합함으로써 문자 인식에 적합한 완전한 획으로 재구성한다. 실험 결과 제안된 방법이 필기체 한글 문자 인식에 적합함을 알 수 있었다.

DP 정합을 이용한 필기체 한자 인식 (Recognition of Handwriting Chinese Characters Based on DP matching)

  • 전상엽;권희용
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.285-288
    • /
    • 2004
  • 온라인 필기체 한자는 동일인의 동일 문자조차도 회수, 획순 및 형태의 변화가 다양할 뿐만 아니라 인식 대상이 방대하여 인식이 매우 어렵다. 또한 한자는 기본 자소의 조합에 의한 글자가 아닌 각각의 글자가 독립적으로 이루어져 있어 연속된 획들 간의 관련도를 파악하기 어렵고 획수도 1획에서 28획까지 다양하게 분포를 한다. 따라서 본 연구에서는 대분류 단계로 시작획 비교를 하고 이어진 세분류 단계에서 문자의 특징으로 방향코드와 특이점을 추출해내고 획수를 고려하여 DP 정합을 하는 2단계 인식 시스템을 제안하였다. 이로써 최적의 속도로 입력한 문자를 찾아낼 수 있도록 하였다.

  • PDF

한글 트루타입폰트 및 손글씨의 자동 획 분할 알고리즘 (Automatic Stroke Extraction of TrueType Font and Handwriting of Hangul)

  • 곽윤석;구상옥;정순기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.275-280
    • /
    • 2008
  • 본 논문에서는 한글 글립(glyph)의 형태학적 분석을 통해 자동으로 획을 분할하는 방법을 제안한다. 제안된 방법은 thinning된 한글 글립의 골격(skeleton) 이미지를 기반으로, 획 분리, 획 병합, 그리고 획 볼륨 복원의 세가지 단계를 거쳐 한글의 기본 획들을 추출해 낸다. 실험 결과, 트루타입폰트(TrueType Font)에 대해서는 80%, 손글씨(Handwriting) 글립에 대해서는 72%의 획 분할 정확도를 보였다. 본 논문에서 제안한 방법으로 획득된 획 정보를 이용하여, 향후 한글 손글씨 생성을 위한 연구를 하고자 한다.

  • PDF

색상레이어를 이용한 스팸메일 영상에서의 텍스트 영역 추출 (Extraction of Text Regions from Spam-Mail Images Using Color Layers)

  • 김지수;김수형;한승완;남택용;손화정;오성열
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.409-416
    • /
    • 2006
  • 본 논문에서는 스팸메일 영상에서 텍스트 영역의 추출을 위한 색상 레이어기반의 알고리즘을 제안한다. CLTE(color layer-based text extraction)는 색상 레이어를 사용하여 영상을 8개로 나눈다. 8개 각각의 영상에서 연결요소를 추출한 후, 연결요소의 크기에 의해서 텍스트 영역과 비텍스트 영역을 분류하고 텍스트 영역을 추출한다. 또한, 추출된 텍스트 영역으로부터 회손된 획 정보를 복구하는 알고리즘을 제안한다. 이진영상내의 한글 문자에는 두 가지 형태의 손상된 획이 존재한다. 첫째 중성 획에 해당하는 'ㅣ' 나 'ㅡ' 등의 획들이 지워지는 경우와, 둘째 초 종성 획에 해당하는 'ㅁ' 이나 'ㅇ'이 흑화소로 채워지는 경우가 있다. 제안한 알고리즘은 이러한 두 가지 손상된 획들을 복구해준다. 200개의 스팸메일 영상을 사용한 실험 결과 제안한 알고리즘이 기존의 텍스트 추출 알고리즘보다 10% 이상 우수함을 관측하였다.

색기반 이진화를 이용한 장면 텍스트 추출과 써포트 벡터머신을 이용한 텍스트 영역 검증 (Scene Text Detection Using Color-Based Binarization and Text Region Verification Using Support Vector Machine)

  • 장대근;김의정
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.161-163
    • /
    • 2007
  • 기존의 텍스트 추출을 위한 이진화 방법은 입력 이미지를 명도 이미지로 변환한 뒤 이진화 하는 방법을 사용하였다. 이러한 방법은 칼라 이미지에서는 극명히 구분되는 색이라 할지라도 명도 이미지로 변환하는 과정에서 같은 밝기를 같게 되는 경우(예를 들어, 배경은 붉은색, 텍스트는 초록색), 텍스트를 추출하는 데 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 입력 이미지를 R, G, B로 분리하고 각각을 이진화 하여 텍스트를 추출하고 다해상도 웨이블릿(Wavelet) 변환을 이용하여 텍스트의 획 특징을 추출하여 추출된 특징들을 SVM(Support Vector Machine) 분류기로 검증하여 최종 텍스트 영역을 확정한다. 제안한 방법을 적용함으로써 명도 정보만으로는 추출하기 어려웠던 텍스트 영역을 효과적으로 추출하고 텍스트와 구별하기 어려운 영역을 획수준으로 검증할 수 있었다.

  • PDF

조응구조의 지시사상 (mapping) 이론

  • 박영규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.199-199
    • /
    • 1990
  • 입력된 문서 영상으로부터 분리 추출된 문자 영상을 올바르게 인식하는 것은 문서 인식에서 가장 핵심적인 부분이다. 스캐너를 통해 입력되고 분리된 실제의 문자 영상은 많은 문제점들을 가지고 있다. 한글의 경우 이 중 개별 문자 영상내의 각 자소간의 접촉은 올바른 인식을 저해하는 주요한 원인이다. 이런 접촉의 문제를 효율적으로 해결하기 위해 한글의 구조적 특성을 지닌 "방향 필터"를 정의하고, 이것을 이용하여 세선화된 문자 영상을 추적하면서 선소들을 뽑아낸다. 이렇게 하여 얻은 선소들과 선소들간의 지식을 조합하여 한글자소 획을 추출케 되고 결국에는 이런 획의 조합을 통해 문자 영상을 인식하는 방법을 제안한다.

  • PDF

시각신경 메커니즘을 이용한 한자 획의 분리 및 추출 (Stroke Extraction of Chinese Character using Mechanism of Optical Neural Field)

  • 손진우;이욱재;이행세
    • 한국정보처리학회논문지
    • /
    • 제1권3호
    • /
    • pp.311-318
    • /
    • 1994
  • 시각신경계의 특정추출 기구인 수용영역 즉, RF(Receptive Field)모델을 이용하여 한자의 획의 분리 및 추출에 관한 방법을 제안한다. 한자의 복잡한 정보에 대한 분리 추출과 데이터베이스화 등은 더욱 명백한 처리과정을 필요로하고 있다. 본 기법의 특 징은 망막과 대뇌 시각영역의 특징추출 기구인 수용영역을 모델링 하였고 신경세포 입력 방식에 따라 국소적인 처리에서 얻어진 정보를 대국적인 처리로 통합 추출하는 것으로서 그 기능성과 유효성을 확인할 수 있었다.

  • PDF