• 제목/요약/키워드: "문자"

검색결과 3,482건 처리시간 0.035초

측면 윤곽 패턴을 이용한 접합 문자 분할법 (Character Segmentation Using Side Profile Pattern)

  • 정민철
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2003년도 춘계학술발표논문집
    • /
    • pp.260-263
    • /
    • 2003
  • 본 연구에서는 접합 문자를 분할하는 알고리듬을 소개한다. 문자 인식기는 문자를 인식하기 위해 문자 분할을 전 처리 단계에 필요로 하는데, 문자 분할은 높은 수행력을 위해 문자 인식 결과를 필요로 한다. 이 딜레마를 해결하기 위해서는 문자 분할과 문자 인식, 이 두 문제를 동시에 해결하는 방법이 필요하다. 이를 위해 본 논문에서는 문자 분할 전에 접합 문자 내에 있는 소속 문자를 인식하고 문자를 분할하는 새로운 문자 분할 방법을 제시한다. 본 연구에서 제시한 문자 분할 알고리즘은 접합 문자 내에 있는 소속 문자를 문자 분할 전에 인식하기 위해 측면 윤곽을 정의하고, 그 히스토그램을 구해 프로토타입에 있는 단일 문자의 측면 윤곽 히스토그램과 비교 계산하여 가장 적은 거리차를 가지는 단일 문자를 분할 문자의 일차 후보로 내정하여, 분할 비용을 가지고 접합문자를 분할한다.

  • PDF

한글 문자열 영상의 지형적 특징을 이용한 비선형 문자 분할 및 인식 (Nonlinear Character Segmentation and Recognition Using Topographic Features in Hangul String Images)

  • 이동준;이성환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.201-206
    • /
    • 1994
  • 문서 인식 시스템의 성능을 저하시키는 가장 큰 원인 중의 하나로 문자 분할 오류를 들 수 있는데 보다 우수한 성능의 문서 인식 시스템 개발을 위해서는 정확한 문자 분할 방법이 절실히 요구된다. 기존의 문자 분할에 관한 연구들은 이진 영상을 대상으로 함으로써 접촉되거나 겹치는 문자의 경계 부분에서 문자 분할에 유용한 정보들을 잃어 문자 분할 오류를 초래할 수 있다. 하지만 명도 영상을 분석해 보면 문자의 접촉 부분에서 주로 나타나는 지형적 특징이 있으며, 문자 경계에서 명도값이 변하는 것을 관찰할 수 있는데 이와같은 명도 영상의 정보를 사용하면 보다 효과적으로 문자를 분할할 수 있을 것으로 판단된다. 본 연구에서는 이러한 점에 착안하여 명도 영상으로부터 지형적 특징을 추출하고 다단계 그래프 탐색 방법을 이용하여 명도값을 추적함으로써 비선형 문자 경계를 찾는 새로운 문자 분할 방법을 제안한다. 제안된 방법은 명도 문자열 영상을 입력으로 받아 명도 영상의 투영값과 명도 영상으로부터 추출된 지형적 특성을 이용하여 문자 분할 영역을 결정하고 문자 분할 영역내에서 다단계 그래프 탐색에 의한 비선형 문자 분할 경로를 찾는다. 그리고 문자 인식기와 결항하여 최종 문자 분할 위치를 확정하는 인식 결과를 이용한 문자 분할을 수행함으로써 문자 분할 위치 및 문자 인식 결과를 확정한다. 다양한 문서에 대한 실험 결과 제안된 방법이 이진 정보만을 사용하는 방법보다 접촉 혹은 겹친 문자 분할에 매우 효과적임을 알 수 있었다.

  • PDF

측면 윤곽 패턴을 이용한 접합 문자 분할법 (Character Segmentation Using Side Profile Pattern)

  • 정민철
    • 한국산학기술학회논문지
    • /
    • 제4권3호
    • /
    • pp.248-251
    • /
    • 2003
  • 본 연구에서는 접합 문자를 분할하는 알고리듬을 소개한다. 문자 인식기는 문자를 인식하기 위해 문자 분할을 전처리 단계에 필요로 하는데, 문자 분할은 높은 수행력을 위해 문자 인식 결과를 필요로 한다. 이 딜레마를 해결하기 위해서는 문자 분할과 문자 인식, 이 두 문제를 동시에 해결하는 방법이 필요하다. 이를 위해 본 논문에서는 문자 분할 전에 접합문자 내에 있는 소속 문자를 인식하고 문자를 분할하는 새로운 문자 분할 방법을 제시한다. 본 연구에서 제시한 문자 분할알고리즘은 접합 문자 내에 있는 소속 문자를 문자 분할 전에 인식하기 위해 측면 윤곽을 정의하고, 그 히스토그램을 구해 프로토타입에 있는 단일 문자의 측면 윤곽 히스토그램과 비교 계산하여 가장 적은 거리차를 가지는 단일 문자를 분할 문자의 일차 후보로 내정하여, 분할 비용을 가지고 접합 문자를 분할한다.

  • PDF

자연영상에서 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 검출 (Character String Detection using Character-Edge Map with Adaptive Character Size and Character String Orientation in Natural Images)

  • 박종천;황동국;;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 추계학술발표논문집
    • /
    • pp.262-265
    • /
    • 2007
  • 이미지 데이터베이스 시스템에서 이미지에 포함된 문자정보를 기반으로 검색어를 사용한다면 검색의 정확도 높일 수 있다. 이미지에서 문자정보를 추출을 위한 전단계로서 문자열 영역 검출이 필수적인 과제가 된다. 그러므로 본 논문에서는 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 영역 검출 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지로 레이블 이미지를 얻고, 그 영역의 문자구조 특징을 분석하기 위해서 배열문법으로 문자-에지 맵에 적응적으로 분석한다. 문자-에지 맵의 분석결과로서 문자열 후보 영역을 얻고, 문자열 영역의 구조적인 특징을 이용하여 문자열 후보 영역을 검증함으로서 최종적인 문자열 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 자연영상에서 기울어진 문자열과 다양한 크기의 문자를 갖는 문자열 영역을 효과적으로 검출하였다.

  • PDF

문자 및 문자열의 에지 특징을 이용한 표시판 이미지에서 문자영역 검출 (Character Region Detection using Edge Features of Character and Character String in Signboard Image)

  • 박종천;황동국;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 춘계학술발표논문집
    • /
    • pp.212-214
    • /
    • 2008
  • 자연이미지에 포함된 안내 표시판은 많은 유용한 정보를 포함하고 있으므로 이를 효과적으로 검출하여 문자인식시스템과 연동될 수 있다면 다양한 응용분야에서 활용될 수 있다. 그러므로 본 논문에서는 문자 및 문자열의 에지 특징을 이용하여 표시판이미지로부터 문자영역을 검출하는 방법을 제안한다. 캐니-에지 검출기로 에지를 검출하여 에지 이미지를 생성한다. 에지 이미지를 레이블링을 하여 연결요소 성분을 추출한다. 레이블 영역에서 문자와 문자열 에지 특징을 분석하여 후보 문자영역으로 추출한다. 후보 문자영역에 대한 검증을 수행함으로서 최종적인 문자영역을 검출한다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험하였고, 자연이미지에서 기울어진 문자영역과 다양한 크기의 문자를 갖는 문자영역을 효과적으로 검출하였다.

  • PDF

영문 명함 영상에서의 문자 영역 추출에 관한 연구 (A Study on Character Area Extraction of An English Calling Card Image)

  • 이지훈;류재욱;이준행;신철수;김광백
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.750-753
    • /
    • 2003
  • 본 논문에서는 명함 영상에서 문자 영역을 추출하기 위해서 전처리 과정을 수행하여 잡영을 제거한다. 잡영이 제거된 명함 영상을 3배로 축소하여 가로 스미어링을 적용하여 문자열의 후보 영역을 추출하고 문자열과 비문자열의 영역으로 분리한 후, 문자열 영역에 세로 스미어링을 적용한다. 추출된 문자열 영역과 세로 스미어링된 문자열 영역에 대해 OR연산을 수행하여 문자의 특징이 분리되는 것을 제거하고 윤곽선 따라가기 알고리즘을 적용하여 문자의 영역을 추출한다 제안된 방법을 실제 영문 명함의 개별 문자 추출에 적용한 결과, 기존의 영문 명함 추출 방법보다 개선되었다.

  • PDF

문자 인식에서 분할 비용에 따른 문자 분할 연구 (Character Segmentation with Segmentation Cost in Optical Character Recognition)

  • 정민철
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.179-181
    • /
    • 2004
  • 인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

  • PDF

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

복잡한 컬러 문서에 대한 문자인식 (A Character Recognition on Complex Color Documents)

  • 양철용;김갑기;김진욱;김항준
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.233-236
    • /
    • 2000
  • 최근 수많은 인쇄된 문서들이 HTML과 같은 디지털 문서로 바뀌고 있으며 이를 자동으로 변환해 주는 문자인식 기술에 대한 관심이 증가하고 있다. 본 논문에서는 그림과 글자가 공존하는 문서에서 자동으로 문자영역을 추출해서 문자를 인식하는 방법을 제안한다. 우선 입력문서는 유사한 칼라로 이루어진 영역들로 나누어진 뒤 휴리스틱 룰에 의해 문자후보 영역과 비 문자 영역으로 나누어진다. 그 다음 이들 문자후보영역들은 문자인식기를 이용하여 문자 혹은 문자의 일부분으로 인식된다. 제안된 방법으로 여러 문서들에 대하여 실험한 결과를 보이며 그 성능을 평가한다.

  • PDF

패딩 문자열 길이 정보를 이용한 패딩 알고리즘 설계 (Design of a Padding Algorithm Using the Pad Character Length)

  • 장승주
    • 한국멀티미디어학회논문지
    • /
    • 제9권10호
    • /
    • pp.1371-1379
    • /
    • 2006
  • 본 논문에서는 여러 문자열 단위로 입력되는 문자열을 하나의 문자열로 구성하기 위하여 문자열 길이 정보를 이용한 패딩 알고리즘을 제안한다. 기존의 패딩 알고리즘은 단순히 공백 문자를 삽입함으로써 실제 문자열과 패딩 문자를 구분하지 못하는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위하여 본 논문에서는 패딩하는 문자열 길이를 패딩 값으로 구성한다. 이렇게 함으로써 단순히 공백 문자나 '00'을 패딩하는 경우보다 문자열과 패딩 문자를 구분하는 것이 훨씬 용이하고, 정확히 동작된다. 본 논문에서 제안하는 패딩 알고리즘은 데이터 암호화 및 복호화 알고리즘에 사용가능하다.

  • PDF