• 제목/요약/키워드: 한글 검출

검색결과 81건 처리시간 0.033초

투영 프로파일의 간략화 방법을 이용한 인쇄체 한글 문서 영상에서의 문자 분할 (Character Segmentation on Printed Korean Document Images Using a Simplification of Projection Profiles)

  • 박상철;김수형
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.89-96
    • /
    • 2006
  • 본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째는 투영 프로파일 기반 개선된 문자 분할 알고리즘이다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다. 두 번째는 근접한 문자들이 서로 연결된 저 품질 문서 영상에 적합한 분할 알고리즘이다. 이 경우 연결요소를 제거하기 위해 투영 프로파일의 일부를 잘랐는데, 이를 ${\alpha}$-cut이라 한다. 그 후 전자의 방법을 변형하여 문자 분할을 수행한다. 다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 ${\alpha}$-cut을 적용한 알고리즘이 99.57% 의 문자 분할 성공률을 나타내어 저 품질 한글 문서 영상에서 ${\alpha}$-cut을 이용한 문자 분할 알고리즘이 효과적임을 입증하였다.

효율적인 품사부착 오류 검출 및 수정에 관한 연구 (A Study on Effectively Detecting and Correcting POS-Tagged Errors)

  • 최명길;서형원;남유림;권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.132-137
    • /
    • 2012
  • 본 논문에서는 세종형태분석 말뭉치에 포함되어 있는 오류를 효율적으로 수정하기 위하여 오류 수정도구를 개발하였다. 세종형태분석 말뭉치에서 오류를 검출하기 위하여 형태소 생성과 자동 띄어쓰기 방법을 이용하였다. 검출된 오류를 수정하기 위하여 철자 오류 수정, 형태소 삭제 수정, 형태소 삽입 수정, 어절 재분석 방법을 사용하였다. 또한 최대한 반복적인 작업은 수행하지 않도록 설계하였다. 구현된 오류 수정 도구를 통하여 세종형태분석 말뭉치를 수정하였을 경우 텍스트 파일 형태의 말뭉치에서 오류를 수정하는 것보다 최소 9배 이상 빠른 작업이 가능하였으며, 사용자가 오류 수정 작업을 진행할수록 수정 속도가 빨라짐을 실험을 통해서 알 수 있었다.

  • PDF

형태소 분석을 이용한 문자인식 에러의 검출 (A Method of Detecting of OCR error using Morphological Analysis)

  • 김윤호;이종국;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.545-553
    • /
    • 1992
  • 문자인식에 있어서 인식율을 높이기 위한 후처리의 한 방법으로서, 문법 정보를 이용하는 후처리를 제안하고자 한다. 즉, 문자 인식 시스템에 의해 인식된 국어문에 대해서 오인식된 문자를 포함하는 어절을 검출하고, 오인식된 문자의 적절한 후보를 선정하여 그에 따라 자동수정을 행하는 것을 전채 후처리 과정으로 전제한다. 본 논문에서는 형태소 분석을 통해 오인식된 부분을 검출하는 과정을 보임으로써 문자인식에 있어서 문법 정보를 이용하는 후처리의 가능성과 그 유효성을 보이는 것을 목적으로 한다.

  • PDF

어휘의미패턴을 이용한 음성인식 오류 검출 및 수정 (Error detection and correction in speech recognition by using lexico-semantic patterns)

  • 윤용욱;정한민;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-68
    • /
    • 2002
  • 음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.

  • PDF

Hough 변환을 이용한 오프라인 필기 한글 문자열의 기울기 추정 및 교정 (Slant Estimation and Correction for the Off-Line Handwritten Hangul String Using Hough transform)

  • 이성환;이동준
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.243-260
    • /
    • 1993
  • 일반적으로 필기자의 습관이나 필기방향 등의 원인으로 종종 필기 문자열에서 기울어짐이 발생한다.이러한 문자열의 기울어짐은 문자 단위 분할시 분할 알고리즘을 복잡하게 만들고 결과적으로 문자인식 성능에도 큰영향을 미친다. 본연구에서는 선 성분의 검출 및 기울기 측정에 유용한 Hough 변환을 이용하여 단어내 수직획의 기울기를 추정하는 방법을 제안한다. 제안된 방법은 입력 필기 문자열 영상의 윤곽선을 Hough 변환에 적용하여 신 성분을 검출하고 기술어진 가도를 추정한다.실제로는 수직획이 아닌 점들이 모여 선 성분으로 검출된 경우을 제거하기 위해 임계치 이하의 길이를 갖는 선 성분은 기울기 추정 대상에서 제외한다.기울기 교정은 x좌표 값만 변환시키는 밀림 변환을 사용한다.제안된 방법의 성능을 검증하기 위해 실제 우편봉투에서 얻은 주소 영상에 대해 실험한 결과 오프라인 필기 한글 문자열의 기울기 추정 및 교정에 있어서 제안된 방법이 기존의 방법보다 우수함을 알수 있었다.

영상 내 차량의 위치 및 촬영 각도에 강인한 차량 번호판 인식 시스템 (A License Plate Recognition System Robust to Vehicle Location and Viewing Angle)

  • 홍성은;황성수;김성대
    • 전자공학회논문지
    • /
    • 제49권12호
    • /
    • pp.113-123
    • /
    • 2012
  • 최근 지능형 교통 시스템을 다양한 상황 및 환경에 적용하려는 시도가 증가함에 따라, 다수의 지능형 교통 시스템에서 사용되고 있는 차량 번호판 인식 과정이 입력영상 내 차량의 위치 및 촬영 각도와 관계없이 정확하게 이루어질 필요성이 있다. 본 논문에서는 현행 번호판의 규격정보를 활용하여 오검출된 번호판 후보 영역의 제거 및 번호판 내 글자추출을 수행하고, 한글 특성을 고려한 글자인식을 수행하는 차량 번호판 인식 시스템을 제안한다. 제안하는 시스템은 입력영상에서 검출한 번호판 후보 영역들에 대해서 기울기 보정을 수행한 후, 후보 영역 내 글자로 판명되는 객체의 위치 및 형태 정보를 번호판 규격정보와 비교 검증하는 과정을 거쳐 오검출된 번호판 영역을 제거한다. 또한 글자추출 단계에서는 영역 내 밝기 변화를 고려한 이진화를 수행한 뒤, 번호판 규격정보 및 번호판 영역의 종횡비, 배경색, 투영정보 등을 종합적으로 활용하여 번호판 영역 내 글자를 정확하게 추출한다. 그리고 번호판 영역 내 글자들 중 오인식률이 높은 한글의 인식에 있어서, 형태적 유사성으로 그룹을 나눈 뒤, 주요 특징점들을 토대로 계층을 좁혀 나가는 super-class 개념을 적용하여 한글 인식을 수행한다. 성능 검증을 위해 다양한 배경에서 촬영된 영상에 대해서 실험을 수행한 결과 제안하는 번호판 인식 시스템이 영상 내 차량의 위치 및 촬영 각도의 변화에 강인한 것을 확인할 수 있었다.

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

정보표시를 이용한 화일처리와 정보 검색 시스템

  • 박재완;최윤철;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.24-31
    • /
    • 1990
  • 표본자료에 있는 정보표시는 그 표본에 있는 모든 자료의 내용을 상실하지 않도록 하기 위해서 필요하다. 그러한 정보표시는 또한 자료들의 구분을 명확히 하여 자료의 저장과 정보검색 목적으로 사용된다. 본 연구에서는 이러한 텍스트 정보표시의 잘못 쓰여진 오류의 검출과 수정 그리고 이러한 분류표시를 이용하여 방대한 표본자료를 정보표시별로의 화일처리와 필요한 정보에 관한 검색 시스템에 관하여 기술한다.

  • PDF

Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상 (Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm)

  • 이정훈;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

영어 말하기, 쓰기 학습자를 위한 문법 오류 검출 시스템 (Grammar Error Detection System for Learners of Spoken and Written English)

  • 서홍석;이성진;이진식;이종훈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.136-139
    • /
    • 2011
  • 외국어 교육의 필요성이 강조되고 그에 대한 요구가 늘어남에 따라 언어 교육의 기회를 늘리고 비용을 줄이기 위해 컴퓨터 기반의 다양한 기술들의 요구 역시 증가하고 개발되고 있다. 언어 능력 개발의 중요한 요소로서 문법 교육에 대한 컴퓨터 지원 기술 연구가 활발히 진행되고 있다. 본 연구에서는 문법 오류 시뮬레이션을 통해 문법 오류 패턴 데이터베이스를 구축하고 이들 패턴과 사용자 입력의 패턴 매칭으로 생성된 자질 벡터로 기계 학습을 하여 문법성 확인을 했다. 문법성 확인 결과에 따라 오류 종류에 따른 상대 빈도를 고려하여 오류 종류를 분류했다. 또 말하기와 쓰기 작업의 서로 다른 특성을 반영하기 위해 말하기 작업과 쓰기 작업에 대한 두 개의 다른 말뭉치가 학습에 이용 되었다.

  • PDF