• 제목/요약/키워드: 자동문자

검색결과 352건 처리시간 0.031초

복잡한 컬러 문서에 대한 문자인식 (A Character Recognition on Complex Color Documents)

  • 양철용;김갑기;김진욱;김항준
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.233-236
    • /
    • 2000
  • 최근 수많은 인쇄된 문서들이 HTML과 같은 디지털 문서로 바뀌고 있으며 이를 자동으로 변환해 주는 문자인식 기술에 대한 관심이 증가하고 있다. 본 논문에서는 그림과 글자가 공존하는 문서에서 자동으로 문자영역을 추출해서 문자를 인식하는 방법을 제안한다. 우선 입력문서는 유사한 칼라로 이루어진 영역들로 나누어진 뒤 휴리스틱 룰에 의해 문자후보 영역과 비 문자 영역으로 나누어진다. 그 다음 이들 문자후보영역들은 문자인식기를 이용하여 문자 혹은 문자의 일부분으로 인식된다. 제안된 방법으로 여러 문서들에 대하여 실험한 결과를 보이며 그 성능을 평가한다.

  • PDF

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

통계적 기법에 의한 한-영 문자열의 자동 전환 (Statistical Approach to the Automatic Korean-English String Conversion)

  • 안영훈;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-208
    • /
    • 2001
  • 한글 혹은 영어 문자열을 입력할 때 입력 모드를 수동으로 전환하지 않더라도 입력된 문자열이 한글인지, 영어인지를 자동으로 판단하여 해당 문자열로 변환하는 방법을 제안한다. 한글 문자열일 확률을 계산하기 위해 음절 구성 요건과 음절 빈도 정보를 이용하고, 영어 문자열일 확률을 계산하기 위해 영어 bigram 및 trigram 정보를 이용한다. 또한, 한글과 영어가 혼합된 문자열은 한글일 확률과 영어일 확률이 교차되는 경계 위치를 인식함으로써 혼합 문자열을 생성한다.

  • PDF

영역확장을 이용한 뉴스 비디오 자막 자동 추출 (Automatic News Caption Segmentation Using Region Growing)

  • 이상호;손광훈;박철남
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 뉴스 비디오 자막의 구조적 문자 특성을 이용한 자동 자막추출방법을 기술하였다. 기존의 방법들은 경계 추출이나 이진화 과정 후에 화소값의 변화 profile에 나타나는 문자의 굵기, 간격 등의 문자 특징을 이용하는데 반해 본 논문에서 제안한 방식은 뉴스 비디오 자막에서 문자와 배경을 구분하는 테두리선을 배경과 문자를 구분하는 경계로 하여, 적절한 이진화 과정과 영역확장 기법을 이용하여 문자를 추출하였다. 제안한 방법은 문자에 대하 사전지식이 없어도 되며, 사용한 영역확장 기법은 기존의 방법에서의 경계 추출기법보다 간단하면서도 효과적인 문자추출 결과를 나타낸다.

  • PDF

SMS 변형된 문자열의 자동 오류 교정 시스템 (Automatic Error Correction System for Erroneous SMS Strings)

  • 강승식;장두성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (A)
    • /
    • pp.59-60
    • /
    • 2007
  • 휴대폰과 메신저 등 통신 환경에서 사용되는 표준어가 아닌 SMS의 변형된 어휘 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하였다. 통신 어휘들의 문자열 사전 구축 방법으로 통신어휘집을 기반으로 수동으로 구축하는 방법과 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, 그리고 문맥을 고려하는 방법을 비교-분석하고 실험 및 성능 평가 결과를 제시하였다.

  • PDF

우편물 자동처리 촉진을 위한 3 of 5 고객 바코드 검증 시스템 (The Verification System of the 3 of 5 Customer Barcode for the advanced automatic processing of the Mail Items)

  • 박문성;송재관;우동진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.496-498
    • /
    • 1998
  • 현재 우편 처리용 바코드는 광학문자판독기에 의해 판독된 우편번호를 3 of 5 형광 바코드로 인쇄하고, 판독하여 우편물을 자동구분 처리하는 LSM(Letter Sorting Machine)을 사용하고 있다. 광학문자판독에 의한 인쇄체 문자 인식율은 94~96%정도로 처리되므로 오류 우편물의 최소화를 위하여 LSM에 형광 바코드와 동일한 체계로 구성된 흑색 바코드를 적용하고, 광학문자판독을 하지 않고도 우편물을 자동처리할 수 있는 체계를 구축하고 있다. 우편고객이 흑색 바코드를 우편물에 사전에 인쇄하여 접수하도록 하여 공학문자판독에 의한 처리 과정 축소함으로써, 보다 효과적인 우편 배달 서비스를 제공하기 위한 노력을 시도하고 있다. 본 논문에서는 우편 고객이 인쇄한 3 of 5 고객 바코드를 사전에 검사하여 우편물 자동처리를 보다 효과적으로 수행될 수 있도록 하기 위한 방법을 제고하는 고객 바코드 검증 시스템의 설계 및 구현에 대한 것이다.

문서 파일의 문자 인코딩 자동 인식 기법의 설계 및 구현 (Design and Implementation Automatic Character Set Encoding Recognition Method for Document File)

  • 서민지;김명호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.95-98
    • /
    • 2015
  • 문자 인코딩은 컴퓨터에 저장하거나 네트워크상에서 전송하기 위해 문서를 이진화 하는 방법이다. 문자 인코딩은 고유의 문자 코드 테이블을 이용하여 문서를 이진화 하기 때문에, 문서에 적용된 문자 인코딩과 다른 문자 인코딩을 이용하여 디코딩 하면 원본과 다른 문서가 출력되어 문서를 읽을 수 없게 된다. 따라서 문서를 읽기 위해서는 문서에 적용된 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 단어 데이터베이스를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 제안하는 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 높은 문자 인코딩 인식률을 보인다.

조선 적용을 위한 문자마킹 자동용접장치 개발 (Development of Marking Robot by using Arc Welding for Shipbuilding)

  • 박철성;박진휘;유영수;이정수
    • 대한용접접합학회:학술대회논문집
    • /
    • 대한용접접합학회 2009년 추계학술발표대회
    • /
    • pp.3-3
    • /
    • 2009
  • 선박의 건조과정에서 필수적으로 선체 외판에는 선박의 안전과 운항 및 정비 등에 필요한 정보를 나타내기 위해 다양한 종류의 마크 및 문자가 마킹되어진다. 하지만, 단순한 도장 작업만으로는 해상과 같은 부식 환경에서 마크 및 문자가 쉽게 지워지거나 손상되기 때문에 마크 및 문자를 용접 비드(welding bead)로 표시하거나 미리 절단된 강판(steel plate)을 수동으로 용접한 뒤 도장을 함으로써 마크 및 문자의 손상을 방지하고 있다. 이러한 문자마킹작업을 하기 위해서는 작업자가 수작업으로 기준선과 마크 및 문자의 위치를 먹줄 등을 이용하여 마킹을 하고, 해당 마크 및 문자의 템플렛(template)을 이용하여 펀칭을 실시한 후 수동으로 용접을 실시한다. 하지만, 수작업을 통한 선체외판 문자마킹 작업은 작업자의 기량에 따라 품질이 상이하여 품질 저하의 원인이 된다. 또한 대조립 및 탑재 단계에서 문자 마킹 작업시 수직자세의 용접을 요구함으로써 작업자가 안전사고에 노출되어 있으며, 선박의 각 단계별 주요 공정보다 작업시간이 길어져 전체 선박 건조공정을 지연시키는 문제점 등을 야기시킬 수 있다. 이러한 문제점들을 해결하기 위해 조선업계에서는 선체 외판의 마크 및 문자를 자동으로 용접할 수 있는 장치를 개발하기 위해 노력해왔으며, 몇몇 개발 사례가 보고되고 있다. 하지만, 그 실효성 부분에서는 아직까지 해결하지 못한 문제점들로 인해 현장 적용에는 어려움을 보이고 있다. 본 연구에서는 선박외판 문자 자동용접장치의 기능성뿐만 아니라 현업 적용성을 가장 우선적으로 고려하여 문자마킹장치(Marking Robot for Shipbuilding) 개발을 진행하였다. 우선, 적절한 용접 재료를 선정하기 위해서 솔리드 와이어(Solid Wire)와 플럭스 코어드 와이어(Flux Cored Wire)에 대한 비드온 용접(Bead-On Welding)을 아래보기자세와 수직자세에 대해서 실시하여 적절한 용접 조건을 설정하였다. 본 연구에서 개발된 문자마킹 자동용접장치는 3축으로 구성되어 있으며 각 축들을 분리할 수 있도록 개발하여 이동성을 향상시켰으며, 작업면과 용접토치간의 거리를 일정하게 유지시킬 수 있도록 용접전류 센서(Welding Current Sensor)를 이용하여 토치 높이(Wire Extension)를 제어함으로써 균일한 품질의 용접비드를 얻을 수 있었다. 또한 문자마킹 자동용접장치는 본체 구동부와 제어부(Touch Screen)가 쉽게 분리되고 장착이 가능한 구조로 개발되었으며, 용접시 각 용접자세별로 용접전압, 전류 그리고 용접속도 설정이 가능하여 아래보기 자세뿐만 아니라 어떠한 자세에서도 같은 모양의 비드형상을 가지는 문자마킹용접이 가능하도록 개발하였으며, 이는 실험과 현장적용을 통해 검증하였다.

  • PDF

영상처리기술을 이용한 핵 연료봉 문자 자동인식시스템 개발 (Development of Automatic Nuclear Fuel Rod Character Recognition System Based on Image Processing Technique)

  • Woong Ki Kim;Yong Bum Lee;Jong Min Lee;Sung IL Chien
    • Nuclear Engineering and Technology
    • /
    • 제25권3호
    • /
    • pp.424-429
    • /
    • 1993
  • 핵연료 소결체가 장전되는 핵연료봉의 끝부분에는 각각의 핵연료봉을 구분해주는 고유의 문자가 인쇄되어 있다. 핵연료 집합체 제조 과정에서 각각의 핵연료봉은 고유 문자에 의해 구분되어 체계적으로 관리되고 있으며 아울러 핵연료 연소 이상상태 감시 및 사용후 핵연료 검사 분야에서 핵연료봉 제조과정 추적에 이용되고 있다. 핵연료봉 문자 자동인식은 핵연료 집합체 제조과정의 자동화를 위한 핵심 기술이다. 본 연구에서는 핵연료봉 문자인식 시스템을 개발하여, 핵 연료봉단에 기록된 각 문자로 부터 추출한 메쉬 특징값을 데이타베이스에 저장된 특정 문자의 특징값과 비교하여 자동으로 문자인식을 수행하도록 하였다. 실험 결과, 95.83 퍼센트의 양호한 인식률을 기록하였다.

  • PDF

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.