• Title/Summary/Keyword: 자동문자

Search Result 352, Processing Time 0.032 seconds

A Character Recognition on Complex Color Documents (복잡한 컬러 문서에 대한 문자인식)

  • 양철용;김갑기;김진욱;김항준
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.233-236
    • /
    • 2000
  • 최근 수많은 인쇄된 문서들이 HTML과 같은 디지털 문서로 바뀌고 있으며 이를 자동으로 변환해 주는 문자인식 기술에 대한 관심이 증가하고 있다. 본 논문에서는 그림과 글자가 공존하는 문서에서 자동으로 문자영역을 추출해서 문자를 인식하는 방법을 제안한다. 우선 입력문서는 유사한 칼라로 이루어진 영역들로 나누어진 뒤 휴리스틱 룰에 의해 문자후보 영역과 비 문자 영역으로 나누어진다. 그 다음 이들 문자후보영역들은 문자인식기를 이용하여 문자 혹은 문자의 일부분으로 인식된다. 제안된 방법으로 여러 문서들에 대하여 실험한 결과를 보이며 그 성능을 평가한다.

  • PDF

A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering (스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법)

  • Kang, Seung-Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.7
    • /
    • pp.271-276
    • /
    • 2014
  • Short message service(SMS) in a mobile communication environment is a very convenient method. However, it caused a serious side effect of generating spam messages for advertisement. Those who send spam messages distort or deform SMS sentences to avoid the messages being filtered by automatic filtering system. In order to increase the performance of spam filtering system, we need to recover the distorted sentences into normal sentences. This paper proposes a method of normalizing the various types of distorted sentence and extracting keywords through automatic word spacing and compound noun decomposition.

Statistical Approach to the Automatic Korean-English String Conversion (통계적 기법에 의한 한-영 문자열의 자동 전환)

  • Ahn, Young-Hoon;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.205-208
    • /
    • 2001
  • 한글 혹은 영어 문자열을 입력할 때 입력 모드를 수동으로 전환하지 않더라도 입력된 문자열이 한글인지, 영어인지를 자동으로 판단하여 해당 문자열로 변환하는 방법을 제안한다. 한글 문자열일 확률을 계산하기 위해 음절 구성 요건과 음절 빈도 정보를 이용하고, 영어 문자열일 확률을 계산하기 위해 영어 bigram 및 trigram 정보를 이용한다. 또한, 한글과 영어가 혼합된 문자열은 한글일 확률과 영어일 확률이 교차되는 경계 위치를 인식함으로써 혼합 문자열을 생성한다.

  • PDF

Automatic News Caption Segmentation Using Region Growing (영역확장을 이용한 뉴스 비디오 자막 자동 추출)

  • 이상호;손광훈;박철남
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 뉴스 비디오 자막의 구조적 문자 특성을 이용한 자동 자막추출방법을 기술하였다. 기존의 방법들은 경계 추출이나 이진화 과정 후에 화소값의 변화 profile에 나타나는 문자의 굵기, 간격 등의 문자 특징을 이용하는데 반해 본 논문에서 제안한 방식은 뉴스 비디오 자막에서 문자와 배경을 구분하는 테두리선을 배경과 문자를 구분하는 경계로 하여, 적절한 이진화 과정과 영역확장 기법을 이용하여 문자를 추출하였다. 제안한 방법은 문자에 대하 사전지식이 없어도 되며, 사용한 영역확장 기법은 기존의 방법에서의 경계 추출기법보다 간단하면서도 효과적인 문자추출 결과를 나타낸다.

  • PDF

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06a
    • /
    • pp.59-60
    • /
    • 2007
  • 휴대폰과 메신저 등 통신 환경에서 사용되는 표준어가 아닌 SMS의 변형된 어휘 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하였다. 통신 어휘들의 문자열 사전 구축 방법으로 통신어휘집을 기반으로 수동으로 구축하는 방법과 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, 그리고 문맥을 고려하는 방법을 비교-분석하고 실험 및 성능 평가 결과를 제시하였다.

  • PDF

The Verification System of the 3 of 5 Customer Barcode for the advanced automatic processing of the Mail Items (우편물 자동처리 촉진을 위한 3 of 5 고객 바코드 검증 시스템)

  • 박문성;송재관;우동진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.496-498
    • /
    • 1998
  • 현재 우편 처리용 바코드는 광학문자판독기에 의해 판독된 우편번호를 3 of 5 형광 바코드로 인쇄하고, 판독하여 우편물을 자동구분 처리하는 LSM(Letter Sorting Machine)을 사용하고 있다. 광학문자판독에 의한 인쇄체 문자 인식율은 94~96%정도로 처리되므로 오류 우편물의 최소화를 위하여 LSM에 형광 바코드와 동일한 체계로 구성된 흑색 바코드를 적용하고, 광학문자판독을 하지 않고도 우편물을 자동처리할 수 있는 체계를 구축하고 있다. 우편고객이 흑색 바코드를 우편물에 사전에 인쇄하여 접수하도록 하여 공학문자판독에 의한 처리 과정 축소함으로써, 보다 효과적인 우편 배달 서비스를 제공하기 위한 노력을 시도하고 있다. 본 논문에서는 우편 고객이 인쇄한 3 of 5 고객 바코드를 사전에 검사하여 우편물 자동처리를 보다 효과적으로 수행될 수 있도록 하기 위한 방법을 제고하는 고객 바코드 검증 시스템의 설계 및 구현에 대한 것이다.

Design and Implementation Automatic Character Set Encoding Recognition Method for Document File (문서 파일의 문자 인코딩 자동 인식 기법의 설계 및 구현)

  • Seo, Min-Ji;Kim, Myung-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.95-98
    • /
    • 2015
  • 문자 인코딩은 컴퓨터에 저장하거나 네트워크상에서 전송하기 위해 문서를 이진화 하는 방법이다. 문자 인코딩은 고유의 문자 코드 테이블을 이용하여 문서를 이진화 하기 때문에, 문서에 적용된 문자 인코딩과 다른 문자 인코딩을 이용하여 디코딩 하면 원본과 다른 문서가 출력되어 문서를 읽을 수 없게 된다. 따라서 문서를 읽기 위해서는 문서에 적용된 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 단어 데이터베이스를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 제안하는 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 높은 문자 인코딩 인식률을 보인다.

Development of Marking Robot by using Arc Welding for Shipbuilding (조선 적용을 위한 문자마킹 자동용접장치 개발)

  • Park, Chul-Sung;Park, Jin-Whi;Ryu, Young-Soo;Lee, Jeong-Soo
    • Proceedings of the KWS Conference
    • /
    • 2009.11a
    • /
    • pp.3-3
    • /
    • 2009
  • 선박의 건조과정에서 필수적으로 선체 외판에는 선박의 안전과 운항 및 정비 등에 필요한 정보를 나타내기 위해 다양한 종류의 마크 및 문자가 마킹되어진다. 하지만, 단순한 도장 작업만으로는 해상과 같은 부식 환경에서 마크 및 문자가 쉽게 지워지거나 손상되기 때문에 마크 및 문자를 용접 비드(welding bead)로 표시하거나 미리 절단된 강판(steel plate)을 수동으로 용접한 뒤 도장을 함으로써 마크 및 문자의 손상을 방지하고 있다. 이러한 문자마킹작업을 하기 위해서는 작업자가 수작업으로 기준선과 마크 및 문자의 위치를 먹줄 등을 이용하여 마킹을 하고, 해당 마크 및 문자의 템플렛(template)을 이용하여 펀칭을 실시한 후 수동으로 용접을 실시한다. 하지만, 수작업을 통한 선체외판 문자마킹 작업은 작업자의 기량에 따라 품질이 상이하여 품질 저하의 원인이 된다. 또한 대조립 및 탑재 단계에서 문자 마킹 작업시 수직자세의 용접을 요구함으로써 작업자가 안전사고에 노출되어 있으며, 선박의 각 단계별 주요 공정보다 작업시간이 길어져 전체 선박 건조공정을 지연시키는 문제점 등을 야기시킬 수 있다. 이러한 문제점들을 해결하기 위해 조선업계에서는 선체 외판의 마크 및 문자를 자동으로 용접할 수 있는 장치를 개발하기 위해 노력해왔으며, 몇몇 개발 사례가 보고되고 있다. 하지만, 그 실효성 부분에서는 아직까지 해결하지 못한 문제점들로 인해 현장 적용에는 어려움을 보이고 있다. 본 연구에서는 선박외판 문자 자동용접장치의 기능성뿐만 아니라 현업 적용성을 가장 우선적으로 고려하여 문자마킹장치(Marking Robot for Shipbuilding) 개발을 진행하였다. 우선, 적절한 용접 재료를 선정하기 위해서 솔리드 와이어(Solid Wire)와 플럭스 코어드 와이어(Flux Cored Wire)에 대한 비드온 용접(Bead-On Welding)을 아래보기자세와 수직자세에 대해서 실시하여 적절한 용접 조건을 설정하였다. 본 연구에서 개발된 문자마킹 자동용접장치는 3축으로 구성되어 있으며 각 축들을 분리할 수 있도록 개발하여 이동성을 향상시켰으며, 작업면과 용접토치간의 거리를 일정하게 유지시킬 수 있도록 용접전류 센서(Welding Current Sensor)를 이용하여 토치 높이(Wire Extension)를 제어함으로써 균일한 품질의 용접비드를 얻을 수 있었다. 또한 문자마킹 자동용접장치는 본체 구동부와 제어부(Touch Screen)가 쉽게 분리되고 장착이 가능한 구조로 개발되었으며, 용접시 각 용접자세별로 용접전압, 전류 그리고 용접속도 설정이 가능하여 아래보기 자세뿐만 아니라 어떠한 자세에서도 같은 모양의 비드형상을 가지는 문자마킹용접이 가능하도록 개발하였으며, 이는 실험과 현장적용을 통해 검증하였다.

  • PDF

Development of Automatic Nuclear Fuel Rod Character Recognition System Based on Image Processing Technique (영상처리기술을 이용한 핵 연료봉 문자 자동인식시스템 개발)

  • Woong Ki Kim;Yong Bum Lee;Jong Min Lee;Sung IL Chien
    • Nuclear Engineering and Technology
    • /
    • v.25 no.3
    • /
    • pp.424-429
    • /
    • 1993
  • Numeric characters are printed at the end part of nuclear fuel rod containing nuclear pellets. Fuel rods are discriminated and managed systematically by these characters in the process of producing fuel assembly. The characters are also used to examine manufacturing process of fuel rods in the survey of burnup efficiency as well as in inspection of irradiated fuel rod. Therefore automatic character recognition is one of the most important technologies in automatic manufacture of fuel assembly. In this study, character recognition system is developed. In the developed system, mesh feature extracted from each character written in the fuel rod has been compared with reference feature value stored in database, and the character is thus identified. In the result of experiment, 95.83 percent recognition rate is achievable.

  • PDF

A Method for Automatic Detection of Character Encoding of Multi Language Document File (다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법)

  • Seo, Min Ji;Kim, Myung Ho
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.4
    • /
    • pp.170-177
    • /
    • 2016
  • Character encoding is a method for changing a document to a binary document file using the code table for storage in a computer. When people decode a binary document file in a computer to be read, they must know the code table applied to the file at the encoding stage in order to get the original document. Identifying the code table used for encoding the file is thus an essential part of decoding. In this paper, we propose a method for detecting the character code of the given binary document file automatically. The method uses many techniques to increase the detection rate, such as a character code range detection, escape character detection, character code characteristic detection, and commonly used word detection. The commonly used word detection method uses multiple word database, which means this method can achieve a much higher detection rate for multi-language files as compared with other methods. If the proportion of language is 20% less than in the document, the conventional method has about 50% encoding recognition. In the case of the proposed method, regardless of the proportion of language, there is up to 96% encoding recognition.