• Title/Summary/Keyword: 특수문자

Search Result 92, Processing Time 0.036 seconds

Candidate Word List and Probability Score Guided for Korean Scene Text Recognition (후보 단어 리스트와 확률 점수에 기반한 한국어 문자 인식 모델)

  • Lee, Yoonji;Lee, Jong-Min
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.73-75
    • /
    • 2022
  • Scene Text Recognition is a technology used in the field of artificial intelligence that requires manless robot, automatic vehicles and human-computer interaction. Though scene text images are distorted by noise interference, such as illumination, low resolution and blurring. Unlike previous studies that recognized only English, this paper shows a strong recognition accuracy including various characters, English, Korean, special character and numbers. Instead of selecting only one class having the highest probability value, a candidate word can be generated by considering the probability value of the second rank as well, thus a method can be corrected an existing language misrecognition problem.

  • PDF

Biomedical Terminology Recognition using CRF (CRF를 이용한 생물/의학 전문용어 인식)

  • Bae, Young-Jun;Kim, Jae-Hoon;Ock, Cheol-Young;Choi, Yun-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.87-91
    • /
    • 2009
  • 전문용어의 수가 급증하면서 전문용어를 자동으로 인식하는 연구가 활발히 진행되고 있다. 전문용어를 인식하기 위해서 전문용어의 범위를 정한 뒤 그 전문용어의 분야를 선택해야 한다. 본 논문에서는 생물/의학 사전정보와 CRF(Conditional Random Fields) 기계학습 기법을 사용하여 연구를 진행한다. 기계학습을 위한 자질로 품사, 접사, 대소문자, 숫자, 특수문자, 단서어휘 등을 사용한다. 특히 단서어휘와 사전정보를 중요한 요소로 생각하여, 3가지 방법으로 나누어 실험한다. 총 분야의 개수는 7개이며, 각 분야별로 정확률, 재현율, F-measure를 측정한다. 경계인식은 83.92%의 정확률, 96.42%의 재현율, 89.73의 F-measure가 결과로 나타났고, 분야분류는 79.29%의 정확률, 91.06%의 재현율, 84.77%의 F-measure가 결과로 나타났다.

  • PDF

SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques (워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링)

  • Lee, Hyun Young;Kang, Seung Shik
    • Smart Media Journal
    • /
    • v.7 no.4
    • /
    • pp.24-29
    • /
    • 2018
  • Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. Automatic spacing applied in the preprocessing process ensures that words with similar context are adjacently represented in vector space. Additionally, the intentional word formation errors with non-alphabetic or extraordinary characters are designed to avoid being blocked by spam message filter. Two embedding algorithms, CBOW and skip grams, are used to produce the sentence vector and the performance and the accuracy of deep learning based spam filter model are measured by comparing to those of SVM Light.

A Fortified Password Automatic Generator (강화된 암호 자동 생성기)

  • Jung, June-Ho;Kim, Jung-Sook
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2012.05a
    • /
    • pp.387-388
    • /
    • 2012
  • 본 논문에서는 사람들의 키 입력 패턴은 각자 고유한 패턴을 지니고 있다는 점에서 시작한다. 즉, 키스트로크 기반 사용자 인증이라는 방식의 사용자 인증이 존재하고 있다. 다만 키 입력 패턴을 통한 사용자를 인증할 때의 정확도가 문제가 될 것인데, 본 논문에서는 다수의 사람들에게 다수의 단어를 입력하게 하였을 시 각 단어마다 가장 긴 지연을 지니고 있는 구간이 존재한다는 것을 가정으로 하였다. 정확도 향상의 문제를 해결하기 위해서 키 입력시 가장 긴 지연을 가지는 구간에 지연시간별로 특수문자를 추가시켜 줌으로서 단순한 조합의 비밀번호를 좀 더 강력하게 만들 수 있었다.

  • PDF

Text extraction from camera based document image (카메라 기반 문서영상에서의 문자 추출)

  • 박희주;김진호
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.14-20
    • /
    • 2003
  • This paper presents a text extraction method of camera based document image. It is more difficult to recognize camera based document image in comparison with scanner based image because of segmentation problem due to variable lighting condition and versatile fonts. Both document binarization and character extraction are important processes to recognize camera based document image. After converting color image into grey level image, gray level normalization is used to extract character region independent of lighting condition and background image. Local adaptive binarization method is then used to extract character from the background after the removal of noise. In this character extraction step, the information of the horizontal and vertical projection and the connected components is used to extract character line, word region and character region. To evaluate the proposed method, we have experimented with documents mixed Hangul, English, symbols and digits of the ETRI database. An encouraging binarization and character extraction results have been obtained.

  • PDF

Job Scheduling and Pattern Recognition for Auto OSD Verification System (OSD 메뉴 자동검증을 위한 작업스케줄링 및 패턴 인식 기법)

  • Lee Jin-Seok;Kim Ho-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.379-381
    • /
    • 2006
  • 본 연구는 디스플레이 제품의 OSD(On Screen Display) 메뉴의 문자 오류 검사 과정을 자동화하는 방법과 FMM 신경망을 이용한 실시간 문자인식 방법을 제안한다. 이는 일반적인 문자인식 문제와는 달리 시스템 환경에 대한 몇 가지 가정과 제약조건을 고려해야 한다. 예컨대 문제의 특성상 카메라 및 TV제어 기기부의 동작과 연동하는 작업 스케줄링 기능과 실시간 분석기능 등의 요건은 시스템개발을 복잡하게 하는 반면, 주어진 OSD 메뉴 데이터로부터 검증과정은 미지 패턴에 대한 인식과정을 단순화하여 일종의 판정(decision) 문제로 고려될 수 있게 한다. 본 연구에서는 디스플레이 제품의 OSD 메뉴와 같이 특수한 구조를 갖는 문서영상에 대한 논리적인 구조분석을 통해서 연속적인 문서영상을 발생시켜서 검증과정을 자동화하는 작업스케줄링 방법을 제안하고 인식의 방법론으로서 수정된 구조의 FMM신경망을 적용한다. 또한 실제 데이터를 사용한 실험결과를 통해 시스템의 유용성을 고찰한다.

  • PDF

An Automatic OSD Verification Method using Computer Vision Techniques (컴퓨터 비전 기술을 이용한 OSD Menu 자동검증 기법)

  • Lee, Jin-Seok;Kang, Duek-Cheol;Cho, Yun-Seok;Kim, Ho-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2005.11a
    • /
    • pp.275-278
    • /
    • 2005
  • 본 연구는 디스플레이 제품의 개발 및 생산과정에서 OSD 메뉴문자의 오류 유무를 검사하는 과정을 컴퓨터 비전기술을 사용하여 자동화하는 방법을 제안한다. 디스플레이 제품의 OSD 메뉴는 순차적인 제어과정을 통해서 제한된 디스플레이 영역에 여러 종류의 언어와 기호를 포함하는 형태로 출력된다. 기존의 제품개발 과정에서 이러한 메뉴 항목의 정확성을 검증하는 작업은 작업자의 육안에 의한 판단과 수작업에 의해 이루어지고 있는데, 이는 반복작업에 의한 집중력 저하 및 판단착오에 의한 오류의 가능성을 내재한다. 또한 작업자가 다양한 나라의 언어에 대한 문자형태와 기호표현의 특성을 이해하여야 하고, 검증작업 자체에 따르는 부수적인 시간과 노력을 필요로 한다. 이에 본 연구에서는 디스플레이 제품의 OSD 메뉴와 같이 특수한 구조를 갖는 문서영상에 대한 논리적인 구조분석을 통해서 연속적인 문서영상을 발생시키는 작업스케쥴러를 생성하고, 작업스케쥴러에 의해 순차적으로 발생된 영상문서에 대한 전처리, OSD 메뉴의 기하학적 구조분석 및 문자영역을 추출하는 방법과, 표준패턴 구축 및 원형정합에 의한 문자의 오류를 검증하는 방법과 오류를 관리하는 기법을 제안한다.

  • PDF

Word Image Decomposition from Image Regions in Document Images using Statistical Analyses (문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출)

  • Jeong, Chang-Bu;Kim, Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.13B no.6 s.109
    • /
    • pp.591-600
    • /
    • 2006
  • This paper describes the development and implementation of a algorithm to decompose word images from image regions mixed text/graphics in document images using statistical analyses. To decompose word images from image regions, the character components need to be separated from graphic components. For this process, we propose a method to separate them with an analysis of box-plot using a statistics of structural components. An accuracy of this method is not sensitive to the changes of images because the criterion of separation is defined by the statistics of components. And then the character regions are determined by analyzing a local crowdedness of the separated character components. finally, we devide the character regions into text lines and word images using projection profile analysis, gap clustering, special symbol detection, etc. The proposed system could reduce the influence resulted from the changes of images because it uses the criterion based on the statistics of image regions. Also, we made an experiment with the proposed method in document image processing system for keyword spotting and showed the necessity of studying for the proposed method.

A recognition algorithm of Korean verb and noun idiomatic phrases (한국어 동사와 명사 관용구 인식 알고리즘)

  • Lee, Ho Suk
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.170-175
    • /
    • 2009
  • 본 논문은 한국어 관용구 인식 알고리즘에 대하여 논의한다. 다음(daum) 전자 사전에는 관용구의 의미를, "두 개 이상의 단어로 이루어져 있으면서, 그 단어들의 의미만으로는 전체 의미를 알 수 없는, 특수한 의미를 나타내는 어구" 라고 설명되어 있다. 한국어 관용구의 길이는 2글자 ~ 4글자인 경우가 많으며 그 이상인 경우도 있다. 대부분의 관용구는 일반 사전에 동사와 명사를 기준으로 분류되어 있으며, 품사 표시나 구절 표시 없이 어절의 문자열 형태로만 표현되어 나타난다. 본 논문에서는 전자 사전에 품사 표시나 구절 표시 없이 어절 문자열 형태로 저장되어 있는 한국어 관용구를 입력 문장에서 인식하는 관용구 인식 알고리즘에 대하여 논의한다. 그리고 연어 인식과 명사의 의미 속성 처리에 대하여서도 논의한다.

  • PDF

Adaptive $SOG^*$ with Flexible Neurons (유연한 뉴런의 적응적 $SOG^*$)

  • Lee, Chan-Hee;Lee, Sang-Hoon;Jang, Soo-Mi;Jung, Soon-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.511-514
    • /
    • 2002
  • 본 논문은 기존의 신경망을 이용한 세선화 기법 중 빠른 속도와 우수한 세선화 결과를 가지는 $SOG^*$세선화 기법에서 해결하지 못한 특수한 경우를 해결하는 적응적 $SOG^*$ 세선화 기법을 제안한다. 실험 결과로써 숫자와 문자에 대해서 유사한 수행 속도와 향상된 결과를 나타내었다. 따라서 제안된 방법은 숫자 또는 문자 인식에 있어 특징 추출의 빠른 전처리 과정으로 사용할 수 있다.

  • PDF