• 제목/요약/키워드: text recognition

검색결과 670건 처리시간 0.027초

고차 반사계수 특성을 이용한 화자인식의 성능 향상에 관한 연구 (On a Study of the Improvement of Speaker Recognition with Characteristics of High Order Reflection Coefficients)

  • 이윤주;오세영;함명규;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.667-670
    • /
    • 1999
  • As the number of reference patterns increase in the text dependant speaker recognition, the recognition performance of the system degrades. So, if reference patterns were decreased the high recognition rate can be obtained. It’s because the speaker recognition can obtain the high discrimination. In this paper, to decrease the number of reference patterns, we choose candidate reference patterns to perform pattern matching with test pattern by high order component of the reflection coefficients of the uttered speech signal Consequently the total recognition rate of the proposed method is about 2% higher than that of the conventional method.

  • PDF

딥러닝을 통한 문서 내 표 항목 분류 및 인식 방법 (Methods of Classification and Character Recognition for Table Items through Deep Learning)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.651-658
    • /
    • 2021
  • In this paper, we propose methods for character recognition and classification for table items through deep learning. First, table areas are detected in a document image through CNN. After that, table areas are separated by separators such as vertical lines. The text in document is recognized through a neural network combined with CNN and RNN. To correct errors in the character recognition, multiple candidates for the recognized result are provided for a sentence which has low recognition accuracy.

Development of a Work Management System Based on Speech and Speaker Recognition

  • Gaybulayev, Abdulaziz;Yunusov, Jahongir;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제16권3호
    • /
    • pp.89-97
    • /
    • 2021
  • Voice interface can not only make daily life more convenient through artificial intelligence speakers but also improve the working environment of the factory. This paper presents a voice-assisted work management system that supports both speech and speaker recognition. This system is able to provide machine control and authorized worker authentication by voice at the same time. We applied two speech recognition methods, Google's Speech application programming interface (API) service, and DeepSpeech speech-to-text engine. For worker identification, the SincNet architecture for speaker recognition was adopted. We implemented a prototype of the work management system that provides voice control with 26 commands and identifies 100 workers by voice. Worker identification using our model was almost perfect, and the command recognition accuracy was 97.0% in Google API after post- processing and 92.0% in our DeepSpeech model.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

오피니언 마이닝 알고리즘 기반 음성인식 인터뷰 모델의 설계 및 구현 (Design And Implementation of a Speech Recognition Interview Model based-on Opinion Mining Algorithm)

  • 김규호;김희민;이기영;임명재;김정래
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.225-230
    • /
    • 2012
  • 오피니언 마이닝은 기존의 데이터 마이닝 기술을 활용하여 웹 상에 개재된 블로그, 상품평등에 나타난 저자의 의견을 추출하는 분야로써 텍스트의 주제를 판단하는 것이 아닌 주제에 대한 저자의 태도를 판단하는 기술이다. 본 논문에서는 오피니언 마이닝 알고리즘과 공개된 음성인식 API을 사용하여 텍스트가 아닌 음성의 대한 데이터의 감정을 판단하기 위해 제안했다. 이 시스템은 공개된 Google Voice Recognition API와 주제어와 관련된 순위화 알고리즘, 개선된 극성 판단 알고리즘을 통하여 설계하고, 이를 바탕으로 음성인식 인터뷰 모델을 구현한다.

한국어 미등록어 인식을 위한 단계별 접근방법 (Step-by-step Approach for Effective Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.369-372
    • /
    • 2009
  • 최근 웹 문서 뿐만 아니라 신문기사에서도 미드(미국드라마)나 안습(안구에 습기차다)와 같은 신조어를 사용하고 있다. 그러나, 사전에 등록되지 않은 이러한 단어는 한국어 분석기의 성능을 떨어뜨리는 주요인이 된다. 이러한 미등록어를 자동으로 인식하기 위해서, 본 논문에서는 전문분석 기반 미등록 명사 인식 단계, 웹 출현빈도 기반 미등록 용언 인식 단계, 웹 출현빈도 기반 미등록 명사 인식단계로 구성된 단계별 접근방법을 제안한다. 제안하는 방법은 문서에서 여러 번 나타난 미등록어를 정확하게 인식할 수 있도록 전문분석 기반 단계를 포함한다. 한편, 문서에 한번 나타난 미등록어도 광범위하게 인식할 수 있도록 웹 출현 빈도 기반 단계도 포함한다. 그리고, 다양한 한국어 미등록어를 인식하기 위해서 미등록 명사 인식 단계와 미등록 용언 인식 단계를 구분한다. 실험결과 기존 접근방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현율 8.50%를 개선하였다.

  • PDF

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

문자 인식에 의해 구축된 한글 문서 데이터베이스에 대한 정보 검색 (Retrieving Information from Korean OCR Text Database)

  • 이준호;이충식;한선화;김진형
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.833-841
    • /
    • 1999
  • 문자 인식에 의해 구축된 문서들은 키보드 입력에 의해 구축된 문서들에 비하여 다수의 오류를 포함한다. 따라서 이러한 문서들로부터 원하는 정보를 검색하기 위해서는 다수의 오류를 포함하고 있는 문서들에 대한 효과적인 자동 색인 방법이 요구된다. 본 연구에서는 개별 문자 인식률 90% 수준의 문자 인식기에 의해 구축된 한글 문서 데이터베이스로부터 원하는 정보를 효과적으로 검색하기 위한 자동 색인 방법에 대하여 살펴본다. 실험 결과는 문자 인식에 의해 구축된 한글 문서 데이터베이스에 대해서는 형태소 단위 색인법과 2-gram 기반 색인법이 유사한 수준의 검색 효과를 제공함을 보여준다.

  • PDF

Comparative study of text representation and learning for Persian named entity recognition

  • Pour, Mohammad Mahdi Abdollah;Momtazi, Saeedeh
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.794-804
    • /
    • 2022
  • Transformer models have had a great impact on natural language processing (NLP) in recent years by realizing outstanding and efficient contextualized language models. Recent studies have used transformer-based language models for various NLP tasks, including Persian named entity recognition (NER). However, in complex tasks, for example, NER, it is difficult to determine which contextualized embedding will produce the best representation for the tasks. Considering the lack of comparative studies to investigate the use of different contextualized pretrained models with sequence modeling classifiers, we conducted a comparative study about using different classifiers and embedding models. In this paper, we use different transformer-based language models tuned with different classifiers, and we evaluate these models on the Persian NER task. We perform a comparative analysis to assess the impact of text representation and text classification methods on Persian NER performance. We train and evaluate the models on three different Persian NER datasets, that is, MoNa, Peyma, and Arman. Experimental results demonstrate that XLM-R with a linear layer and conditional random field (CRF) layer exhibited the best performance. This model achieved phrase-based F-measures of 70.04, 86.37, and 79.25 and word-based F scores of 78, 84.02, and 89.73 on the MoNa, Peyma, and Arman datasets, respectively. These results represent state-of-the-art performance on the Persian NER task.

비디오 자막 추출 및 인식 기법에 관한 연구 (Study on video character extraction and recognition)

  • 김종렬;김성섭;문영식
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.141-144
    • /
    • 2001
  • In this paper, a new algorithm for extracting and recognizing characters from video, without pre-knowledge such as font, color, size of character, is proposed. To improve the recognition rate for videos with complex background at low resolution, continuous frames with identical text region are automatically detected to compose an average frame. Using boundary pixels of a text region as seeds, we apply region filling to remove background from the character Then color clustering is applied to remove remaining backgrounds according to the verification of region filling process. Features such as white run and zero-one transition from the center, are extracted from unknown characters. These feature are compared with a pre-composed character feature set to recognize the characters.

  • PDF