• Title/Summary/Keyword: 자동 인식

Search Result 2,018, Processing Time 0.034 seconds

A Development of Cloud Based Auto Video Enhancement Service (클라우드 기반의 영상 자동 향상 서비스개발)

  • Park, Sang-oh;Choi, Seung-ho;Park, Sang-il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.130-132
    • /
    • 2018
  • 최근 1인 미디어의 확장과 맞물려 개인 차원에서의 영상편집이 활성화되고 있다. 인기 영상강의를 위주로 초보자들도 쉽게 접근할 수 있으나 여전히 많은 사람들이 영상제작을 어려워하고 있다. 특히 밝기, 대비 및 색 보정에서 어려움을 많이 겪는다. 전문적인 영상편집 툴의 경우 자동 보정 기능을 제공하고 있으나 파이널 컷의 경우 Apple 사의 맥 디바이스 환경을 구축해야 하는 문제, Adobe사 프로그램의 경우 완전 자동 기능 부재 및 무거운 연산처리 과정 및 유료화로 인한 접근성 저하, 기타 프로그램들의 경우 설치 접근성이 낮다는 단점이 있었다. 이에 본 연구에서는 클라우드 기반의 쉽고 빠른, 접근성을 높인 자동 영상보정 서비스를 제시하려 한다. 최종 단계의 클라우드 서비스에서는 흔들림 보정, 색 보정, 대비 보정, 명암 보정의 향상 기능과 컷 단위 인식, 신단위 인식, 객체 단위 인식의 서비스를 제공해야 한다는 결론에 도출하였다. 본 논문에서는 연구의 시작으로 클라우드 서비스 구축 및 OpenCV를 활용하여 프레임 별 영상 향상 알고리즘 구현을 시행하였다.

  • PDF

Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification (화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석)

  • Hong, Chunho;Cho, Youngho
    • Journal of Internet Computing and Services
    • /
    • v.22 no.6
    • /
    • pp.33-40
    • /
    • 2021
  • Automatic Speech Recognition(ASR) is a technology that analyzes human speech sound into speech signals and then automatically converts them into character strings that can be understandable by human. Speech recognition technology has evolved from the basic level of recognizing a single word to the advanced level of recognizing sentences consisting of multiple words. In real-time voice conversation, the high recognition rate improves the convenience of natural information delivery and expands the scope of voice-based applications. On the other hand, with the active application of speech recognition technology, concerns about related cyber attacks and threats are also increasing. According to the existing studies, researches on the technology development itself, such as the design of the Automatic Speaker Verification(ASV) technique and improvement of accuracy, are being actively conducted. However, there are not many analysis studies of attacks and threats in depth and variety. In this study, we propose a cyber attack model that bypasses voice authentication by simply manipulating voice frequency and voice speed for AI voice recognition service equipped with automated identification technology and analyze cyber threats by conducting extensive experiments on the automated identification system of commercial smartphones. Through this, we intend to inform the seriousness of the related cyber threats and raise interests in research on effective countermeasures.

Deep learning-based speech recognition for Korean elderly speech data including dementia patients (치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식)

  • Jeonghyeon Mun;Joonseo Kang;Kiwoong Kim;Jongbin Bae;Hyeonjun Lee;Changwon Lim
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.1
    • /
    • pp.33-48
    • /
    • 2023
  • In this paper we consider automatic speech recognition (ASR) for Korean speech data in which elderly persons randomly speak a sequence of words such as animals and vegetables for one minute. Most of the speakers are over 60 years old and some of them are dementia patients. The goal is to compare deep-learning based ASR models for such data and to find models with good performance. ASR is a technology that can recognize spoken words and convert them into written text by computers. Recently, many deep-learning models with good performance have been developed for ASR. Training data for such models are mostly composed of the form of sentences. Furthermore, the speakers in the data should be able to pronounce accurately in most cases. However, in our data, most of the speakers are over the age of 60 and often have incorrect pronunciation. Also, it is Korean speech data in which speakers randomly say series of words, not sentences, for one minute. Therefore, pre-trained models based on typical training data may not be suitable for our data, and hence we train deep-learning based ASR models from scratch using our data. We also apply some data augmentation methods due to small data size.

Automatic Speech Recognition Research at Fujitsu (후지쯔에 있어서의 음성 자동인식의 현상과 장래)

  • Nara, Yasuhiro;Kimura, Shinta;Loken-Kim, K.H.
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.1
    • /
    • pp.82-91
    • /
    • 1991
  • The history of automatic speech recognition research, and current and future speech products at Fujitsu are introduced here. The speech recognition research at Fujitsu started in 1970. Our research efforts have results in the production of a speaker dependent 12,000 word discrete / connected word recognizer(F2360), and a speaker independent 17 word discrete word recognizer(F2355L/S). Currently, we are working on a larger vocabulary speech recognizer, in which an input utterance will be matched with networks representing possible phonemic variations. Its application to text input is also discussed.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • 전남열;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Autometic Eye Image Detection for using Face Shape Recognition (얼굴 형태 인식을 이용한 자동 홍채 인식 시스템)

  • Hur, Yoon;Lee, Yill-Byung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.829-831
    • /
    • 2004
  • 다양한 개인 생체 정보 중에서 비교적 높은 인식률과 사용자 편의성을 제공하는 것은 홍채 인식이다. 그러나, 현재의 홍채 인식은 수동 영상 획득 시스템으로 비접촉식이라는 사용자 편의성을 제대로 제공을 못하는 것이 현실이다. 이것은 정밀한 홍채 영상 획득을 위하여 고해상도의 영상 획득 장비의 필요와 정확한 홍채 위치 수적의 어려움으로 인한 문제이다. 본 연구에서는 24bit 칼라 영상을 이용한 사랑의 얼굴 형태의 인식과 인식된 얼굴 형태에서의 눈 영역 추적 확대를 통한 실시간 자동 홍채 인식 시스템을 제안하였다. 제안된 시스템에서 얼굴의 피부색을 이용한 얼굴 인식 방법이외에 윤곽선 검출 정보를 이용한 기울기 보정과 눈 영역 검출을 실행하여, 이를 이용하여 눈 영역 추적과 확대를 실행을 한다. 그 다음 과정으로 눈 영역 영상에서 동공 중심을 획득하여 그 중심을 이은 선분으로 기준선을 잡아 홍채를 획득하는 과정으로 이루어지게 된다.

  • PDF

인공신경망을 응용한 접속케이블 자동검사시스템

  • 이문규;윤찬균
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1995.04a
    • /
    • pp.273-284
    • /
    • 1995
  • 카메라를 통하여 얻은 영상자료로부터 대상물의 특징을 추출하여 검사에 응용하는 자동검사기법의 수요가 늘고 있다. 본 연구에서는 그러한 자동검사의 실예로서 접속 케이블(wire hardness)의 색깔인식을 이용한 양/불량을 구별하는 시스템을 구축하였다. 색깔인식을 위한 도구로서 입력층, 1개의 은닉층 및 출력층으로 이루어진 2층 구조의 역전파신경망(back-propagation neural network)을 사용하였다. 입력자료로는, 화상에서 케이블의 위치를 파악하고 그 케이블에 속한 화소로부터 필요한 정보(Y, U, V)를 추출한 후, 보다 변별력이 좋은 (L, a, b) 좌표계로 변환하여 사용하였다. 본 검사시스템은 인식속도를 향상시키기 위하여 영상정보를 프레임 버퍼(frame buffer)에서 직접 사용하고 자료의 검사과정을 극소화 하였기 때문에 불량품의 실시간 검출이 가능하다. 불량품 검출의 성능을 평가하기 위하여 실제 표본을 가지고 시스템의 성능을 평가한 결과, 양/불량의 인식율이 100%를 나타내어 약간의 성능보완이 이루어지면 현장에서 바로 활용할 수 있을 것으로 판단된다.

  • PDF

Automatic Recognition and Correction of DNA Band Based on Hough Transform (Hough Transform 기반 DNA밴드 자동 인식 및 보정 방법)

  • Lee, Ha-Kyung;Cho, Dong-Sub;Lee, Seung-Hwan;Cho, Geun-Hee
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2012.05a
    • /
    • pp.226-230
    • /
    • 2012
  • 본 논문에서는 직선 허프변환을 이용하여 DNA밴드 영상의 위치를 자동으로 인식한 다음, 영상의 기울어짐을 검출하고 보정하는 방법을 제안한다. 먼저 입력된 그레이 스케일 DNA밴드 영상을 이진화한 후 직선 허프변환에 의하여 DNA밴드 영상에 포함되어 있는 직선성분을 추출하고, 직선성분들이 직교하는 점을 찾아내어 입력하고자 하는 영상의 위치를 인식한다. 그리고 많은 양의 DNA밴드 영상 데이터를 효과적으로 입력할 수 있도록, 위치인식과정에서 실시한 직선 허프변환에 의해 영상의 기울어짐을 ${\pm}1$도 이내의 정확도로 검출하고, 기울어짐을 자동으로 보정한다.

  • PDF

Traffic Sign Recognition Using Color Information and Neural Networks (색상정보와 신경회로망을 이용한 교통 표지판 검출)

  • Shin, Min-Chul;Na, Sang-Il;Lee, Jung-Ho;Jeong, Jun-Ho;Jeong, Dong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.943-945
    • /
    • 2005
  • 교통 표지판은 안전하고 효율적인 주행을 위해 운전자에게 여러 가지 정보를 제공한다. 따라서 교통 표지판의 자동인식은 자동운전이나 안전운전 시스템 등에 중요하게 사용될 수 있다. 본 논문은 영상에서 나타난 여러 가지 도로시설물 중 교통 표지판을 인식하는 알고리즘을 제안한다. 제안된 알고리즘은 교통 표지판이 가지고 있는 색상, 밝기, 형태 등의 정보를 이용하여 교통 표지판을 자동으로 인식한다. 일반적인 영상처리에서는 RGB 색상 공간의 처리는 간단하지만 날씨나 조명 상태의 변화에 민감하므로 본 논문에서는 색상과 채도에서 컬러 인지력이 높은 HSI 공간을 활용하여 주변 환경의 영향을 줄였다. 또한 고속 인식을 위하여 영상 모멘트 템플릿 정합을 사용하여 신경 회로망을 구성하였다.

  • PDF