• Title/Summary/Keyword: 끝점 검출

Search Result 74, Processing Time 0.02 seconds

Speech Recognition System for Home Automation Using DSP (DSP를 이용한 홈 오토메이션용 음성인식 시스템의 실시간 구현)

  • Kim I-Jae;Kim Jun-sung;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.171-174
    • /
    • 2000
  • 본 논문에서는 홈 오토메이션 시스템을 음성인식을 도입하여 설계하였다. 많은 계산량과 방대한 양의 데이터의 처리를 요구하는 음성인식을 DSP(Digital Signal Processor)를 통하여 구현해 보고자 본 연구를 수행하였다. 이를 위해 실시간 끝점검출기를 이용하여 추가의 입력장치가 필요하지 않도록 시스템을 구성하였다. 특징벡터로는 LPC로부터 유도한 10차의 cepstrum과 log 스케일 에너지를 이용하였고, 음소수에 따라 상태의 수를 다르게 구성한 DHMM(Discrete Hidden Marcov Model)을 인식기로 사용하였다. 인식단어는 가정 자동화를 위하여 많이 쓰일 수 있는 10개의 단어를 선택하여 화자 독립으로 인식을 수행하였다. 또한 단어가 인식이 되면 인식된 단어에 대해서 현재의 상태를 음성으로 알려주고 이에 대해 자동으로 실행하도록 시스템을 구성하였다.

  • PDF

A study on real-time implementation of speech recognition and speech control system using dSPACE board (dSPACE 보드를 이용한 음성인식 명령처리시스템 실시간 구현에 관한 연구)

  • 김재웅;정원용
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.173-176
    • /
    • 2000
  • 음성은 인간이 가진 가장 편리한 제어전송수단으로 이를 통한 제어는 인간에게 많은 편리함을 제공할 것이다. 본 논문에서는 다층구조 신경망(Multi-Layer Perceptron)을 이용하여 간단한 음성인식 명령처리시스템을 Matlab 상에서 구성해 보았다. 음성인식을 통한 제어의 목적을 위해 화자종속, 고립단어인식기를 목표로 설정하여 연구를 수행하였다. 음성의 시작점과 끝점을 검출하기 위해 단구간 에너지와 영교차율(ZCR)을 이용하였고 인식기의 특징파라미터로는 12차 LPC켑스트럼 계수를 사용하였다. 그리고 신경망의 출력값을 기동, 정지시에 활성화되도록 3개의 계층으로 하였고, 신경망의 뉴런의 개수를 각각 12, 12, 2으로 설정하였다. 먼저 기준음성패턴으로 학습시킨 후에 Matlab 환경하에 동작하는 dSPACE 실시간처리보드에 변환된 C프로그램을 다운로드하고, 음성을 입력하여 인식 후 dSPACE보드의 D/A컨버터의 출력단에 연결된 DC모터를 기동, 정지제어를 수행하였다. 실시간 음성인식 명령처리 시스템 구현을 통하여 원격제어와 같은 음성명령을 통한 제어가 가능함을 확인할 수 있었다.

  • PDF

Detecting and Analyzing Crack Image of Tunnel Construction (터널 구조물의 균열 영상 인식 및 분석)

  • 김영린;정동현;진광원;이강문;송창근
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.263-266
    • /
    • 2004
  • 본 논문에서는 터널 구조물에서 발생하는 균열의 인식과 이에 대한 정보를 획득하기 위한 방법에 대한 연구를 수행하였다. 터널 구조물에서 발생하는 균열의 경우, 건설 분야의 특수성 때문에 기존의 경계점 인식(edge detection) 알고리즘을 적용하는 경우 정밀도 저하의 문제가 발생한다. 이러한 문제점을 해결하고 더불어 정밀도를 향상시킬 수 있는 방법으로 영상에서 균열을 인식하는 균열 인식 단계와 인식된 균열의 길이, 두께 등을 측정하는 균열 정보 획득 단계로 구분하였다. 균열 인식 단계에서는 균열의 시작점과 끝점을 기준으로 휴리스틱(Heuristic) 알고리즘을 사용하여 픽셀 값의 분포에 따라 균열의 중심선을 계산하여 균열을 인식한다. 균열 정보 획득 단계에서는 균열 인식 단계에서 얻은 정보를 통해 균열의 길이, 진행 방향 정보, 그리고 균열의 두께를 계산한다. 균열의 길이 및 진행 방향 정보는 균열 인식 단계에서 얻어진 정보를 통하여 계산하며, 균열 두께 측정은 각 픽셀의 누적 값을 이용하여 계산하는 원형 검출기(Daugman 알고리즘)를 변형하여 사용하였다.

  • PDF

A Study on Isolated Words Speech Recognition in a Running Automobile (주행중인 자동차 환경에서의 고립단어 음성인식 연구)

  • 유봉근
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.381-384
    • /
    • 1998
  • 본 논문은 주행중인 자동차 환경에서 운전자의 안전성 및 편의성의 동시 확보를 위하여, 보조적인 스위치 조작없이 상시 음성의 입, 출력이 가능하도록 한다. 이때 잡음에 강인한 threshold 값을 구하기 위하여, 일정한 시간마다 기준 에너지와 영교차율(Zero Crossing Rate)을 변경하며, 밴드패스 필터(bandpass filter)를 이용하여 1차, 2차로 나누어 실시간 상태에서 자동으로, 정확하게 끝점검출(End Point Detection)을 처리한다. 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)을 사용하며, 화자의 변별력을 높이기 위하여 2개의 모델사용을 제안한다. 또한 주행중인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누며 차량의 가변잡음 크기에 따라 자동으로 선택하도록 한다. 음성의 특징 벡터와 인식 알고리즘은 PLP 13차와 One-Stage Dynamic Programming (OSDP)를 이용한다. 실험결과, 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시속 80Km/h 이상)에서 화자독립 89.75%, 화자종속 90.08%의 인식율을 구하였으며, 경부 고속도로에서는 화자독립 92.29%, 화자종속 92.42%의 인식율을 구하였다. 그리고 저속 주행중인 자동차 환경(80km/h 이내, 시멘트, 아스팔트 등의 서울시내 및 시외독립)에서는 화자독립 92.89%, 화자종속 94.44% 인식율을 구하였다.

  • PDF

Study of Speech Recognition System Using the Java (자바를 이용한 음성인식 시스템에 관한 연구)

  • Choi, Kwang-Kook;Kim, Cheol;Choi, Seung-Ho;Kim, Jin-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.6
    • /
    • pp.41-46
    • /
    • 2000
  • In this paper, we implement the speech recognition system based on the continuous distribution HMM and Browser-embedded model using the Java. That is developed for the speech analysis, processing and recognition on the Web. Client sends server through the socket to the speech informations that extracting of end-point detection, MFCC, energy and delta coefficients using the Java Applet. The sewer consists of the HMM recognizer and trained DB which recognizes the speech and display the recognized text back to the client. Because of speech recognition system using the java is high error rate, the platform is independent of system on the network. But the meaning of implemented system is merged into multi-media parts and shows new information and communication service possibility in the future.

  • PDF

An Implementation of Speech Recognition System for Car's Control (자동차 제어용 음성 인식시스템 구현)

  • 이광석;김현덕
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.5 no.3
    • /
    • pp.451-458
    • /
    • 2001
  • In this paper, we propose speech control system for a various control device in the car with real time control speech. A real time speech control system is detected start-end points from speech data processing by A/D conversion, and recognize by one pass dynamic programming method. The results displays a monitor, and transports control data to control interfaces. The HMM model is modeled by a continuous control speech consists of control speech and digit speech for controlling of a various control device in the car The recognition rates is an average 97.3% in case of word & control speech, and is an average 96.3% in case of digit speech.

  • PDF

The Design of Speech Recognition Chip for a Small Vocabulary as a Word-level (소어휘 단어단위의 음성인식 칩 설계)

  • 안점영;최영식
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.6 no.2
    • /
    • pp.330-338
    • /
    • 2002
  • A speech recognition chip that can recognize a small vocabulary as a word-level has been designed. It is composed of EPD(Start and End-point detection) block, LPC block, DTW block and external memory interface block. It is made of 126,938 gates on 4x4mm2 area with a CMOS 0.35um TLM process. The speed of the chip varies from 5MHz to 60MHz because of its specific hardware designed for the purpose. It can compare 100,000 voices as a small vocabulary which has approximately 50∼60 frames at the clock of 5MHz and also up to 1,200,000 voices at the clock of 60MHz.

The Development of a Speech Recognition Method Robust to Channel Distortions and Noisy Environments for an Audio Response System(ARS) (잡음환경및 채널왜곡에 강인한 ARS용 전화음성인식 방식 연구)

  • Ahn, Jung-Mo;Yim, Kye-Jong;Kay, Young-Chul;Koo, Myoung-Wan
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.2
    • /
    • pp.41-48
    • /
    • 1997
  • This paper proposes the methods for improving the recognition rate of theARS, especially equipped with the speech recognition capability. Telephone speech, which is the input to the ARS, is usually affected by the announcements from the system, channel noise, and channel distortion, thus directly applying the recognition algorithm developed for clean speech to the noisy telephone speech will bring the significant performance degradation. To cope with this problem, this paper proposes three methods: 1)the accurate detection of the inputting instant of the speech in order to immediately turn off the announcements from the system at that instant, 2)the effective end-point detection of the noisy telephone speech on the basis of Teager energy, and 3)the SDCN-based compensation of the channel distortion. Experiments on speaker-independent, noisy telephone speech reveal that the combination of the above three proposed methods provides great improvements on the recognition rate over the conventional method, showing about 77% in contrast to only 23%.

  • PDF

Enhancement of Authentication Performance based on Multimodal Biometrics for Android Platform (안드로이드 환경의 다중생체인식 기술을 응용한 인증 성능 개선 연구)

  • Choi, Sungpil;Jeong, Kanghun;Moon, Hyeonjoon
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.3
    • /
    • pp.302-308
    • /
    • 2013
  • In this research, we have explored personal authentication system through multimodal biometrics for mobile computing environment. We have selected face and speaker recognition for the implementation of multimodal biometrics system. For face recognition part, we detect the face with Modified Census Transform (MCT). Detected face is pre-processed through eye detection module based on k-means algorithm. Then we recognize the face with Principal Component Analysis (PCA) algorithm. For speaker recognition part, we extract features using the end-point of voice and the Mel Frequency Cepstral Coefficient (MFCC). Then we verify the speaker through Dynamic Time Warping (DTW) algorithm. Our proposed multimodal biometrics system shows improved verification rate through combining two different biometrics described above. We implement our proposed system based on Android environment using Galaxy S hoppin. Proposed system presents reduced false acceptance ratio (FAR) of 1.8% which shows improvement from single biometrics system using the face and the voice (presents 4.6% and 6.7% respectively).

Line Segments Extraction by using Chain Code Tracking of Edge Map from Aerial Images (항공영상으로부터 에지 맵의 체인코드 추적에 의한 선소추출)

  • Lee Kyu-won;Woo Dong-min
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.6
    • /
    • pp.709-713
    • /
    • 2005
  • A new algorithm is proposed for the extraction of line segments to construct 3D wire-frame models of building from the high-resolution aerial images. The purpose of this study Is the accurate and effective extraction of line segments, considering the problems such as discordance of lines and blurred edges existing in the conventional methods. Using the edge map extracted from aerial images, chain code tracking of edges was performed. Then, we extract the line segments considering the strength of edges and the direction of them. SUSAN (Smallest Uni-value Segment Assimilating Nucleus) algorithm proposed by Smith was used to extract an edge map. The proposed algorithm consists of 4 steps: removal of the horizontal, vertical and diagonal components of edges to reduce non-candidate point of line segments based on the chain code tracking of the edge map, removal of contiguous points, removal of the same angle points, and the extraction of the start and end points to be line segments. By comparing the proposed algorithm with Boldt algorithm, better results were obtained regarding the extraction of the representative line segments of buildings, having relatively less extraction of unnecessary line segments.