통합 검색 | Korea Science

다층회귀신경망의 회귀구조에 따른 음성인식성능 비교 (Comparison of the Speech Recognition Performance based upon the Recurrent Structure of the Multilayered Recurrent Neural Network)

어태경
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
- /
- pp.357-360
- /
- 1998
4층구조인 다층퍼셉트론으로부터 입력층을 제외한 각 측의 출력성분을 하위은닉층으로 귀환하는 3모델의 다층회귀신경망을 구성하고, 각 모델별 망의 크기에 따른 음성인식성능을 분석 비교한다. 과거의 입력신호를 출력층에서 예측하여 오차신호를 계산하고, 이 오차신호가 최소화하는 방향으로 연결세기를 조정한다. 실험결과 3회귀모델중 상위은닉층의 회귀연결방식이 가장 양호한 인식율을 나타내었으며, 각 망 공히 상, 히위은닉층의 뉴런수 10, 15개, 예측차수 3, 4차 일 때 인식성능이 양호하였다. 그리고 회귀신경망이 비회귀신경망에 비해 인식율이 크게 향상된다는 것을 확인 할 수 있었다.
PDF

조각문을 고려한 음성 인식 문법 설계 (An Investigation of Grammar Design to Consider Minor Sentence in Speech Recognition)

윤승;김상훈;박준
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2007년도 춘계학술발표대회
- /
- pp.409-410
- /
- 2007
조각문이란 문장 성분을 온전히 갖추지 못한 문장으로 일반적인 문장과 달리 종결 어미로 문장을 끝맺지 못하는 문장을 말한다. 실험실 환경에서와 달리 실제 음성 인식 환경에서는 이러한 조각문이 비교적 빈번히 나타나므로 연속 음성 인식 시스템의 성능 향상을 위해서는 이러한 조각문에 대한 고려가 필수적이다. 본 연구에서는 음성 인식 문법 기술에 있어서 조각문을 반영한 경우와 그렇지 않은 경우의 커버리지를 비교해 봄으로써 조각문에 대한 고려가 음성 인식 성능 향상에 기여할 수 있음을 알아 보았다.
PDF

온톨로지 기반의 인식을 위한 데이터 구조 소개 (The Data Structure for Ontology-Based Recognition Process)

박재우;박종희
- 한국콘텐츠학회:학술대회논문집
- /
- 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
- /
- pp.434-436
- /
- 2010
가상 세계는 현실과 유사하게 디자인된 가상 환경과 인간처럼 행동 하도록 설계된 agent들로 구성되어 있다. 이 agent는 입력된 행동들만 수행하는 기존의 시스템과는 달리, 자신의 감각 기관을 통해 지각된 정보를 자신이 가진 knowledge schema와 비교하여 판단한 후, Agent 스스로 행동하는 것이 특징이다. 이 과정에서 새로운 정보를 저장하기도 하고, 기존의 정보를 수정하기도 하며 때로는 실수를 범하기도 한다. 가상 세계에 존재하는 Agent는 지각, 인식, 판단, 행동의 단계를 끊임없이 반복한다. 이 가운데 '지각'의 주된 목적은 Agent의 인식 성공률을 높이는데 있다. 이것을 위해서는 인식에서 비교 가능한 최적의 데이터 형태로 지각의 데이터들을 전달해야한다. 이 연구에서 지각 단계의 데이터 구조는 어떻게 구성되어야하고 또, 어떤 방식으로 인식 단계에 전달되는지에 대해 소개할 것이다.
PDF

차량내에서의 음성인식에 관한 연구 (A Study on Speech Recognition inside the Car)

박정훈;임형규;김종교
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
- /
- pp.56-60
- /
- 1999
본 논문은, 자동차에서 발생할 수 있는 다양한 형태의 잡음이 섞인 음성을 대상으로, 잡음에 강인한 파라미터들을 사용하여 인식기들을 구축하였으며, 이들 파라미터를 비교 평가하였다. 실험에 사용된 음성 데이터는 차종, 속도, 도로 환경, 라디오 ON/OFF, 창문 개폐여부 등 다양한 잡음 환경에서 수집하였다. 실험에서 비교된 파라미터는 MFCC(Mel-Blrequency Cepstral Coefficient)와 PLP(Perceptually Linear Prediction) 이며, 각각의 파라미터에 대해서 MKM(Modified k-mean)을 이용하여 코드북을 작성하였고, DHMM(Discrete Hidden Markov Model)을 인식알고리즘으로 사용하였다. 실험 결과로서, 아스팔트 도로에서 창문을 닫고, 라디오를 켜지 않은 상태에서 60km/h로 주행시 $96.25\%$로 가장 높은 인식률을 얻었고, 고속도로에서 창문을 열고 100km/h로 주행시에는$60\%$로 가장 낮은 인식률을 얻었다.
PDF

Dynamic Time Warping을 이용한 컨테이너 식별자 인식 성능 향상 (A Performance Enhancement of Container ISO-code Recognition using Dynamic Time Warping)

이상린;구경모;차의영
- 한국정보통신학회:학술대회논문집
- /
- 한국해양정보통신학회 2007년도 추계종합학술대회
- /
- pp.977-980
- /
- 2007
본 논문은 인식된 컨테이너 식별자 문자열과 컨테이너 작업리스트를 비교하여 작업리스트와 인식된 컨테이너 식별자 문자열을 매칭하는 효율적인 방법을 소개하고자 한다. Dynamic Time Warping 기법을 이용하여 오인식되거나 인식이 되지 않은 문자에 대하여 오독률을 최소화할 수 있는 효율적인 방법을 제안한다. 기존의 문자열 비교방식에 비하여 제안하는 방법을 사용하였을 경우 더 나은 성능을 보였다.
PDF

형태론적 구조와 유사도 비교를 이용한 얼굴 인지 (A User Face Recognition Using Morphologic Construction and Similarity Comparison)

류동엽;민병묵;백주호;전진욱;오해석
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
- /
- pp.457-459
- /
- 2002
멀티미디어의 발전이 가속화 되어가고 실생활에서의 적용범위가 넓어 질 수록 사람의 신체에 의한 개인 식별 기술의 필요성이 높아지고 있다. 이미 상용화되어 널리 사용되는 지문인식이나 홍채인식 등의 생체 인식분야 이외에 사람의 얼굴을 이용한 인식이나 인증분야는 다른 생체 인식에 비해 더 많은 필요성과 발전 가능성을 가지고 있다. 본 연구에서는 CCD로 입력된 얼굴 영상을 특징추출이 가능한 개체단위로 분할한 후 각 개체의 비율적인 특징인 거리와 각도를 계산하고 각 개체단위의 유사도 비교를 통해 유사성을 확인함으로써 사람 얼굴을 인지하는 방법을 제안한다. 실험에 의한 분석결과 성능향상에 대한 가능성을 확인할 수 있었다.
PDF

잡음환경의 ASR 성능개선을 위한 음성강조 파라미터 (Using speech enhancement parameter for ASR)

차영동;김영섭;허강인
- 융합신호처리학회 학술대회논문집
- /
- 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
- /
- pp.63-66
- /
- 2006
음성인식시스템은 사람이 별도의 장비 없이 음성만으로 시스템의 사용이 가능한 편리한 장점을 지니고 있으나 여러 가지 기술적인 어려움과 실제 환경의 낮은 인식률로 폭넓게 사용되지 못한 상황이다. 그 중 배경잡음은 음성인식의 인식률을 저하시키는 원인으로 지적 받고 있다. 이러한 잡음환경에 있는 ASR(Automatic Speech Recognition)의 성능 향상을 위해 외측억제 기능 이 추가된 파라미터를 제안한다. ASR 에서 널리 사용되는 파라미터인 MFCC을 본 논문에서 제안한 파라미터와 HMM를 이용하여 인식률을 비교하여 성능을 비교하였다. 실험결과를 통해 제안된 파라미터의 사용을 통해 잡음환경에 있는 ASR의 성능 향상을 확인할 수 있었다.
PDF

인체 골격 정보를 이용한 Multiclass SVM 기반의 자세 인식 분류 기법

강민주;강제원
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2015년도 추계학술대회
- /
- pp.74-76
- /
- 2015
본 논문에서는 효율적인 자세인식을 위해 인체 골격 정보를 활용한 멀티클래스 SVM(Multiclass Support Vector Machine)학습 기반의 자세 인식 분류 기법을 제안한다. RGB 카메라로 취득한 영상을 활용하거나 깊이 카메라로부터 취득한 골격 정보를 그대로 사용하는 기존 연구와 달리 제안 기법에서는 깊이 정보로부터 추출한 인체의 3 차원 골격 정보를 이용하여 고차원의 특징을 추출하고 그로부터 자세 인식 분류를 수행한다. 제안 기법의 특징 벡터는 깊이 정보에서 취득한 골격 정보의 관절간 각도의 조합으로 구성하여 인체의 골격 편차에 강인할 뿐 아니라 특징의 차원을 효과적으로 감소시킬 수 있다. 또한 분류기로는 멀티클래스 SVM 방식 중 one-vs-one 분류 방식을 이용하여 학습 및 판별을 수행함으로써 제안 기술의 성능을 평가한다. 실험을 통해 제안 기법은 다수의 자세에서 비교하는 다른 학습 기법보다 비교적 높은 자세인식률을 보인다.
PDF

문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용 (Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition)

민진우;나승훈
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
- /
- pp.99-101
- /
- 2016
문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능 향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.
PDF

획기반 필기한글 문자분할 (Handwritten Hangul Character Segmentation Based on Stroke Extraction)

김호연;김두식;남윤석
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2001년도 추계학술발표논문집 (상)
- /
- pp.593-596
- /
- 2001
본 논문에서는 획기반 필기한글 문자분할 방법을 제안하고 이를 한글단어인식에 적용하였다. 제안된 방법에서는 획 단위의 문자분할을 시도함으로써 불필요한 분할점을 줄일 수 있었을 뿐 아니라 문자간 획의 접촉이나 겹침을 해결할 수 있었다. 실험에서는 이를 단어인식에 적용하여 비교적 높은 인식률을 얻음으로써 제안된 방법의 가능성을 입증하였다. 실험에서 이용한 문자인식기의 성능이 낮음에도 불구하고 비교적 높은 단어인식률을 얻을 수 있었던 것은 의미 있는 획 단위의 문자분할을 통해 불필요한 분할 가능성을 줄였고, 단어사전을 이용함으로써 사전정보를 충분히 활용할 수 있었기 때문이다.
PDF

검색결과 6,315건 처리시간 0.036초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)