• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.027초

PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구 (PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure)

  • 김재훈;박은진
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.63-70
    • /
    • 2006
  • 말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다.

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법 (A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.457-462
    • /
    • 2003
  • 본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.

불안수준 및 일시적 유발정서가 서열정보 어휘처리에 미치는 효과 (An Effect for Sequential Information Processing by the Anxiety Level and Temporary Affect Induction)

  • 김충명
    • 한국산학기술학회논문지
    • /
    • 제20권4호
    • /
    • pp.224-231
    • /
    • 2019
  • 본 연구는 불안 및 정상그룹을 대상으로 서열성을 판단하는 인지과제 수행과정에서, 유발된 배경정서와 내재된 불안 수준이 과제처리에 미치는 영향을 밝히고자 하였다. 어휘 간 관계정보 중 서열판단 과제에서의 피험자 내 변인으로 유발정서 유형(기쁨, 분노, 슬픔 및 통제) 및 인지과제 처리유형(숫자서열 및 크기서열)을, 피험자 간 변인으로는 일반 대학생 중 벡 불안척도 검사를 통해 분리된 불안여부로 설정한 후 반응시간 및 오류율의 차이를 분석하였다. 자극의 제시와 반응의 수집은 DmDx5를 활용하였다. 실험결과, 집단 간 반응의 차이가 확인되었고 불안그룹이 과제유형에 관계없이 모든 정서유발 조건에서 정상그룹에 비해 더 느린 반응시간과 더 높은 오류율을 보였다. 그리고 정서유형에 관계없이 두 서열과제에서도 지체응답 경향을 보였다. 다음으로 정서유발 및 서열과제 효과를 통해 정서 및 과제 특정적인 반응경향을 확인하였는데, 슬픔조건이 타 정서보다 빠른 반응을 보였으며, 숫자서열 조건이 크기서열 조건보다 더 빨랐다. 이는 그룹별 그리고 과제유형별 인지과제 처리경향은 물론, 수반되는 정서유형에 따른 응답경향의 차이를 확인해 줌으로써 정서-인지 관련 행동에서의 기저의 배경정서가 처리과정에 주요 요인이 될 수 있음을 시사하는 결과라 하겠다.

딥 러닝 및 칼만 필터를 이용한 객체 추적 방법 (Object Tracking Method using Deep Learning and Kalman Filter)

  • 김기철;손소희;김민섭;전진우;이인재;차지훈;최해철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.495-505
    • /
    • 2019
  • 딥 러닝의 대표 알고리즘에는 영상 인식에 주로 사용되는 CNN(Convolutional Neural Networks), 음성인식 및 자연어 처리에 주로 사용되는 RNN(Recurrent Neural Networks) 등이 있다. 이 중 CNN은 데이터로부터 자동으로 특징을 학습하는 알고리즘으로 특징 맵을 생성하는 필터까지 학습할 수 있어 영상 인식 분야에서 우수한 성능을 보이면서 주류를 이루게 되었다. 이후, 객체 탐지 분야에서는 CNN의 성능을 향상하고자 R-CNN 등 다양한 알고리즘이 등장하였으며, 최근에는 검출 속도 향상을 위해 YOLO(You Only Look Once), SSD(Single Shot Multi-box Detector) 등의 알고리즘이 제안되고 있다. 하지만 이러한 딥러닝 기반 탐지 네트워크는 정지 영상에서 탐지의 성공 여부를 결정하기 때문에 동영상에서의 안정적인 객체 추적 및 탐지를 위해서는 별도의 추적 기능이 필요하다. 따라서 본 논문에서는 동영상에서의 객체 추적 및 탐지 성능 향상을 위해 딥 러닝 기반 탐지 네트워크에 칼만 필터를 결합한 방법을 제안한다. 탐지 네트워크는 실시간 처리가 가능한 YOLO v2를 이용하였으며, 실험 결과 제안한 방법은 기존 YOLO v2 네트워크에 비교하여 7.7%의 IoU 성능 향상 결과를 보였고 FHD 영상에서 20 fps의 처리 속도를 보였다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

저주파수 순음에 대한 within- 및 cross-channel gap detectin thresholds를 이용한 auditory temporal processing 특성 연구 (Analysis of auditory temporal processing in within- and cross-channel gap detection thresholds for low-frequency pure tones)

  • 구성민;임덕환
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.58-63
    • /
    • 2022
  • 본 연구는 저주파수 순음(264 Hz, 373 Hz, 528 Hz)을 이용하여 Within-/Cross-Channel Gap Detection Thresholds(WC/CC GDTs)를 통해서 피치인식 및 시간적 청각정보처리능력 특성을 알아보기 위해 실험연구를 실시하였다. 정상청력을 갖는 청년층 40명과 장년층 20명을 대상으로 WC/CC GDTs를 측정·비교분석하였다. WC GDTs 결과는 두 그룹 모두 평균적으로 2 ms ~ 4 ms를 갖으며, 통계적으로 유의미한 차이를 보이지 않았다. CC GDTs는 WC GDTs에 비해 두 그룹 모두 크게 증가하였으며, 특히 장년층의 결과가 청년층 결과에 비해 모두 8배 ~ 10배 증가하여 통계적으로 유의미한 차이를 보였다. CC GDTs는 선/후행음의 주파수의 차이가 커질수록 모두 증가하는 경향이 나타났으며, 청년층은 증가폭이 일정한 반면 장년층은 증가폭이 둔화되는 경향을 보였다. 또한, 이러한 자료는 기존 음악적 자극에 대한 GDT와는 다른 경향을 나타내었다. 연구 결과는 GDT가 피치인식 메커니즘에 영향을 미칠 수 있으며 청각 신경계의 비선형 반응에 대한 심리음향적 근거자료로 활용될 수 있을 것이다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

가우시안 입력신호에 대한 Signed Regressor 최소 평균자승 적응 방식의 동작 특성 (On the Behavior of the Signed Regressor Least Mean Squares Adaptation with Gaussian Inputs)

  • 조성호
    • 한국통신학회논문지
    • /
    • 제18권7호
    • /
    • pp.1028-1035
    • /
    • 1993
  • Signed Regressor 적응 알고리즘은 한 비트 양자화를 이용하여 탭 입력이 +1또는 -1이 되도록 양자화한다. 따라서 이미 널리 사용되고 있는 Least Mean Square (LMS) 알고리즘에 비하여 계산량 측면에서 효율적이다. 그러나 SR 알고리즘의 동작특성은 입력신호의 특성에 매우 종속적이며, 효율성을 위하여 성능을 약간 희생한다. 본 논문에서는 이 SR 알고리즘의 동작특성에 대하여 통계적 분석을 하였다. 이를 위해, 사용되는 신호가 평균이 제로인 가우시안 신호라는 가정과 이러한 분석에 이미 널리 통용되어 사용되는 독립가정을 이용하여, SR 알고리즘의 평균 및 평균자승 특성을 나타내는 일련의 비선형 관계식을 유도하였다. 그리고 유도된 이론적 결과가 실험적 결과와 매우 일치함을 보였다.

  • PDF

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

다채널 디지털 보청기에 적용 가능한 Adaptive Feedback Cancellation 알고리즘 구현 (Implementation of Adaptive Feedback Cancellation Algorithm for Multichannel Digital Hearing Aid)

  • 전신혁;지유나;박영철
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권1호
    • /
    • pp.102-110
    • /
    • 2017
  • 본 논문에서는 다채널 디지털 보청기에 적용 가능한 적응 음향 궤환 제거(Adaptive Feedback Cancellation : AFC) 알고리즘을 실시간으로 구현한다. 다채널 디지털 보청기는 일반적으로 난청 보상을 위해 FFT 필터뱅크 기반 광역 동범위압축(Wide Dynamic Range Compression) 알고리즘을 사용한다. 구현한 실시간 음향 궤환 제거 알고리즘은 다채널 디지털 보청기와 동일한 FFT 필터뱅크를 사용하여 WDRC와 함께 하나의 통합된 구조를 가짐으로써 보청기 배터리 수명에 영향을 미치는 연산량 측면에서 이득을 볼 수 있었다. 구현된 음향 궤환 제거 알고리즘은 고정 및 변화하는 음향 궤환 경로를 실시간으로 추정하여 보청기 출력 신호의 품질을 향상시킴을 확인하였다. 또한 비선형적인 입, 출력에 의해 음향 궤환 제거기가 정상적으로 작동하지 못해 출력 신호의 포화가 일어날 경우 감소 이득을 적용하여 시스템의 안정성을 높이고자 하였다. 결과적으로 다양한 실제 사용 환경에서 강건하게 동작하는 알고리즘을 구현할 수 있었다. 본 알고리즘은 추후 음질 개선 알고리즘 등 다양한 기능의 추가 구현이 용이하다.