이 논문은 최근에 개발된 실시간 음성부 검출 알고리즘[1]을 TMS320C30 System board와 IBM PC486을 이용한 implementation에 관한 논문이다. 음성부 검출 알고리즘은 Energy와 LCR(Level Crossing Rate)를 이용하여 각 frame을 음성/묵음으로 분류하는 방법을 사용하였고 DSP 보드를 사용하여 한 frame이 입력되면 다음 frame이 입력되기 전에 그 frame에 대한 음성/묵음 분류를 하여 음성입력이 끝남과 동시에 음성이라고 판단되는 부분만을 DPS moemory상에 저장하므로 불필요한 memory의 낭비를 중이고 다음 단계의 음성처리를 위한 시간을 절약하였다. 이 알고리즘의 성능 평가를 위하여 Rabiner와 Sambur의 알고리즘과 한민수의 알고리즘과를 전문가가 수작업으로 찾아낸 결과와 비교 평가하였다. 알고리즘의 오차는 평균 남성 4.925ms, 여성 5.85ms로 1 frame 이내의 오차를 보였다.
본 논문은 잡음 환경하에서 특징 벡터의 차원 축소를 통한 음성 구간 검출에 관한 연구이다. 음성/비음성 분류는 통계적 모델을 이용한 분류-기반 방법을 사용한다. 검출기에서 실시간 적응화를 위해 우도-기반의 특징 벡터에 대한 차원 축소 방법을 제안한다. 이 방법은 음성/비음성 클래스에 대한 가우시안 확률 밀도 함수에 의한 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성/비음성 결정은 우도비 검증(Likelihood Ratio Test)의 방법을 이용하며, LDA(Linear Discriminant Analys)에 의한 축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법을 통하여 2차원으로 축소된 특징 벡터가 고차원에서의 결과와 대등함을 확인하였다.
사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.
요즘 아날로그 방송에서 디지털 방송시대로 변화함에 따라 디지털 방송기술이 많이 발전되었다. 디지털 방송은 방송국으로부터 만들어지는 영상, 음성, 데이터 스트림들이 MPEG을 통해 효율적으로 압축하고 동기식으로 패킷화되어서 MPEG TS 패킷형식으로 서비스 이용자에게 위성 또는 지상파를 통해 전송되어진다. 방송되어지는 데이터 정보는 물론 그 외의 비관련 데이터도 제공되어짐으로써 서비스 이용범위도 많이 늘어나고 특히 기존의 영상과 음성위주의 방송과는 달리 사업자와 이용자간의 쌍방향으로 데이터를 송수신할 수 있는 기술이 고부가가치 사업으로 대두되고 있다. 디지털 방송을 수신해서 보기 위해서는 튜너로부터 수신되어 디지털화된 MPEG TS 패킷들을 분류해주는 과정이 필요하다. 본 연구에서는 실제 디지털 방송되었던 패킷 파일을 가지고 분류하였다. 영상 스트림과 음성 스트림을 분류하고 데이터 스트림을 분리하였다. 그리고 데이터 방송 규격의 데이터 스트림 파일을 별도로 입력하여 데이터를 분류하였다. 프로그램은 Microsoft visual c++6.0을 사용하여 구현하였다.
본 논문에서는 대화체 음성에 대한 음성 인식의 성능을 향상시키기 위한 방법으로, 고속 발화음에 대해 강인한 음성 인식 방법을 제안하고 성능을 평가하였다. 제안된 기법은 입력된 음성의 속도를 정량화하여 나타내기 위한 부가적인 음성 인식 과정이 필요치 않으며, 특정 대역내의 에너지 분포를 이용하여 모음 구간을 판정하고, 단위 시간당 모음의 개수를 구하여 음성의 속도를 측정하였다. 빠른 발성음에 대한 음성 인식의 성능을 향상시키기 위해, 기존의 방법은 표준 음소 길이와 측정된 음소 길이간의 비율을 이용하여 특징 벡터를 시간축으로 확장하였다. 제안된 방법에서는 발성 속도에 따라 음성을 분류하고, 분류된 음성에 대해 서로 다른 시간축 확장 비율을 정하도록 하였다. 여기서 분류에 필요한 문턱치들과 시간축 확장 비율들은 최대 우도 방법을 이용하여 구하였다. 10자리 이동 전화 번호에 대한 음성 인식의 실험 결과, 제안된 기법에 의해 전체적으로 $17.8\%$ 오류율이 감소되는 것을 확인할 수 있었다.
본 논문에서는 MFCC를 이용한 GMM 기반의 음성과 혼합 신호 분류 알고리즘을 MPEG의 표준 코덱인 USAC에 적용하였다. 효과적인 패턴 인식을 위해 GMM을 이용하였고, EM알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안하는 분류 알고리즘은 두 가지 중요한 부분으로 나뉜다. 첫째는 GMM을 통해 최적의 파라미터를 추출하는 것 이고, 두 번째는 MFCC 값을 이용한 패턴인식을 통해 음성/혼합 신호를 분류하였다. 제안된 알고리즘의 성능을 평가한 결과 MFCC를 이용한 GMM 기반의 제안된 방법이 기존 USAC의 방법보다 우수한 음성/혼합 신호 분류 성능을 보였다.
본 논문에서는 변별적 가중치 학습 (discriminative weight training) 기반의 최적화된 가중치를 가지는 입력벡터를 구성하여 support vector machine (SVM)을 이용한 기존의 3GPP2 selectable mode vocoder (SMV)코덱의 음성/음악 분류 성능을 향상 시키는 방법을 제안한다. 구체적으로, 최소 분류 오차 minimum classification error (MCE) 방법을 도입하여, 최적화된 가중치를 각각의 특징벡터별로 부가한 SVM을 적용하여 기존의 가중치를 고려하지 않은 SVM 기반의 알고리즘과 비교하였으며, 우수한 음성/음악 분류 성능을 보였다.
ICA(Independent Component Analysis)를 이용하여 신호를 분리했을 때 그 중 어느 것이 원하는 신호인지 알아낼 수 있는 일반적인 방법이 없다. 본 논문에서는 자동차 배기음에 오염된 음성 신호를 가정하고 이를 ICA를 이용해 분리했을 때 분리된 신호에서 어느 것이 배기음이고 음성 신호인지 구별할 수 있는 방법을 제시하였다. 음성 신호는 음성 선호와의 상관계수가 가장 크게 나타날 것으로 예상되므로 오염된 음성 선호와 같은 동일인의 단모음 '아', '오', '우' 신호와 타인의 단모음 선호를 이용하여 분리된 각 신호와의 상관계수를 구하되 일괄 방식, 최대값 방식, 평균값 방식 등 세가지 방식으로 구하고 각 방식마다 '아', '오', '우'와의 상관 계수로 구분하고 이외에 투표 방법, 합산 방법을 추가한 다섯 가지 방법을 시도하여 가정 좋은 분류율을 나타내는 방식 및 방법을 제시하였다.
본 논문에서는 사상 의학에서 가장 중요한 사상 체질 분류에 대한 방법론을 제안하고자 한다. 기존에 사상 체질 분류를 위해 사용해 온 방법들은 대개 용모사기와 체형기상에 의한 방법이었다. 또한 QSCC, QSCCII라고 불리우는 설문지를 이용하거나 사람이 말하는 음성을 듣고 판별하는 법등과 최근에는 체질 침이나 약물 반응 등의 방법도 사상 체질 분류를 위해 사용되고 있다. 그러나 이러한 방법들은 대개가 임상의들의 직관에 의지하는 방법들이 대부분으로 이와 같은 임상의들의 직관을 정량화하여 기기로 구현하는 것이 보다 정확하고 유용한 사상 체질 분류 방법이 되리라 사료된다. 이를 위해 본 논문에서는 음성 신호 분석에 의해 사상 체질을 분류하는 방법에 대해 제안하고자 한다. 각 사상 체질별로 음성 특성을 분류하고 이를 통해 피치, 인텐서티, 포먼트 값의 특징을 체질별로 차이점과 유사성을 분류하여 사상 체질 분류를 행하고자 한다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증하고자 한다.
음성정보처리 기술은 사람의 말을 음향, 언어, 심리학 및 공학적인 측면에서 연구하여 사람과 기계사이의 인터페이스를 자연스럽게 하는 것을 목표로 하고 있으며, 음성인식, 음성합성 및 언어처리 기술로 이루어져 있다. 음성인식기술이란 사람의 말을 이해하는 것뿐만 아니라 화자를 식별하고 인증하는 기술도 포함하고 있으며, 음성합성 기술이란 문자로부터 음성을 생성하는 기술을 의미한다. 그리고 언어처리 기술은 음성인식, 음성합성기술 속에 포함될 수 있으나 최근 마크업 언어를 활용하여 음성인식, 합성 등을 제어하는 경향이 도래함에 따라 언어처리 기술을 따로 분류하기도 한다[1][2].(중략)
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.