• 제목/요약/키워드: 화자 분할

검색결과 47건 처리시간 0.027초

영역 분할을 이용한 효율적인 음원 위치 추정 시스템 (Efficient Sound Source Localization System Using Angle Division)

  • 김용은;조수현;정진균
    • 대한전자공학회논문지SP
    • /
    • 제46권2호
    • /
    • pp.114-119
    • /
    • 2009
  • 서비스 로봇에서 사용되는 음원인식 시스템은 사람이 로봇을 향해 말할 때 화자의 위치를 추정한다. 로봇용 음원인식 알고리즘들 중에서 복수개의 마이크로폰에 소리가 도착하는 시간지연 정보를 이용하여 음원을 추정하는 방법이 널리 이용된다. 마이크로폰에 도달하는 지연시간 정보를 구하기 위해서 상관관계 함수가 사용된다. 상관관계 함수에서 최대 값의 위치를 각도로 변환할 때 코사인 역함수가 사용되며 코사인 역함수의 비선형적인 특성 때문에 음원의 위치에 따라 마이크로폰 쌍에서 추정하는 각도의 정확성이 다르게 된다. 본 논문에서는 음원의 위치에 따라 각도를 가장 잘 추정할 수 있는 각도 영역을 구분하여 정확하게 음원의 위치를 인식하는 방법을 제안한다. 또한 제안한 방법을 이용하면 각 마이크 쌍에서 60도 범위에 대해서만 각도를 계산하므로 기존의 180도에 대한 방법에 비하여 연산이 1/2로 줄어든다. 테스트 환경을 구축하여 제안한 영역 분할 위치 추정 알고리즘과 기존 알고리즘의 성능을 비교한 결과 제안한 알고리즘의 기존 알고리즘에 의한 평균오차의 31%에 불과함을 보인다.

호텔예약을 위한 자동통역 시스템 (An Experimental Speech Translation System for Hotel Reservation)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF

입술정보를 이용한 입술모양의 기하학적 보정 (Geometric Correction of Lips Using Lip Information)

  • 황동국;박희정;전병민
    • 한국통신학회논문지
    • /
    • 제29권6C호
    • /
    • pp.834-841
    • /
    • 2004
  • 화자의 입술영상에는 카메라와 화자의 위치나 자세로 인하여 정상적인 입술이 기하학적으로 변환될 수 있다. 이러한 변환은 본래 입술위상의 기하학적 정보를 변경시킨다. 따라서 기하학적으로 변환된 입술모양을 보정하는데 부분적인 입술위상정보를 사용함으로써 전체 입술정보를 개선하고자, 본 논문에서는 입술모양의 기하학적 보정 기법을 제안한다. 제안한 기법은 특징결정 단계와 보정 단계로 구성된다. 특징결정 단계에서는 원영상과 목표영상의 입술모델에 따라 원영상의 특징점과 특징을 추출하고 목표영상의 특징점과 특징을 결정한다. 보정단계에서는 이전 단계에서 추출한 정보를 기반으로 영상을 부분영상으로 분할하고 사상 후 보정된 영상을 통합한다. 실험영상은 6개의 한국어 단모음 발음에 대한 동영상 프레임이고 알고리즘 평가를 위하여 입술의 좌우 대칭성을 활용한다. 실험 결과, 윗입술보다는 아랫입술의 보정률, 입술의 움직임이 작은 발음보다는 움직임이 큰 발음의 보정률이 높게 개선되었다.

Hidden Markov Network를 이용한 음향학적 음소모델 작성에 관한 검토 (A Study on Construction of Acoustical Phoneme Models Using Hidden Markov Network)

  • 오세진;임영춘;황철준;김범국;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.29-32
    • /
    • 2000
  • 본 논문에서는 음성인식 시스템의 음향모델 개선을 위한 기초적 연구로서, 문맥적인 요소를 필요로 하는 SSS(Successive State Splitting)와 필요로 하지 않는 SSS-free 알고리즘을 이용한 HMnet(Hidden Markov Network) 음향모델 작성방법에 대해 검토하고 작성한 음향모델을 한국어에 적용하여 그 유효성을 확인하였다. HMnet을 이용한 음소모델의 작성방법은 전체 학습 데이터에 대해서 각각 2개의 상태를 가지는 초기 모델을 작성한 후, 이를 시간과 문맥방향으로의 최대 분포를 가지는 상태를 재분할한 후 임의의 상태수가 될 때까지 상태분할을 계속적으로 수행케 하여 각 음소모델을 작성하게 된다. 작성한 HMnet 음향모델의 유효성을 확인하기 위해 ETRI 445 단어의 3인에 대한 화자종속 음소인식 실험을 수행하였다. 인식실험 결과, SSS 알고리즘을 이용한 화자종속실험의 경우 상태수 520에서 평균 $62.8\%$의 인식률을, SSS-free 알고리즘의 경우 상태수 420에서 평균 $64.2\%$의 인식률을 얻었다. 이 결과는 HMM을 이용한 경우(약$43.4\%$)보다 $20\%$이상의 인식률 향상을 보여 이 알고리즘의 유효성을 확인할 수 있었다. SSS와 SSS-free를 비교한 경우, SSS-free가 SSS보다 낮은 상태수에서 평균 $1.4\% 향상된 인식률을 보였다.

  • PDF

소비생활 이야기에 반영된 소비자의 사회문화적 경험 분석: Narrative 분석의 실험적 적용 (An Analysis of Consumers' Socio-Cultural Experiences Expressed in Consumption Stories : An Experimental Application of a Narrative Analysis)

  • 김기옥
    • 대한가정학회지
    • /
    • 제37권5호
    • /
    • pp.61-84
    • /
    • 1999
  • 지식의 근원과 내용에 관한 인식론적${\cdot}$철학적 연속선의 양극에 위치하는 물질결정주의와 정신결정주의의 사이에 물질과 정신의 상대적 수용정도에 따라 존재하는 다양한 철학적 입장 중에서 소비자학과 가정학을 포함하여 대부분의 20세기의 학문세계에서는 물질결정중의에 속하는 경험주의와 실증주의가 지배적이었다. 그러나 사회가 후기산업시대로 들어가고, 문화가 포스트모던시대로 진입함에 따라 물질결정주의에 입각한 과학적 지식만으로는 인간행동에 조직원리를 이해하는 데에 한계가 있음이 지적되면서 사회경제구조주의에 의한 민속학적 연구방법이나 이해주의에 의한 화술학, 해석학, 기호학, 구조적비평주의 등 다양한 철학적 입장이 등장하였다. 본 연구는 경험주의와 실증주의에 입각한 연구로 일관해오면서 과학의 수행성 안에서 벗어나지 못하던 연구자 스스로의 한계로부터 비롯된 갈등에서 출발되었다. 특히 소비자행동을 사회${\cdot}$문화적 현상으로 파악해야 하는 문화적 경험을 통해 관점의 전환에 대한 강한 문제인식을 갖게 된 시점에 기존의 질적 연구방법보다도 더욱 일정한 형식과 틀을 벗어나는 narrative분석을 접하면서 소비자의 생생한 생활이야기에 숨어있는 관습적 지식을 탐구할 수 있는 새로운 시도를 하게 되었다. Narrative분석이란 이해주의에 속하는 연구방법으로서 사회경제구조주의에 속하는 기존의 질적 연구방법과는 다른 철학적 관점에서 출발한다. 사회경제구조주의는 인간세계가 사회적으로 형성되고 누구나 공감하는 타당한 지식체계로 구성된다는 가정아래 우리를 둘러싸고 있는 사회와 공감하는 사실들로부터 추출한 하나의 공통된 지식구조를 가지고 연구자료를 체계적으로 해석한다. 이해주의는 사회경제구조주의와 마찬가지로 연구자료를 종합된 사회적 공감대의 결과물로 간주하지만, 사회경제구조주의와 달리 다양한 문화와 그에 따른 다양한 해석을 인정함으로써 하나의 공통된 지식구조가 아니라 다양한 지식구조에 의한 다양한 해석을 시도한다(Hirschman & Holbrook, 1992). 본 연구는 이해주의에 속하는 narrative분석을 시도하기 위해 11명의 화자를 대상으로 가장 최근에 구입한 소비경험을 묻는 최초의 질문을 제외하고는 화자에게 완전한 자유를 주며 소비생활이야기에 관한 인터뷰를 실시하였다. 화자의 집에서 대부분 진행된 인터뷰는 1시간 35분부터 2시간 20분 정도 걸렸고, 인터뷰의 전 과정을 녹음한 테이프를 토씨 하나 빠뜨림 없이 필사본으로 옮겨 구술자료를 마련한 후, Labov(Riessman, 1993, 재인용)의 구조분석을 이용한 Bell(Riessman, 1993, 재인용)의 '연결된 이야기와 그 의미(linked stories and meaning)' 의 narrative분석모델에 적합한 11가지의 narrative plots을 4명의 화자의 구술자료로부터 추출하였다. 본 연구는 11가지의 소비생활이야기로부터 소비자들이 사회${\cdot}$문화적 영향을 받으며 관습적으로 형성되는 욕구를 경험하고 있음을 생생하게 들을 수 있었다. 새로운 거주지로의 이주로부터 경험하는 문화적 충격과 상대적 빈곤감은 새로운 사회에서 통용되는 상징물인 유명상표에 대한 선호를 낳고, 적정수준의 혼수에 대한 이상과 혼수관습의 현실간의 부조화는 의례(ritual)에서의 관습적 신념의 강력한 영향력으로 인해 관습을 수용하게 만들며, 가정환경에의한 소비자사회화보다도 소속 집단의 사회${\cdot}$문화적 영향에 의한 소비자사회화의 영향력이 더 크다는 소비경험들은 소비가 사회${\cdot}$문화적 현상임을 잘 나타내고 있다. 이러한 결과로부터 본 연구가 내릴 수 있는 결론은 소비현상이 개인적인 영향 변수보다는 사회${\cdot}$문화적 영향을 더 받는 다는 점과 이것은 기존의 양적${\cdot}$질적 접근방법보다는 Narrative기법을 이용할 때 더욱 명료해진다는 점이다. 이와 같이 본 연구는 Narrative분석을 통해 개개인이 과거에 실제로 겪은 경험이 그에 대한 사회${\cdot}$문화적 맥락에서의 의미부여와 해석으로 되살아난다는 것을 보여주었다. 이것은 실증주의의 연구결과물이 연구자료에 담겨있는 내용을 통계분석으로 일반화시키고 추상화시켜 무미건조한 결과를 담고 있는 것과는 달리 구체적이고 현실적이며 체험적인 결과물을 제공한다. 그러므로 본 연구는 가정생활을 연구의 대상으로 삼는 가정학과 소비자를 생활자의 관점에서 접근하는 소비자학이 타학문과 차별되는 실천주의의 목표를 달성하기 위해 기존의 물질결정주의적 사고에서 벗어나 보다 정신결정주의적 관점을 수용하여 생활의 체험적 결과물을 구축해나가야 함을 시사한다. 가정학자들이 후기산업시대와 포스트모던시대가 요구하는 관점을 수용하고 그에 적합한 새로운 패러다임을 짜기 위해서는 이러한 소용돌이의 가운데에 자리잡고 있는 가정생활의 생생한 내용과 맥락을 포착해야 한다. 그러므로 새로운 천년을 열며 멈추지 않는 인간환경의 변화와 그에 따른 가정생활의 변화을 이해하기 위해 우리는 지식에 대한 새로운 인식론적${\cdot}$철학적 관점을 수용하고 보다 생활과 밀착된 체험적 연구를 수행할 수 있어야 한다. 본 연구는 이러한 시도의 지극히 작은 시작에 불과하지만, 관점의 전환과 사고의 폭을 넓히는 하나의 계기가 된다면 본 연구의 궁극적 목표는 달성되는 셈이다. 마지막으로 narrative분석의 실험적 적용을 함에 있어서 연구의 전 과정을 생소한 관점과 연구방법으로 선행연구 없이 추진해야하는 연구자의 한계가 본 연구의 가장 큰 제한점이었음을 강조하며, 앞으로 많은 연구자들이 새로운 관점과 연구방법을 시도하는 실험적 분위기를 고조시켜 본 연구의 제한점을 극복하고 우리 나라 고유의 사회${\cdot}$문화적 환경 속에 담겨있는 가정생활의 맥락(context)을 완성해나갈 수 있기를 희망한다.

  • PDF

교육용 비디오의 ToC 자동 생성 방법 (A Method of Generating Table-of-Contents for Educational Video)

  • 이광국;강정원;김재곤;김회율
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.28-41
    • /
    • 2006
  • 양방향 맞춤형 방송의 실현으로 인해 비디오의 내용을 자동으로 분석하여 그 구조를 기술하거나 요약을 생성하는 등의 내용 기반 비디오 분석 기술의 필요성이 요구되고 있다. 본 논문에서는 온라인에서 수요가 높고 특히 맞춤형 방송에 적합한 방송 콘텐츠인 교육용 비디오의 ToC를 자동으로 생성하기 위한 방법을 제안한다. 제안한 ToC 생성 방법은 씬 분할과 씬 서술의 두 단계로 이루어져 있다. 씬 분할 단계에서는 삿 분할을 수행한 후 샷 간의 연결관계 분석을 통해 입력 영상을 씬 단위로 분할하게 된다. 씬 서술 단계에서는 분할된 각 씬이 장면 분류, 자막 검출, 화자 인식 등에 의해 그 내용이 자동으로 서술된다. 제안된 방법을 통해 생성된 ToC는 씬과 샷의 계층 구조를 통해 비디오의 구성을 표현하고, 검출된 여러 특정을 이용해 각 씬과 샷의 내용을 서술함으로써 사용자가 비디오의 내용을 한눈에 알아볼 수 있고 원하는 내용에 손쉽게 접근할 수 있도록 도와줄 수 있다. 또 보다 상세한 ToC가 요구되는 경우에는 유용한 정보들이 포함되어 있는 초기 형태의 ToC로써 이용되어 수작업에 의한 ToC 생성에 필요한 시간을 효과적으로 줄이는 것이 가능하다. 실험을 통해 제안한 방법으로 여러 개의 교육용 비디오에서 ToC를 효과적으로 생성될 수 있음을 확인하였다.

정극인의 <불우헌가>에 나타난 시조성 연구 (A Study on the Bul-woo-heon-ga by Jeong Geuk-in)

  • 김성기
    • 한국시조학회지:시조학논총
    • /
    • 제19권1호
    • /
    • pp.155-177
    • /
    • 2003
  • 정극인(1401∼1481)은 조선조 초기의 문인이다. 정극인은 훈민정음이 반포되기 전에 45년, 그 후에 35년을 살았던 시인이다. 그러므로 정극인은 한자와 국문으로 시문을 남겼다. 정극인은 15세기에 한글로 창작한 국문시가의 개막을 열었던 분 중의 한사람이다. 정극인의 이전에 국문시가로는 <용비어천가>, <월인천강지곡> 등 몇 작품밖에 없기 때문이다. 정극인의 국문시가는 알려진 대로 <불우헌가>, <불우헌곡>, <상춘곡>이 전한다. 정극인은 곧 시조, 경기체가, 가사 등 세 형태의 시형을 수용하여 국문시가를 창작했다. 이 논문에서 연구의 대상은 그의 국문시가인 <불우헌가>이다. <불우헌가>의 형태를 분석하여 사설시조로 장르를 보았다 다만 사설시조의 등장시기가 17세기라는 일반적 견해에 대해서 <불우헌가>의 수용에 대한 이유를 나름대로 밝혔다. 또한 주요한 문제의 하나는 질책을 각오하면서, <불우헌가>의 작가에 대한 반론을 제기했다. <불우헌가>의 작품 내용을 검토하고, 작품 속에 화자가 찬미하는 대상이 정극인임을 밝혔다. 우리의 언어생활에서 서술의 수법 상 자기가 자기를 찬미할 수는 없다. 그러므로 작품에서 정극인이 찬미의 대상이므로 <불우헌가>의 작자는 공의 제자나 벗 아니면 후인이라는 결론이다.

  • PDF

내용기반 비디오 요약을 위한 효율적인 얼굴 객체 검출 (An Efficient Face Region Detection for Content-based Video Summarization)

  • 김종성;이순탁;백중환
    • 한국통신학회논문지
    • /
    • 제30권7C호
    • /
    • pp.675-686
    • /
    • 2005
  • 본 논문에서는 효율적인 얼굴 영역 검출 기법을 제안하고 얼굴 객체 검출을 통해 인물 기반의 비디오 시스템을 제공한다. 비디오 분할을 위해 비디오 시퀀스로부터 장면 전환점을 검출하고 분할된 장면들로부터 대표 프레임을 선정한다. 대표 프레임은 인접 프레임 간 변화량이 가장 적은 프레임으로 선정하였으며 추출된 대표 프레임에 대해서 얼굴 영역 검출 알고리즘을 적용하여 등장인물을 포함하는 프레임들을 정보로 제공한다. 얼굴영역 검출을 위해 피부색의 통계적 특성을 이용한 Bayes 분류기를 이용한다. 피부색 검출 결과 영상으로부터 수직 및 수평 투영 기법을 이용하여 영상 분할을 수행하고 후보군들을 생성한다. 생성된 후보군 중 오검출 영역을 최소화하기 위해서 이진 분류 나무(CART)를 이용하여 분류기를 생성한다. 특징 값으로는 SGLD(spatial gray level dependence) 매트릭스로부터 Inertial, Inverse Difference, Correlation 등의 질감 정보를 이용하여 최적의 이진 분류 나무를 생성한다. 실험 결과 제안된 얼굴 영역 검출 알고리즘은 복잡하고 다양한 배경에서도 우수한 성능을 보였으며, 얼굴 객체를 포함하는 프레임들을 비디오 정보로 제공한다. 제안하는 시스템은 향후 화자 인식 기법을 이용하여 등장인물 기반의 비디오 분석 및 에 활용될 수 있을 것이다.

덱스트란수크라제를 이용한 플루란의 변형 및 특성조사 (Modification of Pullulan Using Dextransucrase and Characterization of the Modified Pullulan.)

  • 이진하;김도만;류화자;허수진;전덕영;한남수
    • 한국미생물·생명공학회지
    • /
    • 제26권3호
    • /
    • pp.264-268
    • /
    • 1998
  • 덱스트란수크라제는 Sucrose를 이용하여 덱스트란의 합성을 촉진하는데 sucrose이외에 다른 탄수화물이 효소 반응기 중에 존재하는 경우에는 Sucrose의 glucose를 이 탄수화물에 전달하는 반응을 촉진하여 새로운 구조의 산물을 생산한다. Leuconostoc mesenteroides B-742CB로 부터 얻은 덱스트란수크라제를 이용하여 플루란을 변형하고 그 조건을 최적화 하고자 했다. 수용성 변형 플루란은 이론적 수율의 57%(<$\pm$5)를 얻었다. 플루란 변형의 최적 조건으로는 pH 5.2, 28$^{\circ}C$ 에서 기질 0.37%(w/v)와 반응한 효소의 농도와 Sucrose농도가 각각 0.1 U/$m\ell$과 48mM일 때였다. 변형 플루란을 pullulanase, endodextranase로 처리하여 변형 전의 플루란과가수분해 상태를 비교 분석한 결과 변형전의 산물에 비해 이들 가수 분해 효소에 대해 더 저항성을 보였다. 변형 플루란을 methylation과 산가수분해 후 TLC한 결과 sucrose의 glucose가 플루란 glucose의 C3, C4, C6 위치의 free-OH group에 수식된 새로운 구조의 변형 플루란임을 확인하였다.

  • PDF

DMS 모델과 퍼지 개념을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using DMS Model and Fuzzy Concept)

  • 안태옥
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.964-969
    • /
    • 2008
  • 본 논문은 화자 독립의 음성인식을 위한 연구로서, DMS(Dynamic Multi-Section) 모델에 의한 DMSVQ(Dynamic Multi-Section Vector Quantization) 코드북과 퍼지 개념을 이용한 HMM(Hidden Markov Model) 음성인식 방법을 제안한다. 제안된 인식 방법에서는 학습 데이터를 동적으로 몇 개의 구간(section)으로 분할한 후, 각 구간마다 DMSVQ 코드북(codebook)으로 부터 거리값이 작은 순으로 퍼지 법칙을 적용함으로써 적당한 확률값을 준 다중 관측열(multi-observation sequences)을 구한다. 그런 다음, 이 다중 관측열을 이용하여 HMM을 작성하고, 인식시에는 관측 확률값이 가장 높은 것을 인식된 것으로 선택한다. 제안된 방법에 의한 인식 실험은 기존의 다양한 인식 실험들과 비교를 위해 동일한 조건하에서 같은 데이터로 수행 하였다. 실험 결과로서, 본 연구에서 제안한 방법이 기존의 방법들보다 우수한 방법임을 입증하였다.