• 제목/요약/키워드: voice problem

검색결과 338건 처리시간 0.025초

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

머신러닝 분류기를 사용한 만성콩팥병 자동 진단 및 중증도 예측 연구 (Automatic detection and severity prediction of chronic kidney disease using machine learning classifiers)

  • 문지현;김선희;김명주;류지원;김세중;정민화
    • 말소리와 음성과학
    • /
    • 제14권4호
    • /
    • pp.45-56
    • /
    • 2022
  • 본 논문은 만성콩팥병 환자의 음성을 사용하여 질병을 자동으로 진단하고 중증도를 예측하는 최적의 방법론을 제안한다. 만성콩팥병 환자는 호흡계 근력의 약화와 성대 부종 등으로 인해 음성이 변화하게 된다. 만성콩팥병 환자의 음성을 음성학적으로 분석한 선행 연구는 존재했으나, 환자의 음성을 분류하는 연구는 진행된 바가 없다. 본 논문에서는 모음연장발화, 유성음 문장 발화, 일반 문장 발화의 발화 목록과, 수제 특징 집합, eGeMAPS, CNN 추출 특징의 특징 집합, SVM, XGBoost의 머신러닝 분류기를 사용하여 만성콩팥병 환자의 음성을 분류하였다. 총 3시간 26분 25초 분량의 1,523개 발화가 실험에 사용되었다. 그 결과, 질병을 자동으로 진단하는 데에는 0.93, 중증도를 예측하는 3분류 문제에서는 0.89, 5분류 문제에서는 0.84의 F1-score가 나타났고, 모든 과제에서 일반 문장 발화, 수제 특징 집합, XGBoost의 조합을 사용했을 때 가장 높은 성능이 나타났다. 이는 만성콩팥병 음성 자동 분류에는 화자의 발화 특성을 모두 반영할 수 있는 일반 문장 발화와 거기로부터 추출한 적절한 특징 집합이 효과적임을 시사한다.

문학텍스트와 문학적 해석 -「스페인 문학사」를 통한 모델 연구 (Literary Text and the Cultural Interpretation - A Study of the Model of 「History of Spanish Literature」)

  • 나송주
    • 비교문화연구
    • /
    • 제26권
    • /
    • pp.465-485
    • /
    • 2012
  • Instructing "History of Spanish Literature" class faces various types of limits and obstacles, just as other foreign language literature history classes do. Majority of students enter the university without having any previous spanish learning experience, which means, for them, even the interpretation of the text itself can be difficult. Moreover, the fact that "History of Spanish Literature" is traced all the way back to the Middle Age, students encounter even more difficulties and find factors that make them feel the class is not interesting. To list several, such factors include the embarrassment felt by the students, antiquated expressions, literature texts filled with deliberately broken grammars, explanations written in pretentious vocabularies, disorderly introduction of many different literary works that ignores the big picture, in which in return, reduces academic interest in students, and finally general lack of interest in literate itself due to the fact that the following generation is used to visual media. Although recognizing such problem that causes the distortion of the value of our lives and literature is a very imminent problem, there has not even been a primary discussion on such matter. Thus, the problem of what to teach in "History of Spanish Literature" class remains unsolved so far. Such problem includes wether to teach the history of authors and literature works, or the chronology of the text, the correlations, and what style of writing to teach first among many, and how to teach to read with criticism, and how to effectively utilize the limited class time to teach. However, unfortunately, there has not been any sorts of discussion among the insructors. I, as well, am not so proud of myself either when I question myself of how little and insufficiently did I contemplate about such problems. Living in the era so called the visual media era or the crisis of humanity studies, now there is a strong need to bring some change in the education of literature history. To suggest a solution to make such necessary change, I recommended to incorporate the visual media, the culture or custom that students are accustomed to, to the class. This solution is not only an attempt to introduce various fields to students, superseding the mere literature reserch area, but also the result that reflects the voice of students who come from a different cultural background and generation. Thus, what not to forget is that the bottom line of adopting a new teaching method is to increase the class participation of students and broaden the horizon of the Spanish literature. However, the ultimate goal of "History of Spanish Literature" class is the contemplation about humanity, not the progress in linguistic ability. Similarly, the ultimate goal of university education is to train students to become a successful member of the society. To achieve such goal, cultural approach to the literature text helps not only Spanish learning but also pragmatic education. Moreover, it helps to go beyond of what a mere functional person does. However, despite such optimistic expectations, foreign literature class has to face limits of eclecticism. As for the solution, as mentioned above, the method of teaching that mainly incorporates cultural text is a approach that fulfills the students with sensibility who live in the visual era. Second, it is a three-dimensional and sensible approach for the visual era, not an annotation that searches for any ambiguous vocabularies or metaphors. Third, it is the method that reduces the burdensome amount of reading. Fourth, it triggers interest in students including philosophical, sociocultural, and political ones. Such experience is expected to stimulate the intellectual curiosity in students and moreover motivates them to continues their study in graduate school, because it itself can be an interesting area of study.

Packet Transport System에 의한 효율적인 IPTV 분배망 구축 방안 (An Efficient IPTV Distribution Network by Packet Transport System)

  • 장진희;박승권;노진영;노태환
    • 방송공학회논문지
    • /
    • 제12권2호
    • /
    • pp.80-92
    • /
    • 2007
  • 방송과 통신의 대표적 융합서비스인 IPTV 서비스는 네트워크 상에서 QoS 보장, 멀티캐스팅 효율성, 높은 대역폭이 요구된다. 전형적인 TDM 중심의 메트로 전송 네트워크는 안정적이고 복구가 가능한 방식으로 고정된 음성 트래픽을 전송할 수 있게끔 설계되었기 때문에 폭주 특성을 지니는 데이타 트래픽을 수용하기에는 병목현상과 대역폭 낭비의 단점이 있다. 그리고 고급 하이엔드 서비스와 Best Effort의 로우엔드 서비스를 분별하지 못하여 전송 네트워크에서는 모든 데이타를 동일하게 취급을 한다. 이러한 폭주 트래픽의 증가와 QoS를 근본적으로 해결하기 위해서는 무엇보다도 새로운 전송 네트워크 설계가 절실히 요구된다. 논문에서는 TDM 중심의 메트로 전송 네트워크를 패킷 중심의 전송 네트워크로 변화 방법을 제시하고 또한 패킷 중심의 전송 네트워크의 장점과 실효성도 함께 제시한다. 그리고 패킷 중심의 전송 네트워크인 Packet Transport System 방법에 관한 기술요소와 특징들에 대해서도 함께 제시한다. 연구결과 패킷 중심의 전송 네트워크인 Packet Transport System은 기존의 TDM 특성을 수용할 뿐 아니라 QoS, 멀티캐스트, 높은 대역폭의 수용으로 효과적인 대역폭 운용과 안정적인 패킷 전송성능을 가지고 있으며, 또한 광 경로 상의 장애 발생 시 트래픽의 생존성 확보를 위한 보호 메커니즘을 고려한 알고리즘을 통해서 각 서비스 클래스별 차등화된 QoS를 보장할 수 있다.

수중통신에서 비선형 왜곡과 전력효율을 위한 DFT-spread OFDM 통신 시스템 (DFT-spread OFDM Communication System for the Power Efficiency and Nonlinear Distortion in Underwater Communication)

  • 이우민;유흥균
    • 한국통신학회논문지
    • /
    • 제35권8A호
    • /
    • pp.777-784
    • /
    • 2010
  • 최근 수중 통신에 대한 관심이 급증하고 있으며, 수중 통신을 통한 음성 및 고해상도 영상 데이터와 같은 다양한 데이터 전송의 요구가 증가하고 있다. 수중 음향 통신 시스템의 성능은 수중 채널의 특성에 의해 크게 영향을 받으며, 특히 수중 채널 환경은 다중경로(Multi-path)에 따른 지연확산(delay spread)으로 인하여 데이터 전송 시 인접 심볼 간의 간섭(Inter Symbol interference: ISI)이 발생하여 통신의 성능을 저하시킨다. 본 논문에서는 지연 확산에 강한 성능을 나타내는 OFDM(Orthogonal Frequency Division Multiplexing) 기법을 수중 통신 시스템에 적용하고, OFDM의 CP(Cyclic Prefix)를 이용하여 수중 채널 환경의 다중경로로 인한 지연 확산을 보상한다. 하지만 수중 통신 시스템에 OFDM을 적용할 때, OFDM 시스템이 갖는 고유한 문제인 높은 PAPR(Peak-to-Average Power Ratio)이 발생한다. 그러므로 본 논문에서는 높은 PAPR로 인한 신호의 비선형 왜곡을 피하고 증폭기의 효율을 위하여 DFT-spread OFDM 기법을 적용한다. DFT-spread OFDM 방식은 IFFT 수행 이전에 DFT(discrete Fourier transform) 확산을 수행하여 각각의 병렬 데이터를 모든 부반송파들에 실어 줌으로써 좋은 PAPR 저감 효과를 얻는다. 그러므로 본 논문에서는 OFDM 시스템을 통해 수중 채널에서 지연 확산에 대한 성능 이득을 보이고, 일반적인 OFDM 시스템보다 DFT-spread OFDM이 수중 통신 환경에서 더 적합한 통신 방식임을 시뮬레이션을 통하여 보였다. 그리고 DFT-spread OFDM의 두 가지 자원 분배 방식(Interleaved, Localized)에 따른 성능을 분석하고 수중 통신 환경에서 자원 분배 방식에 따른 성능의 적응성에 대하여 논의하였다. 시뮬레이션 결과를 통해 CP 삽입을 통한 보상후의 BER 성능은 DFT-spread OFDM 방식이 일반 OFDM에 비하여 $10^{-4}$에서 약 5~6dB 정도 좋은 것을 보였으며, 자원 분배 방식에 따른 BER 성능을 비교하였을 때, Interleaved 방식은 Localized 방식에 비하여 $10^{-4}$에서 약 3.5dB 정도 좋은 것을 보였다.

음성신호의 특성을 고려한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Based on Speech Characteristics)

  • 윤성완;강홍구;윤대희
    • 한국통신학회논문지
    • /
    • 제31권7C호
    • /
    • pp.691-699
    • /
    • 2006
  • VoIP(Voice over Internet Pratocol)와 같은 IP 네트워크망에서는 패킷 지연, 지터, 패킷 손실 등의 이유로 QoS(Quality of Service)를 보장받지 못하기 때문에, 패킷 손실을 은닉하는 방법에 대한 연구는 필수적이다. IP망에서 사용되는 대부분의 저전송률 음성부호화기는 자체적으로 패킷 손실 은닉(PLC: Packet Loss Concealment) 알고리즘을 사용하고 있지만, 예측 기법에 기반한 양자화 특성상 패킷 손실 이후에도 에러가 전파되는 문제가 있다. 또한, 손실된 패킷의 음성신호 특성을 고려하지 않고 과거 파라미터값을 반복시키는 기존 PLC 방법은 그 구현은 쉽지만 천이구간에서의 합성신호의 음질이 심각히 저하된다. 본 논문에서는 패킷 손실 환경에서 랩신호 특성에 따른 에러전파 영향을 정량적으로 분석하고 그 결과를 토대로 보간법 기반의 새로운 PLC 알고리즘을 제안한다. 제안한 알고리즘은 파라미터별로 음성신호의 특성을 고려해 선택적으로 보간법을 적용하고, 예측 필터의 메모리를 효과적으로 갱신한다. 성능평가 결과, 제안한 알고리즘은 VoIP에서 널리 사용되는 G.729 의 기존 PLC 알고리즘에 비해 다양한 FER 환경에서 성능이 향상되었다.

소폭의 잔존 하인두벽을 이용한 첩포형 전완유리 피판 인두 재건술 (Patch Reconstruction with Radial Forearm Free Flap of Hypopharyngeal Cancer Using the Narrow Strip Pharynageal Wall)

  • 정희선;이원재;유대현;나동균;탁관철
    • Archives of Plastic Surgery
    • /
    • 제33권4호
    • /
    • pp.407-412
    • /
    • 2006
  • Purpose: Various attempts of reconstruction for pharyngoesophageal defects after ablative surgery have been made to restore the function of the pharyngoesophagus. A fabricated tubed radial forearm free flap or free jejunal free flap was used when the width of remnant pharyngeal wall was less than 50% of the normal width. However there are many disadvantages such as stricture, saliva leakage and fistula formation on tubed radial forearm free flap. The jejunal free flap has the problem such as short pedicle, poor tolerance of ischemic time, wet voice and delayed transit of swallowed food due to the uncoordinated contraction. The authors studied the utility of patch-type radial forearm free flap using the remnant posterior pharyngeal wall of the hypopharynx. Methods: Retrospective reviews in Severance Hospital were made on 25 patients who underwent reconstruction surgery with patched radial forearm free flap because of the hypopharyngeal cancer between 1996 and 2005. The patients of Group I had the narrow posterior pharyngeal wall and its width was less than 3centimeters after the tumor was resected. Those of Group II had the partial pharyngectomy and the width of the remnant pharynx was larger than 3 centimeters. Results: Seven patients belonged to the group I and the flap of this group had 100% survival rate. One case of fistula and no swallowing discomfort due to stricture was reported. The Group II including 18 patients also had the 100% flap survival rate. Neither fistula nor stricture was seen but the lower diet grade was checked. Conclusion: The patch type radial forearm free flap using the remnant pharyngeal wall have the advantage of the radial forearm free flap, and furthermore this flap is the safe reconstructive method even if the width of the remnant pharyngeal wall is less than 30% of that of normal pharynx.

사람 뇌의 3차원 영상과 가상해부 풀그림 만들기 (Manufacture of 3-Dimensional Image and Virtual Dissection Program of the Human Brain)

  • 정민석;이제만;박승규;김민구
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1998년도 추계학술대회
    • /
    • pp.57-59
    • /
    • 1998
  • For medical students and doctors, knowledge of the three-dimensional (3D) structure of brain is very important in diagnosis and treatment of brain diseases. Two-dimensional (2D) tools (ex: anatomy book) or traditional 3D tools (ex: plastic model) are not sufficient to understand the complex structures of the brain. However, it is not always guaranteed to dissect the brain of cadaver when it is necessary. To overcome this problem, the virtual dissection programs of the brain have been developed. However, most programs include only 2D images that do not permit free dissection and free rotation. Many programs are made of radiographs that are not as realistic as sectioned cadaver because radiographs do not reveal true color and have limited resolution. It is also necessary to make the virtual dissection programs of each race and ethnic group. We attempted to make a virtual dissection program using a 3D image of the brain from a Korean cadaver. The purpose of this study is to present an educational tool for those interested in the anatomy of the brain. The procedures to make this program were as follows. A brain extracted from a 58-years old male Korean cadaver was embedded with gelatin solution, and serially sectioned into 1.4 mm-thickness using a meat slicer. 130 sectioned specimens were inputted to the computer using a scanner ($420\times456$ resolution, true color), and the 2D images were aligned on the alignment program composed using IDL language. Outlines of the brain components (cerebrum, cerebellum, brain stem, lentiform nucleus, caudate nucleus, thalamus, optic nerve, fornix, cerebral artery, and ventricle) were manually drawn from the 2D images on the CorelDRAW program. Multimedia data, including text and voice comments, were inputted to help the user to learn about the brain components. 3D images of the brain were reconstructed through the volume-based rendering of the 2D images. Using the 3D image of the brain as the main feature, virtual dissection program was composed using IDL language. Various dissection functions, such as dissecting 3D image of the brain at free angle to show its plane, presenting multimedia data of brain components, and rotating 3D image of the whole brain or selected brain components at free angle were established. This virtual dissection program is expected to become more advanced, and to be used widely through Internet or CD-title as an educational tool for medical students and doctors.

  • PDF

다문화가정 부부의 의사소통 및 관계 증진 프로그램 개발 (A Development of Communication and Relationship Enrichment Program for Multicultural Couples)

  • 김금희;민기연;이영선
    • 한국콘텐츠학회논문지
    • /
    • 제15권11호
    • /
    • pp.202-214
    • /
    • 2015
  • 본 연구는 다문화가정 부부의 특별한 개별적 요구에 기반을 둔 부부 의사소통 및 관계증진 프로그램을 개발하고 적용 효과를 살피는 데 그 목적을 두었다. 본 프로그램은 기존 프로그램 및 선행연구 검토와 참여자의 요구조사, 전문가 면담의 과정을 통해 개발되었고, 4쌍의 다문화가정 부부에게 11주간(주 1회, 회당 120분) 부부 대화기법, 부부 상담을 활용한 부부의사소통 중재 프로그램으로 적용되었다. 프로그램이 실행되는 동안 수집된 녹음파일, 활동지, 연구자의 현장노트 등의 질적자료를 통해 살펴본 프로그램의 효과는 다음과 같다. (1) 다문화가정 부부의 친밀성이 향상되었고, (2) 부부간의 대화가 증가되었으며, (3) 특히 부부간의 의사소통 방식은 "역기능적 의사소통"에서 "협력적인 의사소통"으로 변화되었다. 결론적으로 이러한 변화가 부부관계 증진에 긍정적인 영향을 미치는 것으로 나타났다. 본 연구에서 개발한 부부 의사소통 프로그램은 다문화가정 부부대화의 물꼬를 열었다는 점과 부부갈등을 해결하고 관리하기 위해 의사소통 전략과 전문적인 상담지원을 하였다는 점에서 의의를 가진다.

All IP 네트워크에서 실시간 멀티미디어 서비스 데이터를 위한 헤더 압축 기술 (The Header Compression Scheme for Real-Time Multimedia Service Data in All IP Network)

  • 최상호;호광춘;김영권
    • 전기전자학회논문지
    • /
    • 제5권1호
    • /
    • pp.8-15
    • /
    • 2001
  • 본 논문은 3GPP2 All IP Ad Hoc 회의에서 언급된 IP/UDP/RTP 헤더 압축을 위한 IETF의 요구사항에 대해 언급하고, 3GPP2 3G cdma2000에 기반을 두고 있는 VoIP 멀티미디어 서비스와 같은 실시간 응용을 위한 차세대 이동통신 단말기의 프로토콜 스택을 연구하였다. All IP 네트워크 단말기의 다양한 프로토콜에 대한 프레임은 IETF ROHC Working Group의 draft에 기반을 둔 헤더 형태의 비트별 설명을 포함하여 그림으로 설명하였다. 특히, 본 논문은 실시간 패킷 데이터를 수용하기 위해 All IP 단말기의 Medium Access Layer 계층에서 변형될 헤더 압축관련 IS-707 RLP 프로토콜의 문제점을 포함하고 있다. PPP프로토콜은 현재 이슈가 되고 있는 Mobile IP(PN-4286)에 기반을 둔 3세대 cdma2000 패킷 데이터 네트워크을 위한 단말기의 프로토콜 스택에서 헤더 압축과 이동성 측면에서 많은 문제를 가지고 있기에 PPP프로토콜의 헤더 압축을 위한 해결책의 문제점을 제시하였다 마지막으로 우리는 예측 프로토콜 스택, 자원 효율성과 성능에 대한 All IP 네트워크 단말기 헤더 압축에 대한 guideline를 제안하였다.

  • PDF