• Title/Summary/Keyword: 음성 인식 후처리

Search Result 131, Processing Time 0.027 seconds

A Study on Recognition of Clustered Cells in Uterine Cervical Pap-Smear Image (군집을 이루는 자궁 경부암 세포 인식에 관한 연구)

  • 최예찬;김선아;김호영;김백섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.511-513
    • /
    • 2000
  • PaP Smear 테스트는 자궁 경부암 진단에 가장 효율적인 방법으로 알려져 있다. 그러나 이 방법은 높은 위 음성률(false negative error, 15~50%)을 나타내고 있다. 이런 큰 오류율은 주로 다량의 세포 검사에 기인하여, 자동화 시스템의 개발이 절실히 요구되고 있다. 본 논문은 자궁 경부암의 특징인 군집을 이루는 암세포를 인식할 수 있는 시스템을 제안한다. 시스템은 두 부분으로 나누어진다. 첫 단계에서는 저 배율(100배)에서 간단한 영상처리와 최소 근접 트리(Minimum Spanning Tree)를 통해 군집을 이루는 세포를 찾는다. 두 번째 단계서는 고 배율(400배)로 확대하여 군집 세포들로부터 여러 가지 특징을 추출한 후 KNN(k-Neighbor) 방법을 통해 인식하는 단계이다. 50개의 영상 (640X 480, RGB True Color 25 개의 100배 영상 , 25개의 400배 영상)이 실험에 사용되었다. 한 영상을 처리하는데 약 3초 (2.984초) 소요되었으며, 이는 region growing(20초)나 split and merge(58초) 방법 보다 덜 소요되었다. 100배 영상에서 정상과 비정상의 두 그룹으로 나누었을 경우에는 96%의 높은 인식율을 나타내었으나 비정상을 다시 5개의 그룹으로 나누었을 때는 45%로 나타내었다. 이는 영역 추출(segmentation) 단계에서 오류와 트레이닝 데이터의 비정확성에 기인한다. 400배 영상에서는 각각 92%와 30%로 나타내었다. 이는 영역추출 단계에서 사용한 Watershed 방법의 오류로 기인한 것으로 본다.

  • PDF

Self-Exercise Correction Program Using Kinect Sensor (키넥트 센서를 활용한 셀프 운동 교정 프로그램)

  • Shin, Hyeon-Ji;Kim, Kang-Il;Kim, Kwang-Hoon;Park, Su-Jin;Lee, Yeon-Hee;Ko, Byung-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.1083-1085
    • /
    • 2017
  • 개인별 건강관리에 대한 관심이 증가함에 따라 다양한 형태의 운동관리 프로그램이 개발되고 있다. 본 연구에서는 개인별 맞춤 트레이닝 관리를 위해 키넥트 센서를 활용한 셀프 운동 교정 프로그램을 개발하였다. 셀프 운동 교정 프로그램의 동작 과정은 다음과 같이 구성된다. 1)키넥트 센서를 활용하여 사용자의 운동 모습을 촬영 2) USB 어댑터를 이용하여 PC와 연동한 후 실시간으로 골격분석 및 좌표를 추출 및 각도를 계산 3)표준 자세의 데이터와 비교, 분석하여 잘못된 동작을 인식 4)잘못된 동작이 인식되면 음성지원을 통해 실시간 알림, 운동이 끝난 후 수집되는 운동 기록(횟수, 영상) 데이터를 데이터베이스에 저장하고 열람 및 관리할 수 있도록 함으로써 효율적으로 개인 운동교정이 가능하다.

A Study on Korean Connected Digit Recognizer Based on Semi-syllable and Post-processing (반음절기반의 한국어 연속숫자음인식과 그 후처리에 대한 연구)

  • Jeong, Jae-Boo;Chung, Hoon;Chung, Ik-Joo
    • Speech Sciences
    • /
    • v.8 no.4
    • /
    • pp.1-15
    • /
    • 2001
  • This paper describes the effect of new recognition unit, a unit based on semisyllable, and its post processing method. A recognition unit based on semi-syllable expresses Korean connected digit's coarticulation effect. An existing method using semi-syllable limits next models, derived from current recognized models, to make complete connected digit sequence. However, this paper uses a new method to make complete connected digit sequence. The new post-processing method recognizes isolated digit words which include digits sequence from the digit combinations being able to occur from current recognized semi-syllable sequence. This method gives an improved accuracy rate than that of existing method. This new post processing provides two advantages. 1) It corrects current mis-recognized semi-syllable unit. 2) When people say each digit, they say it without regard to saying duration.

  • PDF

The Effects of Secondhand Smoking on Articulators Based on Phonetic Analysis (음성학적 분석 기반의 간접흡연이 조음기관에 미치는 영향)

  • Seo, Kyoung-Won;Kang, Deok-Hyun;Bae, Jung-Su;Jang, Yong-Jo;Yean, Yong-Hem;Lim, Soon-Yong;Min, Ji-Seon;Kim, Bong-Hyun;Ka, Min-Kyoung;Cho, Dong-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.648-651
    • /
    • 2010
  • 웰빙의 바람을 타고 이제 자신의 건강을 관리하는 사람들이 많아지고, 흡연에 대한 좋지 않은 인식이 높아지면서 금연의 열풍이 강하게 불고 있다. 하지만 금연을 한다고 해도 주위의 담배연기는 우리 몸의 건강을 해치기 때문에 담배연기로부터 해방되기는 매우 어렵다. 실제로 흡연하는 배우자를 가진 사람은 그렇지 않은 사람에 비해 심장병 발생률은 40%, 폐암 발생률은 30%가 더 높다. 따라서 본 논문에서는 간접흡연이 인체의 조음기관에 미치는 영향을 분석하기 위해 간접흡연에 따른 음성의 변화를 측정하고 비교, 분석하는 실험을 수행하였다. 이를 위해 간접흡연 전과 후의 음성을 수집하여 음성분석학적 요소 기술 중 Pitch, Jitter, Shimmer 등의 성대 진동 요소를 적용하고 인체 내의 공명기관을 분석하는 Formant를 적용하여 실험을 수행하여 간접흡연이 음성에 미치는 영향을 연구하였다.

A Study On the Automatic Generation Algorithm of Reference Pattern Using Levelbuilding Algorithm. (Levelbuilding 알고리즘을 이용한 참조패턴의 자동생성 알고리즘에 관한 연구)

  • 김윤중
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.79-82
    • /
    • 1998
  • 본 연구에서는 연결단어 음성인식 상에서 올바른 참조 패턴을 생성하기 위해 Levelbuilding 알고리즘을 이용하여 인식대상 단어의 표본 집합(훈련패턴 집합)으로부터 참조 패턴을 자동적으로 생성하는 알고리즘을 개발하였다. 본 연구는 분한 K-Mans 훈련방법에 기초하고 있으며, Levelbuilding 알고리즘을 이용하여 훈련패턴으로부터 참조 패턴을 생성하는 것이다. 먼저 초기화 과정에서 훈련 패턴을 그에 포함된 단어 수만큼 등간격 분리하여 분리된 단어들을 소속 Cluster로 분류하고 각 Cluster의 Center들로 초기 참조패턴을 구성한다. 그리고 참조패턴, 제어정보 및 Levelbuilding 알고리즘을 이용하여 각 훈련패턴을 분리하고, 분리된 단어들을 소속 Cluster로 분류하여 단어 Cluster집합을 구성한 후 DTW 및 minimax알고리즘을 이용해 각 Cluster의 Center를 구하여 참조 패턴을 생성한다. 참조패턴 구성에 변화가 없을 때까지 전 단계의 참조패턴과 본 알고리즘을 반복 수행하여 최적의 참조패턴을 생성한다. 본 알고리즘을 이용하여 3개 숫자의 연결단어 집합으로부터 영('0')에서 구('9')까지 숫자음에 대한 참조패턴을 자동 생성하였다. 참조패턴 생성과정에서 가정 중요한 처리인 훈련패턴 분리과정을 분석하기 위하여 각 반복과정에서 분리된 정보를 그래프로 도시화하여 확인하였다.

  • PDF

A Study on the Technique of Spectrum Flattening for Improved Pitch Detection (개선된 피치검출을 위한 스펙트럼 평탄화 기법에 관한 연구)

  • 강은영;배명진;민소연
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.310-314
    • /
    • 2002
  • The exact pitch (fundamental frequency) extraction is important in speech signal processing like speech recognition, speech analysis and synthesis. However the exact pitch extraction from speech signal is very difficult due to the effect of formant and transitional amplitude. So in this paper, the pitch is detected after the elimination of formant ingredients by flattening the spectrum in frequency region. The effect of the transition and change of phoneme is low in frequency region. In this paper we proposed the new flattening method of log spectrum and the performance was compared with LPC method and Cepstrum method. The results show the proposed method is better than conventional method.

Intelligent Records and Archives Management That Applies Artificial Intelligence (인공지능을 활용한 지능형 기록관리 방안)

  • Kim, Intaek;An, Dae-Jin;Rieh, Hae-young
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.17 no.4
    • /
    • pp.225-250
    • /
    • 2017
  • The Fourth Industrial Revolution has become a focus of attention. Artificial intelligence (AI) is the key technology that will lead us to the industrial revolution. AI is also used to facilitate efficient workflow in records and archives management area, particularly abroad. In this study, we introduced the concept of AI and examined the background on how it rose. Then we reviewed the various applications of AI with prominent examples. We have also examined how AI is used in various areas such as text analysis, and image and speech recognition. In each of these areas, we have reviewed the application of AI from the viewpoint of records and archives management and suggested further utilization of the methods, including module and interface for intelligent records and archives information services.

Analysis of the Korean Tokenizing Library Module (한글 토크나이징 라이브러리 모듈 분석)

  • Lee, Jae-kyung;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.78-80
    • /
    • 2021
  • Currently, research on natural language processing (NLP) is rapidly evolving. Natural language processing is a technology that allows computers to analyze the meanings of languages used in everyday life, and is used in various fields such as speech recognition, spelling tests, and text classification. Currently, the most commonly used natural language processing library is NLTK based on English, which has a disadvantage in Korean language processing. Therefore, after introducing KonLPy and Soynlp, the Korean Tokenizing libraries, we will analyze morphology analysis and processing techniques, compare and analyze modules with Soynlp that complement KonLPy's shortcomings, and use them as natural language processing models.

  • PDF

Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum (켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법)

  • 김유진;정혜경;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.4
    • /
    • pp.361-373
    • /
    • 2002
  • In this paper, we propose a channel normalization method to improve the performance of CMS (cepstral mean subtraction) which is widely adopted to normalize a channel variation for speech and speaker recognition. CMS which estimates the channel effects by averaging long-term cepstrum has a weak point that the estimated channel is biased by the formants of voiced speech which include a useful speech information. The proposed Formant-broadened Cepstral Mean Subtraction (FBCMS) is based on the facts that the formants can be found easily in log spectrum which is transformed from the cepstrum by fourier transform and the formants correspond to the dominant poles of all-pole model which is usually modeled vocal tract. The FBCMS evaluates only poles to be broadened from the log spectrum without polynomial factorization and makes a formant-broadened cepstrum by broadening the bandwidths of formant poles. We can estimate the channel cepstrum effectively by averaging formant-broadened cepstral coefficients. We performed the experiments to compare FBCMS with CMS, PFCMS using 4 simulated telephone channels. In the experiment of channel estimation, we evaluated the distance cepstrum of real channel from the cepstrum of estimated channel and found that we were able to get the mean cepstrum closer to the channel cepstrum due to an softening the bias of mean cepstrum to speech. In the experiment of text-independent speaker identification, we showed the result that the proposed method was superior than the conventional CMS and comparable to the pole-filtered CMS. Consequently, we showed the proposed method was efficiently able to normalize the channel variation based on the conventional CMS.

The Flattening Algorithm of Speech Spectrum by Quadrature Mirror Filter (QMF에 의한 음성스펙트럼의 평탄화 알고리즘)

  • Min, So-Yeon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.7 no.5
    • /
    • pp.907-912
    • /
    • 2006
  • Pre-emphasizing the speech compensates for falloff at high frequencies. The most common form of pre-emphasis is y(n)=s(n)-A${\cdot}$s(n-1), where A typically lies between 0.9 and 1.0 in voiced signal. And, this value reflects the degree of pre-emphasis and equals R(1)/R(0) in conventional method. This paper proposes a new flattening method to compensate the weaked high frequency components that occur by vocal cord characteristic. We used QMF(Quardrature Mirror Filter) to minimize the output signal distortion. After using the QMF to compensate high frequency components, flattening process is followed by R(1)/R(0) at each frame. Experimental results show that the proposed method flattened the weaked high frequency components effectively than auto correlation method. Therefore, the flattening algorithm will apply in speech signal processing like speech recognition, speech analysis and synthesis.

  • PDF