• 제목/요약/키워드: 은닉 마코브 모델

검색결과 11건 처리시간 0.026초

은닉 마코브 모델을 이용한 인터넷 정보 추출 (Hidden Markov Model-based Extraction of Internet Information)

  • 박동철
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.8-14
    • /
    • 2009
  • 본 논문은 은닉 마코브 모델을 이용한 인터넷 정보 추출 방법을 제안하고, 인터넷상의 웹 사이트에서 상품가격을 효율적으로 추출하는 문제에 적용되었다. 제안된 방법에서 시스템으로 입력되는 데이터는 검색엔진의 인터페이스 URL 인데, 상품의 이름을 포함하며, 시스템의 출력은 추출된 각 상품의 상품명, 가격, 사진, 그리고 URL을 목록형태로 보여준다. 주어진 관찰 데이터를 이용해, 은닉 마코브 모델의 학습단계에서는 Maximum Likelihood 알고리듬과 Baum-Welch 알고리듬이 학습에 사용되었으며, 학습된 은닉 마코브 모델을 이용하여 시스템의 출력을 찾는 방법으로는 Viterbi 알고리듬이 사용되었다. 제안된 HMM기반의 정보 검출기는 실제상황에서 수집된 관찰데이터에 대해 실험이 수행되었는데, 기존의 PEWEB 알고리듬에 비해 검출도와 정확도에서 매우 향상된 결과를 보이고 있으며, 특히 정확도에서는 99%이상의 높은 결과를 보여주고 있다. 한편, 보다 충실한 학습을 위해 학습 데이터의 수를 800개 이상으로 증가시켰을 패 검출도 역시 약 93%로 향상된 성능을 보여주었다.

자율주행 인지를 위한 마코브 모델 기반의 정지 장애물 추정 연구 (Markov Model-based Static Obstacle Map Estimation for Perception of Automated Driving)

  • 윤정식;이경수
    • 자동차안전학회지
    • /
    • 제11권2호
    • /
    • pp.29-34
    • /
    • 2019
  • This paper presents a new method for construction of a static obstacle map. A static obstacle is important since it is utilized to path planning and decision. Several established approaches generate static obstacle map by grid method and counting algorithm. However, these approaches are occasionally ineffective since the density of LiDAR layer is low. Our approach solved this problem by applying probability theory. First, we converted all LiDAR point to Gaussian distribution to considers an uncertainty of LiDAR point. This Gaussian distribution represents likelihood of obstacle. Second, we modeled dynamic transition of a static obstacle map by adopting the Hidden Markov Model. Due to the dynamic characteristics of the vehicle in relation to the conditions of the next stage only, a more accurate map of the obstacles can be obtained using the Hidden Markov Model. Experimental data obtained from test driving demonstrates that our approach is suitable for mapping static obstacles. In addition, this result shows that our algorithm has an advantage in estimating not only static obstacles but also dynamic characteristics of moving target such as driving vehicles.

음성 인식에서 음소 클러스터 수의 효과 (The Effect of the Number of Phoneme Clusters on Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제9권11호
    • /
    • pp.1221-1226
    • /
    • 2014
  • 본 논문에서는 음성 인식의 효율을 높이기 위하여 음소 클러스터 개수의 효과에 대해 연구하였다. 이를 위하여 음소 클러스터 개수를 바꾸어 가면서 수정된 k-평균 군집 알고리듬을 사용하여 코우드북을 작성하였다. 그런 다음, 퍼지 벡터 양자화와 은닉 마코브 모델을 사용하여 음성인식 테스트를 수행하였다. 실험 결과 두 개의 영역이 구분되어 나타났다. 음소 클러스터 개수가 클 때 인식 성능은 대체로 그와 무관하지만, 개수가 작을 때에는 그 감소와 더불어 인식 오류율이 비선형적으로 증가하는 것으로 나타났다. 수치 해석적 계산으로부터, 이 비선형 영역은 멱승함수에 의해 모델링 될 수 있었다. 또한 300개의 고립단어 인식의 경우에, 166개의 음소클러스터가 최적의 수임을 보일 수 있었다. 이는 음소당 3개 정도의 변화에 해당하는 값이다.

한국어 연속음성중 키워드 인식을 위한 반연속 은닉 마코브 모델과 One-Pass 알고리즘의 개선방안 (Improvement of Semicontinuous Hiden Markov Models and One-Pass Algorithm for Recognition of Keywords in Korean Continuous Speech)

  • 최관선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.358-363
    • /
    • 1994
  • This paper presents the improvement of the SCHMM using discrete VQ and One-Pass algorithm for keywords recognition in Korean continuous speech. The SCHMM using discrete VQ is a simple model that is composed of a variable mixture gaussian probability density function with dynamic mixture number. One-Pass algorithm is improved such that recognition rates are enhanced by fathoming any undesirable semisyllable with the low likelihood and the high duration penalty, and computation time is reduced by testing only the frame which is dissimilar to the previously testd frame. In recognition experiments for speaker-dependent case, the improved One-Pass algorithm has shown recognition rates as high as 99.7% and has reduced compution time by about 30% compared with the currently abailable one-pass algorithm.

  • PDF

HTTP Outbound Traffic에 HMM을 적용한 웹 공격의 비정상 행위 탐지 기법 (Anomaly Detection Scheme of Web-based attacks by applying HMM to HTTP Outbound Traffic)

  • 최병하;최승교;조경산
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.33-40
    • /
    • 2012
  • 본 논문은 HTTP Outbound Traffic의 감시를 통해 다양한 웹 공격의 침입 경로에 대응하고, 학습 효율성을 높여 변종 또는 새로운 기법을 이용한 비정상 행위에 대한 오탐을 낮춘 기법을 제안한다. 제안 기법은 HMM(Hidden Markov Model)을 적용하여 HTML 문서속의 태그와 자바스크립트의 학습을 통한 정상 행위 모델을 생성한 후, HTTP Outbound Traffic속의 정보를 정상 행위 모델과 비교하여 웹 공격을 탐지한다. 실제 침입된 환경에서의 검증 분석을 통해, 제안기법이 웹 공격에 대해 0.0001%의 오탐율과 96%의 우수한 탐지능력을 보임을 제시한다.

데이터마이닝을 활용한 유전자 질병 분석을 위한 MKSV시스템 구현 (For Gene Disease Analysis using Data Mining Implement MKSV System)

  • 정유정;최광미
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.781-786
    • /
    • 2019
  • 오늘날 다양한 생명현상을 다루고있는 질병연구와 같은 효율적인 목적을 달성하기 위해서는 이들 연구로부터 획득한 빅데이터를 처리하여 효과적인 현실적 가치를 부여할 수 있어야 한다. 본 논문에서 제안한 MKSV알고리즘은 최적의 확률분포를 추정하여 입력패턴을 결정 한 후 데이터마이닝 기법으로 분류한 결과 효율적인 계산량과 인식률을 획득할 수 있었다. MKSV 알고리즘은 유전자 데이터의 확률적 흐름을 시뮬레이션하여 빅데이터의 데이터마이닝 과정을 통해 데이터를 분류하여 빠르고 효과적인 성능 향상을 보임으로써 현 사회에 급증하는 질병과 유전자의 관련성을 연구하는 데 유용할 것이다.

음성 인식에서 위상 정보의 활용 (Utilization of Phase Information for Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제10권9호
    • /
    • pp.993-1000
    • /
    • 2015
  • MFCC는 음성 신호 처리에서 귀중한 특징 벡터들 중 하나이다. MFCC에서 명백한 결점은 푸리에 변환의 크기를 취함에 의해 위상 정보가 손실된다는 것이다. 이 논문에서 우리는 푸리에 변환의 실수부와 허수부 크기를 따로 취급함으로써 위상 정보를 활용하는 방법을 생각한다. 퍼지 벡터 양자화와 은닉 마코브 모델을 이용한 음성인식에 이 방법을 적용함으로써, 종전 방법에 비해 음성 인식 오류율을 줄일 수 있음을 보인다. 우리는 또한 수치해석을 통하여, FFT의 실수부와 허수부 각각에서 6개의 성분을 취하여 모두 12개의 MFCC 성분을 사용하는 것이 음성인식에 최적임을 보인다.

FIR 필터링과 스펙트럼 기울이기가 MFCC를 사용하는 음성인식에 미치는 효과 (The Effect of FIR Filtering and Spectral Tilt on Speech Recognition with MFCC)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제5권4호
    • /
    • pp.363-371
    • /
    • 2010
  • 특징벡터의 분류를 개선시켜 화자독립 음성인식의 오류율을 줄이려는 노력의 일환으로서, 우리는 MFCC의 추출에 있어서 푸리에 스펙트럼을 기울이는 방법이 미치는 효과를 연구한다. 음성신호에 FIR 필터링을 적용하는 효과의 조사도 병행된다. 제안된 방법은 두 가지 독립적인 방법에 의해 평가된다. 즉, 피셔의 차별함수에 의한 방법과 은닉 마코브 모델 및 퍼지 벡터양자화를 사용한 음성인식 오류율 조사 방법이다. 실험 결과, 적절한 파라미터의 선택에 의해 기존의 방법에 비해 10% 정도 낮은 인식 오류율이 얻어짐을 확인하였다.

음성인식에서 중복성의 저감에 대한 연구 (A Study on the Redundancy Reduction in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.475-483
    • /
    • 2012
  • 음성 신호의 특성은 인접한 프레임에서 크게 변화하지 않는다. 따라서 비슷한 특징벡터들에 내재된 중복성을 줄이는 것이 바람직하다. 본 논문의 목적은 음성인식에 있어서 음성 특징벡터가 최소의 중복성과 최대의 유효한 정보를 갖는 조건을 찾는 것이다. 이를 이하여 우리는 하나의 감시 파라미터를 통하여 중복성 저감을 실현하고, 그 결과가 FVQ/HMM을 사용한 화자독립 음성인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않고 특징벡터의 수를 30% 줄일 수 있음을 확인하였다.

음성인식에서 특이 특징벡터의 제거에 대한 연구 (A Study on the Removal of Unusual Feature Vectors in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.561-567
    • /
    • 2013
  • 음성 인식을 위해 추출되는 특징벡터 중 일부는 드물게 나타나는 특이 패턴이다. 이들은 음성인식 시스템의 훈련에서 파라미터의 과도맞춤을 일으키며, 그 결과 새로운 입력 패턴의 인식을 저해하는 구조적 위험을 초래한다. 본 논문에서는 이러한 특이 패턴을 제거하는 하나의 방법으로서, 어느 크기 이상의 벡터를 제외시켜 음성인식 시스템의 훈련을 수행하는 방법에 대해 연구한다. 본 연구의 목적은 인식률을 저해시키지 않는 한도에서 가장 많은 특이 특징벡터를 제외시키는 것이다. 이를 위하여 우리는 하나의 절단 파라미터를 도입하고, 그 값의 변화가 FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model)을 사용한 화자독립 음성 인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않는 특이 특징벡터의 수가 3%~6% 정도임을 확인하였다.