• 제목/요약/키워드: contextual mode information

검색결과 11건 처리시간 0.028초

Enhanced Inter Mode Decision Based on Contextual Prediction for P-Slices in H.264/AVC Video Coding

  • Kim, Byung-Gyu;Song, Suk-Kyu
    • ETRI Journal
    • /
    • 제28권4호
    • /
    • pp.425-434
    • /
    • 2006
  • We propose a fast macroblock mode prediction and decision algorithm based on contextual information for Pslices in the H.264/AVC video standard, in which the mode prediction part is composed of intra and inter modes. There are nine $4{\times}4$ and four $16{\times}16$ modes in the intra mode prediction, and seven block types exist for the best coding gain based on rate-distortion optimization. This scheme gives rise to exhaustive computations (search) in the coding procedure. To overcome this problem, a fast inter mode prediction scheme is applied that uses contextual mode information for P-slices. We verify the performance of the proposed scheme through a comparative analysis of experimental results. The suggested mode search procedure increased more than 57% in speed compared to a full mode search and more than 20% compared to the other methods.

  • PDF

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

한글인식 후처리용 단어사전의 기억구조 (A Word Dictionary Structure for the Postprocessing of Hangul Recognition)

  • 김상운
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1702-1709
    • /
    • 1994
  • 한글인식 후처리에서 문맥정보의 저장구조는 인식율 및 인식속도를 결정짓는 중요한 요소이다. 단어사전의 형태로 문맥정보를 표현하기 위해서는 트라이(trie)를 주로 이용하지만, 기억공간 이용효율이 저조하다는 단점이 있다. 따라서 이 논문에서는 트라이의 장점을 유지하면서 공간효율을 향상시키는 기억구조를 제안한다. 한글은 조합문자이기 때문에 자모나 문자별로 기억시킬 수 있다. 그런데 자모단위로 기억시키면(P-모드) 검색시간은 빠르지만 공간효율이 나쁘고, 또한 문자단위로 기억시키면(C-모드) 공간효율은 좋지만 검색시간이 길어진다. 따라서 노드이용율과 분산율로 최적레벨을 선정한 다음, 입력단어의 시작자모부터 최적레벨까지는 자모 단위의 트라이로 기억시키고, 그 이상은 문자단위의 순차연결구조로 저장시켰다. (H-모드). 6가지 단어집합에 대하여 실험한 결과, H-모드에서의 검색시간은 P-모드만큼 빠르면서, 공간효율은 C-모드와 같게 되어 그 효용성을 확인할 수 있었다.

  • PDF

안드로이드 단말에서의 상황별 위험도 분석 및 상황별 위험도 기반 지속인증 기법 (Risk Analysis on Various Contextual Situations and Progressive Authentication Method based on Contextual-Situation-based Risk Degree on Android Devices)

  • 김지환;김승현;김수형;이윤호
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1154-1164
    • /
    • 2016
  • 타인의 접근제어를 위해 사용하는 스마트폰 인증은 스마트폰 사용 시 마다 다양한 방법으로 스마트폰 소유자의 여부를 확인한다. 그러나 이러한 빈번한 인증은 사용자들의 불편함을 야기하며, 때로는 인증방법을 사용하지 않게 하는, 궁극적으로 스마트폰 보안의 치명적인 문제로 작용한다. 본 논문에서는 이러한 문제들을 해결하고 사용자들의 보안인증 사용을 촉진하여 보안성을 증대시키기 위한 안드로이드 플랫폼 기반의 지속인증 모델을 제안한다. 제안 모델은 스마트폰의 현 상황위험도를 측정, 그에 맞추어 적절한 인증 수단을 결정, 적용하며, 낮은 위험도 수준일 경우 인증을 수행하지 않아 사용자의 가용성을 높여준다. 상황위험도를 정의하기 위해 설문조사를 이용하였으며, 설문결과를 연령, 위치, 장소, 행동 등으로 세분화하여 분석하였다. 본 연구 결과의 시연을 위해 정의된 상황위험도와 보안인증수단과의 관계를 시각화하여 보여줄 수 있도록 시연프로그램을 구현하였다.

L2 proficiency and effect of auditory source in processing L2 stops

  • Kong, Eun Jong;Kang, Jieun
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.99-105
    • /
    • 2015
  • The current study investigates whether Korean-speaking adults show differential sensitivities to the sources of auditory stimuli (L1 Korean and L2 English) in utilizing VOT and f0 in the perceptual mode of L2 stops, and how the L2 proficiency interacts with the learners' low-level phonetic sensitivities in L2 perceptual mode. 48 Korean learners of English participated in the perception experiments where they rated the goodness of English /t/ and /d/ using an analogue scale. Two sets of stimuli (English and Korean sources) were prepared by manipulating VOT (6-steps) and f0 (5-steps) values of productions by an English male (L2 source condition) and a Korean male (L1 source condition). Findings showed that, in judging /t/-likeness, the listeners responded differently to the two auditory stimulus conditions by relying on VOT significantly more in English source condition than in Korean source condition. The listeners' English proficiency did not interact with these differential sensitivities to the auditory stimulus source either along the VOT dimension or the f0 dimension. The results of the current study suggest that low-level contextual information of the auditory source can affect the learners in faithfully being in the L2 perceptual mode.

상호작용 공간 모달리티의 건축기호적 특징 - 질베르 시몽동의 기술의 정보·형태화 관점 - (The Archi-Semiotic Characteristics of Spatial Modality in Interactive Space - Focus on Gilbert Simondon's Information of Technology -)

  • 서준호
    • 한국실내디자인학회논문집
    • /
    • 제22권1호
    • /
    • pp.75-84
    • /
    • 2013
  • This study focuses on Gilbert Simondon's individuation theory, a core concept of his technological philosophy, and spatial modality in interactive space as the schema of interactive operation. The study examines spatial modality as the technology of an interaction-enabler that has archi-semiotic characteristics in the designed space by aspects of examples. They are based on ideas and properties of a combined environment and the concept of information, which form Simondon's individuation theory. In the process of technological individuation, spatial modality has the characteristics of archi-semiotics from a combined environment and information. The first of the three properties is representation through semiosis and the information surface. Second is the context by relation works and perception, and third are the symbolic aspects, which could create Placeness by meaning. Combining meaningful constructive and deconstructive spaces could result in space for interactive communication. Spatial modality makes it possible to interact with users and spaces. In fact, it could have a particular semiotic mode of address and become a semiotic and contextual base. As a basic investigation of spatial modality, this study will contribute to interactive space design research.

문맥적응적 화면내 예측 모델 학습 및 부호화 성능분석 (Context-Adaptive Intra Prediction Model Training and Its Coding Performance Analysis)

  • 문기화;박도현;김재곤
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.332-340
    • /
    • 2022
  • 최근 딥러닝을 적용하는 비디오 압축에 대한 연구가 활발히 진행되고 있다. 특히, 화면내 예측 부호화의 성능 한계를 극복할 수 있는 방안으로 딥러닝 기반의 화면내 예측 부호화 기술이 연구되고 있다. 본 논문은 신경망 기반 문맥적응적 화면내 예측 모델의 학습기법과 그 부호화 성능분석을 제시한다. 즉, 본 논문에서는 주변 참조샘플의 문맥정보를 입력하여 현재블록을 예측하는 기존의 합성곱 신경망(CNN: Convolutional Neural network) 기반의 화면내 예측 모델을 학습한다. 학습된 화면내 예측 모델을 HEVC(High Efficiency Video Coding)의 참조 소프트웨어인 HM16.19에 추가적인 화면내 예측모드로 구현하고 그 부호화 성능을 분석하였다. 실험결과 학습한 예측 모델은 HEVC 대비 AI(All Intra) 모드에서 0.28% BD-rate 부호화 성능 향상을 보였다. 또한 비디오 부호화 블록분할 구조를 고려하여 학습한 경우의 성능도 확인하였다.

도시 대중교통정보 이용 행동 특성 연구 (A Study on the Characteristics of Urban Public Transportation Information Services Use)

  • 조창현;이백진;빈미영
    • 한국경제지리학회지
    • /
    • 제12권1호
    • /
    • pp.56-66
    • /
    • 2009
  • 정보의 양이 급격히 늘어나고, 유비쿼터스 도시 환경이 출현하고 있다. 이에 따라, 소비자가 어떤 유형의 정보를 어떤 정보 전달 매체를 통해 이용하는가 하는 문제는 공공 및 상업적 교통정보 서비스 제공자에게 공통으로 중요한 문제가 되어 있다. 본 연구는 최근 수도권에서 수집한 대중교통 이용자의 대중교통 정보습득 및 정보전달 매체선택에 관한 자료분석의 첫 번째 결과물을 보고한다. 연구는 정보의 습득과 정보매체의 선택은 정보 이용의 의사결정 상황에 크게 의존한다는 가정에 기초한다. 이에 따라 본 연구는 상황에 따라 가변적인 의사결정의 원리를 탐구하는 데 적합한 decision table 및 CHAID 분석을 응용하여 정보 습득과 정보매체 선택의 동질적 segment를 확인한다. 분석 결과, 정보 습득 및 정보매체 선택에 정보 이용 당시의 이용 교통수단 및 수행 활동 등 상황변수가 중요한 역할을 하고 있음을 알 수 있었다. 이에 더해 정보 습득에는 정보 이용 당시의 시각 역시 중요하며, 정보매체 선택에는 이용 정보 내용이 추가적으로 중요한 상황 변수임을 알 수 있었다. 연구 결과는 동적 market segmentation에 관한 중요한 시사점을 제공하고 있다.

  • PDF

HEVC 인코더 고속화를 위한 병합 검색 조기 종료 결정 알고리즘 (Early Termination Algorithm of Merge Mode Search for Fast High Efficiency Video Coding (HEVC) Encoder)

  • 박찬섭;김병규;전동산;정순흥;김연희;석진욱;최진수
    • 방송공학회논문지
    • /
    • 제18권5호
    • /
    • pp.691-701
    • /
    • 2013
  • 본 논문에서는 High Efficiency Video Coding (HEVC) 부호화 속도 향상을 위하여 주변 CU들의 정보를 활용한 고속 병합모드 결정 방법을 제안한다. 표준화가 완료된 HEVC에서는 병합 후보 리스트(Merge Candidate List)에서 생성되는 동일한 후보 모드를 가진다. $2N{\times}2N$에 대하여 병합 모드와 병합 SKIP 모드(Merge SKIP mode)가 후보들을 공유하며 모드 검색을 수행한다. 이러한 병합과정은 후보 모드만큼 수행 후 병합 SKIP 모드 또한 필요에 따라 후보만큼 수행하는 검색과정은 반복 연산으로 복잡도를 가중시키고 있다. 이러한 부호화 복잡도를 감소시키기 위하여 제안된 방법에서는 이미 부호화된 시공간적 주변 블록들 및 상위 부호화 깊이 블록의 병합 (Merge) 정보를 활용하여 현재 부호화 블록의 모드를 조기에 결정한다. 주변 블록 정보가 모두 병합 SKIP 모드일 경우 조기에 병합 SKIP 모드만을 검색하도록 하고, 그렇지 않은 경우에는 기존의 병합 과정을 수행하도록 설계하였다. 실험을 통해 제안한 방법이 기존의 HEVC의 부호화 시간보다 21.25%가 감소시킬 수 있으며, 화질 열화는 매우 적음을 보인다.

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF