• 제목/요약/키워드: Residual Coding

검색결과 124건 처리시간 0.023초

FIR-STREAK 디지털 필터를 사용한 피치추출 방법에 관한 연구 (A Study on Pitch Extraction Method using FIR-STREAK Digital Filter)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.247-252
    • /
    • 1999
  • 낮은 Bit Rate의 음성부호화 방식을 구현하기 위해 필요한 파라메터로서 피치정보가 있다. 연속음성에서 정규화 된 피치정보를 추출하는 방법에서는 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서 피치추출 오류가 발생한다. 이러한 오류를 억제하기 위하여 본 연구에서는 FIR-STREAK 필터의 출력 잔차신호에서 피치정보를 얻는 개별 피치추출법을 제안하였다. 이 방법은 피치정보를 정규화하지 않고 연속적으로 변위하는 피치간격을 적절하게 나타낼 수 있다. 실험결과, 개별 피치추출법은 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서도 유효한 피치정보를 얻을 수 있음을 알 수 있었다. 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식등에 응용할 수 있을 것으로 기대된다.

  • PDF

고효율 비디오코딩을 위한 입체영상시스템 (Volumetric Image System for High Efficiency Video Coding)

  • 김상현
    • 한국콘텐츠학회논문지
    • /
    • 제16권1호
    • /
    • pp.515-520
    • /
    • 2016
  • 입체영상 시스템은 최근 교육, 3D 영화, 의료 영상 등 다양한 분야에 응용되고 있으나 실용화함에 있어 해결해야할 문제점도 남아있다. 입체영상 디스플레이는 실용화 단계에서 대량의 영상 데이터를 처리해야 하고 실시간 디스플레이를 위해 고효율 비젼 시스템을 설계해야 한다. 입체영상 디스플레이를 위한 스테레오 시스템에서는 움직임 벡터, 변위 벡터 및 오차영상이 전송되며 스테레오 영상 시퀀스를 복원하여 디스플레이를 하게 된다. 그러므로 효율적인 입체영상시스템 설계를 위한 핵심요소는 스테레오 영상간의 효율적인 정합과 강건한 비젼 시스템에 있다. 본 논문에서는 광학 플랫폼 위에 회전이 가능한 회전단과 수평이동이 가능한 단을 설계하고 카메라를 이용하여 순차적으로 스테레오 영상을 취득하여 정합함으로써 정확한 3D 정보를 추출할 수 있는 고효율 비젼 시스템을 제안한다. 제안한 입체영상 시스템 실험결과 간략화된 시스템 구조 보정을 통해 적은 계산량으로 입체영상 디스플레이를 위한 스테레오 정합에러를 최소화할 수 있었다.

수신된 움직임 벡터를 이용한 적응적 블록 양자화 기반 분산 비디오 코딩 방법 (Distributed Video Coding based on Adaptive Block Quantization Using Received Motion Vectors)

  • 민경연;박시내;남정학;심동규;김상효
    • 한국통신학회논문지
    • /
    • 제35권2C호
    • /
    • pp.172-181
    • /
    • 2010
  • 본 논문은 분산 비디오 코딩을 위한 적응적 블록 양자화 기법을 제안한다. 제안하는 방법에서는 분산 비디오 복호기에서 보조정보 프레임을 생성하면서 예측된 움직임 벡터를 부호기에 보내줌으로써, 부호기는 큰 복잡도의 증가 없이 보조정보 프레임을 완벽하게 복원한다. 또한, 이렇게 복원된 보조정보 프레임과 원본 프레임의 차이를 적응적으로 블록별 양자화를 수행한다. 제안한 방법은 오류 발생 비율을 이용하여, 교차 확률에 따라 적응적으로 부호화함으로써 부호화 비트를 감소시킬 수 있는 특징이 있다. 제안한 방법은 부호기에서 교차 확률 및 교차된 비트의 위치를 알 수 있기 때문에, 채널 복호기의 오류 수정 능력에 맞추어 패리티 비트를 전송하여 낭비되는 비트의 양을 감소시킬 수 있다. 컴퓨터 시뮬레이션을 통하여 제안한 방법이 기존의 방법 대비 66% 비트율 감소를 얻었으며, 기존의 DVC 피드백 채널에 따른 지연을 대폭 감소시켰다.

실시간 HD급 영상 처리를 위한 H.264/AVC CAVLC 부호화기의 하드웨어 구조 설계 (VLSI Design of H.264/AVC CAVLC encoder for HDTV Application)

  • 우정욱;이원재;김재석
    • 대한전자공학회논문지SD
    • /
    • 제44권7호통권361호
    • /
    • pp.45-53
    • /
    • 2007
  • 본 논문에서는 실시간 HD급 영상($1920{\times}1080@30fps$) 처리를 위한 효율적인 CAVLC (Context-based Adaptive Variable Length Code) 부호화기의 하드웨어 구조를 제안한다. 기존에 제안되었던 CAVLC 하드웨어 구조들은 CAVLC 부호화를 위해 필요한 $4{\times}4$ 블록내의 정보들을 구하기 위해서 16개의 계수들을 모두 탐색하면서 zigzag scanning을 하였다. 그러나 zigzag 방향으로 정렬 된 계수들 중 '0'이 아닌 마지막 계수 이후에 존재하는 '0'의 열은 CAVLC 부호화를 하는데 있어 불필요한 계수들이다. 본 논문에서는 이러한 불필요한 연산을 줄이기 위해서 계수 위치 탐색 기법과 레벨 순차 정렬 기법을 제안한다. 제안된 구조를 적용하여 실험한 결과, 하나의 매크로블록을 처리하는 평균 클럭 수(Cycles/MB)는 기존 방식보다 약 23%가 줄었다. 제안된 CAVLC 하드웨어 구조는 Verilog HDL을 사용하여 하드웨어로 설계 및 검증되었다. 0.18um 표준 셀 라이브러리로 합성한 결과 16.3k 게이트를 가졌고, HD급($1920{\times}1080@30fps$) 영상을 기준으로 했을 경우 81MHz에서 동작할 수 있음을 확인하였다.

교차 예측 기반의 보컬 추정 방법을 이용한 SAOC Karaoke 모드에서의 음질 향상 기법에 대한 연구 (Quality Improvement of Karaoke Mode in SAOC using Cross Prediction based Vocal Estimation Method)

  • 이동금;박영철;윤대희
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.227-236
    • /
    • 2013
  • 본 논문에서는 SAOC의 Karaoke 모드의 출력 신호 내에 존재하는 잔여 보컬 성분을 추정하여 억제시킴으로써 음질을 향상시킬 수 있는 알고리듬을 제안하였다. 잔여 보컬 성분은 Karaoke 모드 환경으로 합성된 신호와 Solo 모드로 새로 합성된 신호를 서로 교차 예측하여 추정될 수 있다. 그러나, 두 신호는 모두 같은 다운 믹스 신호로부터 합성되는 신호이므로, 두 신호간의 높은 상관성으로 인하여 가라오케 신호내의 잔여 보컬 성분뿐만 아니라 음악 성분도 함께 제거된다. 이러한 열화를 해결하기 위해, 본 논문에서는 교차 예측 과정에서 심리 음향적 특성을 고려한 예측 방해 신호를 적용하였으며, 이 신호의 크기는 심리음향모델의 마스킹 특성에 따라 음악적 음질의 열화가 최소화되도록 적응적으로 설정되었다. 실험은 보컬 객체가 포함된 음악 신호에 대해서 객관적 및 주관적 음질평가를 수행하였으며, 전체적으로 성능 향상이 있음을 확인하였다.

Construction of an Industrial Brewing Yeast Strain to Manufacture Beer with Low Caloric Content and Improved Flavor

  • Wang, Jin-Jing;Wang, Zhao-Yue;Liu, Xi-Feng;Guo, Xue-Na;He, Xiu-Ping;Wense, Pierre Christian;Zhang, Bo-Run
    • Journal of Microbiology and Biotechnology
    • /
    • 제20권4호
    • /
    • pp.767-774
    • /
    • 2010
  • In this study, the problems of high caloric content, increased maturation time, and off-flavors in commercial beer manufacture arising from residual sugar, diacetyl, and acetaldehyde levels were addressed. A recombinant industrial brewing yeast strain (TQ1) was generated from T1 [Lipomyces starkeyi dextranase gene (LSD1) introduced, ${\alpha}$-acetohydroxyacid synthase gene (ILV2) disrupted] by introducing Saccharomyces cerevisiae glucoamylase (SGA1) and a strong promoter (PGK1), while disrupting the gene coding alcohol dehydrogenase (ADH2). The highest glucoamylase activity for TQ1 was 93.26 U/ml compared with host strain T1 (12.36 U/ml) and wild-type industrial yeast strain YSF5 (10.39 U/ml), respectively. European Brewery Convention (EBC) tube fermentation tests comparing the fermentation broths of TQ1 with T1 and YSF5 showed that the real extracts were reduced by 15.79% and 22.47%; the main residual maltotriose concentrations were reduced by 13.75% and 18.82%; the caloric contents were reduced by 27.18 and 35.39 calories per 12 oz. Owing to the disruption of the ADH2 gene in TQ1, the off-flavor acetaldehyde concentrations in the fermentation broth were 9.43% and 13.28%, respectively, lower than that of T1 and YSF5. No heterologous DNA sequences or drug resistance genes were introduced into TQ1. Hence, the gene manipulations in this work properly solved the addressed problems in commercial beer manufacture.

음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현 (Design and Implementation of Simple Text-to-Speech System using Phoneme Units)

  • 박애희;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권3호
    • /
    • pp.49-60
    • /
    • 1995
  • 본 논문은 소규모 시스템에 적용 가능한 한국어 문자-음성 변환 시스템의 설계 및 구현에 대한 연구를 목적으로 한다. 본 논문에서 채택한 음성합성 방법은 파라메터 합성법으로서 LPC(linear Predictive Coding)계열의 PARCOR(PARtial autoCORrelation) 계수를 음향 파라메터로 사용하였으며, 음성합성 단위로는 가장 기본적인 단위인 음소를 채택하였다. 합성 파라메터로는 유성음의 경우 PARCOR계수, 피치, 진폭을 무성음의 경우 잔차신호와 PARCOR계수를 사용하였다. 특히 무성음의 경우 LPC합성시 음질이 떨어진다는 단점이 있었으나, 본 논문에서는 LPC분석시 얻어지는 잔차신호를 무성음의 여기신호로 사용하여 단어 단위의 합성에서 60%의 이해도를 얻을 수 있었다. 합성결과 단어 단위의 합성에 적용 가능하였고, 문장단위의 합성을 위해서는 음소 지속시간 조절에 대한 연구가 진행되어야 할것이다. 본 논문의 구현환경으로는 486 PC상에서 음성의 입,출력을 위해 70[Hz]-4.5[KHz] 대역통과 필터와 증폭기, 그리고 TMS320C30 디지털 신호처리 프로세서를 장착한 DSP 보드를 사용하였다.

  • PDF

A Hybrid Optimized Deep Learning Techniques for Analyzing Mammograms

  • Bandaru, Satish Babu;Deivarajan, Natarajasivan;Gatram, Rama Mohan Babu
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.73-82
    • /
    • 2022
  • Early detection continues to be the mainstay of breast cancer control as well as the improvement of its treatment. Even so, the absence of cancer symptoms at the onset has early detection quite challenging. Therefore, various researchers continue to focus on cancer as a topic of health to try and make improvements from the perspectives of diagnosis, prevention, and treatment. This research's chief goal is development of a system with deep learning for classification of the breast cancer as non-malignant and malignant using mammogram images. The following two distinct approaches: the first one with the utilization of patches of the Region of Interest (ROI), and the second one with the utilization of the overall images is used. The proposed system is composed of the following two distinct stages: the pre-processing stage and the Convolution Neural Network (CNN) building stage. Of late, the use of meta-heuristic optimization algorithms has accomplished a lot of progress in resolving these problems. Teaching-Learning Based Optimization algorithm (TIBO) meta-heuristic was originally employed for resolving problems of continuous optimization. This work has offered the proposals of novel methods for training the Residual Network (ResNet) as well as the CNN based on the TLBO and the Genetic Algorithm (GA). The classification of breast cancer can be enhanced with direct application of the hybrid TLBO- GA. For this hybrid algorithm, the TLBO, i.e., a core component, will combine the following three distinct operators of the GA: coding, crossover, and mutation. In the TLBO, there is a representation of the optimization solutions as students. On the other hand, the hybrid TLBO-GA will have further division of the students as follows: the top students, the ordinary students, and the poor students. The experiments demonstrated that the proposed hybrid TLBO-GA is more effective than TLBO and GA.

Phased-in 코드를 이용한 움직임 벡터 예측기의 효율적인 부호화 방법 (Efficient Coding of Motion Vector Predictor using Phased-in Code)

  • 문지희;최정아;호요성
    • 방송공학회논문지
    • /
    • 제15권3호
    • /
    • pp.426-433
    • /
    • 2010
  • H.264/AVC 비디오 압축 표준은 압축 효율을 높이기 위해 다양한 크기의 블록을 사용하여 화면 사이의 움직임 예측을 수행한다. H.264/AVC는 가변적인 블록 크기의 움직임 보상을 통해 세밀한 영역의 움직임까지 예측할 수 있어 잔여 영상을 나타내는 정보량을 효과적으로 줄일 수 있다. 복호를 위해서는 각 블록의 움직임 벡터를 전송해야 하는데, 저비트율 환경에서는 움직임 벡터 정보가 전체 비트스트림의 약 40%를 차지한다. 움직임 벡터 정보량을 줄이기 위해 비디오 부호화 전문가 그룹(VCEG)에서는 다양한 움직임 벡터 예측(Motion Vector Competition) 방법을 제안하였다. 다양한 예측 움직임 벡터를 사용하여 실제 전송해야 할 움직임 벡터 차분값(Motion Vector Difference, MVD)의 크기를 줄이기 때문에 압축 효율을 높일 수 있다. 그러나 다양한 예측 움직임 벡터를 사용하기 때문에 선택된 예측 움직임 벡터의 인덱스 정보를 복호기로 전송해야 한다. 이 논문에서는 인덱스 정보를 효율적으로 전송하기 위해 Phased-in 코드를 기반으로 한 새로운 코드워드 표를 제안했다. 실험을 통해 제안한 방법을 이용하여 동일한 화질에서 평균 약 7.24%의 비트율을 절감할 수 있었고, 동일한 비트율에서는 평균 약 0.36dB의 화질을 향상시킬 수 있었다.

레지듀얼 정보를 이용한 다시점 동영상 부호화의 가중치 예측 (Weighted Prediction Using Residual Information for Multi-view Video Coding)

  • 김지영;김용태;서정동;손광훈
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2007년도 동계학술대회
    • /
    • pp.9-12
    • /
    • 2007
  • 다시점 동영상 부호화기는 서로 다른 카메라에 의해 영상을 획득하므로 카메라 내부 파라미터의 차이나 조명의 차이 및 변화 등에 의한 시점 간 명도 성분의 불균형을 가지고 있다. 이로 인해 잘못된 변이 추정이 이루어질 수 있으며, 따라서 전체적인 다시점 동영상 부호화의 성능을 크게 저하시킬 수 있다. 본 논문에서는 레지듀얼이 가지고 있는 밝기 차 정보를 이용하여 시점 간의 불균형을 해소하는 가중치 예측 알고리듬을 제안한다. 주변의 인과적인 블록의 레지듀얼 정보를 이용하여 현재 블록과 참조 블록의 밝기 차를 예측하고, 이 값을 이용해 시점 간 불균형을 보정 한 후 변이 추정을 수행한다. 변이 보상 후 계산된 현재 블록의 레지듀얼 평균값을 앞에서 예측된 밝기 차의 값에 누적하여 다음 블록의 밝기 차 예측에 사용한다. 제안된 방법을 실험 영상에 적용한 결과 평균적으로 약 0.2dB의 이득을 얻었다.

  • PDF