• 제목/요약/키워드: Overlap-add

검색결과 52건 처리시간 0.022초

하모닉 코딩과 CELP방법을 이용한 저 전송률 음성 부호화 방법 (Low Rate Speech Coding Using the Harmonic Coding Combined with CELP Coding)

  • 김종학;이인성
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.26-34
    • /
    • 2000
  • 본 논문에서는 선형예측 잔여신호에 대한 하모닉 벡터 여기 코딩에, 시간 대역 분리 혼합 코딩을 결합한 4kbps 음성코더를 제안한다. 하모닉 벡터 여기 코딩은 유성음 구간에서 하모닉 여기 코딩을 사용하며, 무성음 구간에 대해서는 분석-합성 구조의 벡터 여기 코딩을 사용한다. 그러나, 이러한 양단 모드 코딩 방법은 유성음과 무성음이 혼재하는 전이 구간에서는 비효과적이므로, 유/무성음 모드 코딩 이외의 새로운 방법이 요구된다. 이에, 전이 구간을 위한 시간 분리 전이 코딩을 설계하였으며, 여기서, 유/무성음 결정 알고리즘은 단위 구간 내의 유성음과 무성음의 존속기간을 결정하고, 이전 구간의 유/무성음 결정에 따라 하모닉-하모닉 코딩과 벡터-하모닉 코딩을 선택적으로 사용한다. 복호화기에서는 하모닉 크기값들의 IFFT 과정을 통해 유성음 여기신호가 효과적으로 합성되며, 무성음 여기신호는 역 벡터 양자화를 통해 만들어진다. 재 복원된 음성 신호는 중첩합산 방법에 의해 합성된다.

  • PDF

현재와 과거 위치 질의를 위한 시공간 색인에 관한 연구 (A Study on Spatial-temporal indexing for querying current and past positions)

  • Jun, Bong-Gi
    • 한국정보통신학회논문지
    • /
    • 제8권6호
    • /
    • pp.1250-1256
    • /
    • 2004
  • 현재 및 과거 위치 질의를 위해 연속적으로 변경되는 위치의 이동은 저장되고 색인화 되어야 한다. 기존의 R-트리에 시간을 다른 차원으로 추가하여 간단하게 확장한 3차원 R-트리는 현재 위치 질의를 다루지 않고 있으며, 색인 노드들의 많은 중첩으로 인하여 공간 활용도가 낮다는 문제점이 있다. 이 논문에서는 분할된 노드의 공간 활용도를 높이기 위하여 향상된 3차원 R-트리의 동적 분할 정책을 제안한다. 또한, 이동체들의 현재 및 과거 위치를 질의하기 위해 새로운 태그 색인 구조를 소개함으로서 기존의 3차원 R-트리를 확장하였다. 현재 및 과거 위치 질의에서 제안하는 태그 동적 3차원 R-트리는 기존의 3차원 R-트리와 TB-트리 보다 성능이 우수하였다.

가변 주파수 변환을 위한 시간 영역 다중채널 신호처리 알고리즘 (Time Domain Multiple-channel Signal Processing Method for Converting the Variable Frequency Band)

  • 유재호;김현수;이규하;이정섭;정재학
    • 한국통신학회논문지
    • /
    • 제35권1A호
    • /
    • pp.71-79
    • /
    • 2010
  • 다중채널 신호처리 알고리즘은 사용 주파수 대역의 가변성, 효율적인 전송전력 할당, 서로 다른 전송률과 대역을 요구하는 서비스 형태를 충족시키기 위한 가변 주파수 대역 변환을 요구한다. 본 논문에서는 다중채널 반송파 신호의 가변 주파수 대역 변환을 위해 시간 영역의 윈도우 함수와 DFT(Discrete Fourier Transform)를 이용한 다중채널 신호처리 알고리즘을 제안한다. 제안한 알고리즘은 기존의 주파수 영역에서 대역통과 신호처리를 하는 다중채널 신호처리 알고리즘과 달리, 시간 영역에서 윈도우 함수를 사용한 블록 신호처리를 하기 때문에 기존의 주파수 영역에서 신호처리 방식보다 연산이 간단하며 효율적인 주파수 변환을 할 수 있다. 전산모의 실험을 통해 제안한 알고리즘의 출력신호 복원과 가변 주파수 대역 변환이 효율적으로 이루어지는 것을 보였다.

다중채널 시스템에서 가변 대역폭 절환을 위한 신호처리 알고리즘 (Signal processing algorithm for converting variable bandwidth in the multiple channel systems)

  • 유재호;김현수;최동현;정재학
    • 한국위성정보통신학회논문지
    • /
    • 제5권1호
    • /
    • pp.32-37
    • /
    • 2010
  • 다중채널 신호처리 알고리즘은 사용 주파수 대역의 가변성, 효율적인 전송전력 할당, 서로 다른 전송률과 대역을 요구하는 서비스 형태를 충족시키기 위한 가변 주파수 대역 변환을 요구한다. 다중채널 시스템의 다중 반송파 신호에 대하여 역다중화/다중화화를 통한 주파수 대역 재할당의 방식에는 개별채널 방식, 다단트리 방식, 블록 방식이 있다. 본 논문에서는 다중 반송파 신호의 채널 대역을 가변할 수 있는 향상된 개별채널 처리 알고리즘을 제안한다. 제안된 알고리즘은 CIC 필터(cascaded integrator comb filter)와 half-band필터를 이용해 데시메이션(decimation)과 인터폴레이션(inter-polaration)을 수행하며, FIR low-pass필터를 통해 다중 반송파 신호에서 각 부채널을 필터링 (filtering)하여 채널 대역을 재할당한다. 전산모의 실험을 통해 역다중화와 다중화에 의해 가변 채널 대역의 변환이 효율적으로 이루어지는 것을 확인하였다.

한국어, 영어 그리고 독일어의 강화사: 비결속 용법을 중심으로 (Intensifiers in Korean, English and German: Focusing on their non-head-bound-use)

  • 최규련
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권2호
    • /
    • pp.31-58
    • /
    • 2003
  • The main goal of this paper is to describe and analyse intensifiers, especially non-head-bound-intensifiers (NHBIs), which can be included in the discussion and analysis of these elements as focus particles. In doing so, NHBIs such as Korean susulo, casin/cache, English x-self and German selbst are dealt with in a rather cross-linguistical perspective. The pure and strict comparison between Korean, English and German is not intended. This paper is mainly concerned with the semantic domain where the respective contributions of the expressions in question overlap, which offers the common base for the discussion regarding Korean, one of the non-European languages and English and German, two European languages. They share the semantic domain ‘intensification’ regarding relevant subject-NP. They introduce an ordering distinguishing center and periphery. In contrast to head-bound-intensifiers (HBIs), however, NHBIs add self-involvement (directness of involvement) of subject-NP to the meaning of the relevant sentence. I adopt the proposals of Konig (1991), Primus (1992) and Siemund (2000) in the treatment of intensifiers as focus particles. However, I reject Konig (1991) that just NHBIs talre scope over a whole clause, Primus (1992) that NHBIs focus VPs, not NPs, and Siemund (2000) that NHBIs can be further devided into two groups, viz. NHBIs with exclusive readings and NHBIs with inclusive readings. Evidence for my position is presented mainly in the course of describing and analysing some syntactic properties and the meaning and use of NHBIs. I come to the conclusion that both the common meaning of intensifiers as focus particles and the common meaning of NHBIs of three languages can be represented by a simple logical formalism.

  • PDF

DSP를 이용한 가라오케용 고음질 멀티채널 오디오 시스템 (High Quality Multi-Channel Audio System for Karaoke Using DSP)

  • 김태훈;박양수;신경철;박종인;문태정
    • 한국음향학회지
    • /
    • 제28권1호
    • /
    • pp.1-9
    • /
    • 2009
  • 본 논문에서는 멀티채널 라이브 가라오케의 구현에 관한 내용을 담고 있다. TI사의 32비트 floating 연산 DSP인 TMS320C6713를 이용하여 6 채널의 MP3 복호화 및 템포/키 변환을 실시간으로 구현하였다. 6채널은 전면 L/R 악기, 후면 L/R 악기, 멜로디, 우퍼로 구성되며, 4 채널로 동작 시에는 후면 L/R 대신 드럼 L/R이 추가될 수 있다. 최종 출력 데이터는 5.1 채널 스피커에 맞춰서 출력된다. 템포 변환을 위하여 SOLA알고리즘을 적용시켰으며 시간영역에서 인터폴레이션(interpolation)과 데시메이션 (decimation)으로 키 변환을 수행하였다. 드럼 악기가 추가될 경우에는 일반악기와 분리하여 키 변환 시에 드럼 채널을 제외시키고, SOLA (Synchronized Overlap and Add) 수행 시에도 SOLA처리 단위인 프레임 사이즈를 다르게 두어 고음질의 템포 변환이 가능하도록 하였으며, 실시간 처리를 위하여 최적화를 하였다 6 채널을 이용하여 다양한 채널 구성이 가능하며 본 논문의 멀티채널 오디오 시스템은 고음질의 라이브 반주가 필요한 어느 곳에서나 효과적으로 적용될 수 있다.

WSOLA를 이용한 동영상 미세배속 재생 서비스에 대한 콘텐츠별 배속 선호도 분석 연구 (A Study about the Users's Preferred Playing Speeds on Categorized Video Content using WSOLA method)

  • 김이길
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.291-298
    • /
    • 2015
  • 빠르게 발전하는 IT환경 속에서 이제 동영상 콘텐츠는 TV를 통한 일방 시청이 아니라 언제 어디서든 다양한 단말에서 볼 수 있는 VOD (Video on Demand) 형태로 발전하고 있다. 이러한 동영상 시청형태의 변화는 디지털이란 특성 때문에 동영상의 재생 속도 또한 다양하게 조절할 수 있다는 부가적인 장점을 사용자에게 제공 한다. 지루하고 따분한 동영상 콘텐츠는 빠르게 돌려보고 흥미 있는 장면은 느리게 천천히 볼 수 있는 동영상 미세배속 재생 기능은 오늘날 다양한 동영상 플레이어에서 제공되고 있다. 동영상 미세배속 재생 시 동영상 콘텐츠 내용의 정확한 이해를 위해서는 시각정보 못지않게 음성정보 청취가 중요한데 정상속도 보다 빠르거나 느린 재생 시 발생하는 음성의 왜곡을 줄이기 위한 음성미세배속 기술들이 음성처리 분야에서 꾸준히 발전되어 왔다. 본 논문에서는 이중 WSOLA와 같은 우수한 음성미세배속 알고리즘에 대해 알아보고 동영상 시청 시 이러한 기능 제공이 실제 얼마나 사용자 니즈(needs)에 부합하는 지 분석해보고자 한다. 특히, 동영상 콘텐츠를 사용자의 콘텐츠 소비 목적에 따라 종류별로 구분하여 재생 배속의 선호도를 조사하고 그 결과를 분석해 봄으로써 동영상 미세배속 기능 제공시 콘텐츠별 소비 목적에 맞게 재생 배속을 제공하는 것이 필요하다는 것을 제안하고자 한다.

고등학교 가정과학의 운영실태 및 교과에 대한 담당교사들의 인식 -부산시, 울산시, 경남지역 일반계 고등학교 가정과학 담당교사를 대상으로- (The Current Practices and Teacher's Perceptions of Highschool Home Economics Education -Focusing on Busan, Ulsan and Kyoungnam Area-)

  • 김상희
    • 한국가정과교육학회지
    • /
    • 제17권2호
    • /
    • pp.61-77
    • /
    • 2005
  • 본 연구는 부산시, 울산시, 경남지역에 소재하는 일반계 고등학교 중 여자고등학교와 남녀공학에 근무하는 가정과학 담당 교사 70명을 대상으로 가정과학의 운영실태와 교과에 대한 인식을 통하여 향후의 수시개정에 대비하고 보다 바람직한 가정과학의 교육방향을 제시하고자 하였다. 본 연구를 위한 자료수집은 2004년 10월 20일$\~$11월 26일까지에 걸쳐 조사대상학교로 설문지를 우송하는 우편설문조사 방법을 사용하였다. 본 연구의 결과를 통하여 보면, 가정과학은 여고일수록 총학급 규모가 클수록 가정과학을 이수하고 있었으며, 근무교사 수도 많았다. 수업내용으로 다루고자 하는 영역을 살펴보면, $70\%$의 교사들이 4-5개 대영역을 선택하고 있었으며, 그 중에서도 가족생활과 식생활 영역을 중점적으로 다루고자 하였다. 가정과학의 수업 시 가장 큰 애로사항은 학생들의 흥미부족과 참고서 부족으로 나타났다. 가정과학 고과에 대한 인식에서 교사들은 가정과학이 기술${\cdot}$가정과는 연계성이 높다고 보고 있었으며, 교과목 표면에서 진로와 직업탐색에서 취약한 것으로 인식하고 있었다. 가정과학의 교과내용에 대한 필요도는 전반적으로 높게 인식되었으나, 교사들이 본 학생들의 흥미도는 이에 미치지 못하였으며, 특히 가족생활과 식생활 영역에 관해서는 필요도와 흥미도가 상대적으로 높은 수준을 나타내었다. 반면에 기능을 많이 다루는 의생활과 주생활 영역에서는 필요도와 흥미도가 낮게 나타났다. 미래 요구도 면에서는 교과내용의 전반에 걸쳐서 다소의 수정/개선과 강화가 요구되고 있었는데, 그 중에서도 '소비자역할과 보호' 및 '가족의 영양과 건강' 에 대해서는 강화, '편물과 자수', '의복의 디자인과 제작'은 내용적 축소가 요구되고 있었다. 향후 추가되어야 할 내용으로는 최근의 가정 및 사회의 변화 현상을 반영할 필요가 제기되었고, 교사들은 가정과학이 지닌 문제점으로 교과내용의 과다, 중복, 진부성, 심화수준의 불충분함 등을 지적하고 있었다.

  • PDF

TMS320C5416을 이용한 G.729A 보코더와 계산량 감소된 SOLA-B 알고리즘을 통합한 가변 전송율 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Integrating G.729A Vocoder and Reduction of the Computational Amount SOLA-B Algorithm Using the TMS320C5416)

  • 함명규;배명진
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.84-89
    • /
    • 2003
  • 본 논문에서는 8kbps의 전송율을 가진 ITU-T C.729A 보코더에 Henja가 제안한 SOLA-B (Synchronized Overlap Add) 알고리즘을 적용하여 가변 전송율의 보코더를 TMS320C5416에 실시간 구현하였다. 이 방법은 부호화 시 SOLA-B 알고리즘을 이용하여 음성의 속도를 빠르게 해주고, 복호화 시 다시 SOLA-B 알고리즘을 이용하여 음성의 속도를 느리게 해줌으로써 정상속도의 음성을 재생시켜준다. 이때 SOLA-B 알고리즘의 계산량을 줄이기 위해 상호 상관 함수가 수행되는 샘플의 간격을 3 샘플씩 건너뛰면서 처리하였다. 실시간 구현된 G.729A 와 SOLA-B 알고리즘의 보코더는 8kbps 전송율일 때 인코더는 10.2MIPS이고 디코더에서는 2.8%MIPS의 최대 복잡도를 나타내었다. 그리고 6kbps 전송율일 때 인코더 18.3MIPS이고 디코더는 13.1MIPS의 최대 복잡도를 나타내었으며, 4kbps 전송율일 때 인코더 18.5MIPS이고 디코더에서 13.1MIPS의 최대 복잡도를 나타내었다. 사용된 메모리는 program ROM 9.7kwords, table ROM 4.5kwords, RAM 5.1kwords 정도이다. 출력된 파형은 C simulator와 Bit Exact 한 출력 결과를 보여주었다. 또한, 실시간 구현된 가변 전송율 보코더의 음질 평가를 위해 MOS 테스트를 수행한 결과 4kbp의 전송율에서 MOS값이 3.69정도로 측정되었다.

A modified U-net for crack segmentation by Self-Attention-Self-Adaption neuron and random elastic deformation

  • Zhao, Jin;Hu, Fangqiao;Qiao, Weidong;Zhai, Weida;Xu, Yang;Bao, Yuequan;Li, Hui
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.1-16
    • /
    • 2022
  • Despite recent breakthroughs in deep learning and computer vision fields, the pixel-wise identification of tiny objects in high-resolution images with complex disturbances remains challenging. This study proposes a modified U-net for tiny crack segmentation in real-world steel-box-girder bridges. The modified U-net adopts the common U-net framework and a novel Self-Attention-Self-Adaption (SASA) neuron as the fundamental computing element. The Self-Attention module applies softmax and gate operations to obtain the attention vector. It enables the neuron to focus on the most significant receptive fields when processing large-scale feature maps. The Self-Adaption module consists of a multiplayer perceptron subnet and achieves deeper feature extraction inside a single neuron. For data augmentation, a grid-based crack random elastic deformation (CRED) algorithm is designed to enrich the diversities and irregular shapes of distributed cracks. Grid-based uniform control nodes are first set on both input images and binary labels, random offsets are then employed on these control nodes, and bilinear interpolation is performed for the rest pixels. The proposed SASA neuron and CRED algorithm are simultaneously deployed to train the modified U-net. 200 raw images with a high resolution of 4928 × 3264 are collected, 160 for training and the rest 40 for the test. 512 × 512 patches are generated from the original images by a sliding window with an overlap of 256 as inputs. Results show that the average IoU between the recognized and ground-truth cracks reaches 0.409, which is 29.8% higher than the regular U-net. A five-fold cross-validation study is performed to verify that the proposed method is robust to different training and test images. Ablation experiments further demonstrate the effectiveness of the proposed SASA neuron and CRED algorithm. Promotions of the average IoU individually utilizing the SASA and CRED module add up to the final promotion of the full model, indicating that the SASA and CRED modules contribute to the different stages of model and data in the training process.