통합 검색 | Korea Science

객체기반 3차원 오디오 방송 시스템 설계 (The Design of Object-based 3D Audio Broadcasting System)

강경옥;장대영;서정일;정대권
- 한국음향학회지
- /
- 제22권7호
- /
- pp.592-602
- /
- 2003
본 논문은 오디오를 동반한 방송 서비스에 있어서 기존의 단순 청취형의 오디오 서비스에서 탈피한 대화형의 객체 기반 3차원 오디오 방송 시스템의 구조를 설명한다. 객체기반 3차원 오디오 방송 시스템은 3차원 오디오 입력부, 3차원 오디오 편집/제작부, 3차원 오디오 부호화부, 3차원 오디오 복호화부, 3차원 오디오 장면합성부 및 3차원 오디오 재생부로 구성된다. 오디오 입력부에서는 3차원 배경음 객체와 독립적인 오디오 객체들을 획득한다. 편집/제작부에서는 오디오 객체들에 대한 3차원 음상정위 및 오디오 이미지 생성을 위한 파라미터를 설정하고, 이들을 조합하여 3차원 오디오 장면을 편집/제작한다. 부호화부에서는 장면정보와 오디오 객체들을 부호화하고, 복호화부에서는 오디오 객체들을 복원하고 장면정보를 획득한다. 장면 합성부에서는 장면정보와 오디오 객체들을 이용하여 오디오 장면을 구성한다. 3차원 오디오 재생부에서는 3차원 오디오 객체들 재생하고, 사용자의 제어신호를 이용한 대화형 기능을 구현한다.
PDF KSCI

실시간 영상압축과 복원시스템을 위한 DWT기반의 영상처리 프로세서의 VLSI 설계 (VLSI Design of DWT-based Image Processor for Real-Time Image Compression and Reconstruction System)

서영호;김동욱
- 한국통신학회논문지
- /
- 제29권1C호
- /
- pp.102-110
- /
- 2004
본 논문에서는 이차원 이산 웨이블릿 변환을 이용한 실시간 영상 압축 및 복원 프로세서의 구조를 제안하고 ASIC(Application specific integrated circuit) 라이브러리를 이용하여 최소의 하드웨어로 구현하였다. 구현된 하드웨어에서 데이터 패스부는 웨이블릿 변환과 역변환을 수행하는 DWT 커널(Kernel)부, 양자화기 및 역양자화기, 허프만 엔코더 및 디코더, 웨이블릿 역변환 시 계수의 덧셈을 수행하는 덧셈기 및 버퍼, 그리고 입출력을 위한 인터페이스와 버퍼로 구성하였다. 제어부는 프로그래밍 레지스터와 명령어를 디코딩하여 제어 신호를 생성하는 주 제어부, 그리고 상태를 외부로 알리는 상태 레지스터로 구성된다. 프로그래밍 조건에 따라서 영상을 압축할 때의 출력은 웨이블릿 계수, 양자화 계수 혹은 양자화 인덱스, 그리고 허프만 코드 중에서 선택하여 발생할 수 있고 영상을 복원할 때의 출력은 허프만 디코딩 결과, 복원된 양자화 계수 그리고 복원된 웨이블릿 계수 중에서 선택하여 발생할 수 있다. 프로그래밍 레지스터는 총 16개로 구성되어 있는데 각각이 한번의 수직 혹은 수평 방향의 웨이블릿 변환을 수행할 수 있고 각각의 레지스터들이 차례대로 동작하기 때문에 4 레벨의 웨이브릿 변환을 한번의 프로그래밍으로 수행가능하다. 구현된 하드웨어는 Hynix 0.35m CMOS 공정의 합성 라이브러리를 가지고 Synopsys 합성툴을 이용하여 게이트 레벨의 네트리스트(Netlist)를 추출하였고 이 네트리스트로부터 Vela 툴을 이용하여 타이밍정보를 추출하였다. 추출된 네트리스트와 타이밍정보(sdf 파일)를 입력으로 하여 NC-Verilog를 이용하여 타이밍 시뮬레이션을 수행하여 구현된 회로를 검증하였다. 또한 Apollo 툴을 이용하여 PNR(Place and route) 및 레이아웃을 수행하였다. 구현된 회로는 약 5만 게이트의 적은 하드웨어 자원을 가지고 최대 80MHz에서 동작 가능하였다.
PDF KSCI

VVC의 화면간 가중 양예측(BCW)을 위한 효율적인 가중치 시그널링 기법 (An Efficient Weight Signaling Method for BCW in VVC)

박도현;윤용욱;이진호;강정원;김재곤
- 방송공학회논문지
- /
- 제25권3호
- /
- pp.346-352
- /
- 2020
표준화 마무리 단계인 차세대 비디오 부호화 표준 VVC(Versatile Video Coding)는 HEVC(High Efficiency Video Coding) 보다 두배 이상의 압축 성능을 달성하기 위해 다양한 기술들을 채택하고 있다. VVC는 GPB(Generalized P and B) 슬라이스에서의 양예측(bi-prediction) 기법의 성능 향상을 위하여 두 예측신호에 다양한 가중치를 적용하여 최종 예측신호를 생성하는 BCW(Bi-prediction with CU-level Weight)를 채택하였다. BCW 가중치는 가용한 참조픽처 중 재생 순서상 미래 픽처의 존재 유무를 지시하는 신택스(syntax) 요소인 NoBackwardPredFlag에 따라 적응적으로 시그널링 된다. 이러한 신택스 구조는 비디오 코덱의 유연성을 저해하고 비트스트림 파싱(parsing) 단계에서의 의존성 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위하여 가중치 전송에서 기존의 조건 판단 없이 가능한 모든 가중치를 허용하는 기법을 제안하였으며, 부호화기에서의 다양한 가중치 탐색을 통해 제안방법의 성능을 확인하였다. 제안된 기법은 제기된 문제를 해결하면서도 실험결과 3개의 가중치 탐색을 수행하였을 때 무시할 정도의 BD-rate 손실과 5개의 가중치 탐색을 수행하였을 때 다소의 부호화 성능 향상을 확인하였다.
https://doi.org/10.5909/JBE.2020.25.3.346 인용 PDF KSCI KPUBS

부분곱 압축단을 줄인 32${\times}$32 비트 곱셈기 (A 32${\times}$32-b Multiplier Using a New Method to Reduce a Compression Level of Partial Products)

홍상민;김병민;정인호;조태원
- 대한전자공학회논문지SD
- /
- 제40권6호
- /
- pp.447-458
- /
- 2003
고속동작을 하는 곱셈기는 DSP의 기본 블록 설계에 있어서 필수적이다. 전형적으로 신호처리분야에 있어서 반복 알고리듬은 다량의 곱셈연산을 필요로 하고, 이 곱셈연산을 첨가하고 실행하는데 사용된다. 본 논문은 32×32-b RST를 적용한 병렬 구조 곱셈기의 매크로 블록을 제시한다. Tree part의 속도를 향상시키기 위해 변형된 부분곱 발생 방법이 구조레벨에서 고안되었다. 이것은 4 레벨을 압축된 3 레벨로 줄였고, 4-2 압축기를 사용한 월리스 트리 구조에서도 지연시간을 감소시켰다. 또한, tree part가 CSA tree를 생성하기 위한 4개의 모듈러 블록과 결합이 되게 하였다. 그러므로 곱셈기 구조는 부스 셀렉터, 압축기, 새로운 부분곱 발생기(MPPG : Modified Partial Product Generator)로 구성된 같은 모듈에 규칙적으로 레이아웃 될 수 있다. 회로레벨에서 적은 트랜지스터 수와 엔코더로 구성된 새로운 부스 셀렉터가 제안되었다. 부스셀렉터에서의 트랜지스터 수의 감소는 전체 트랜지스터 수에 큰 영향을 끼친다. 설계된 셀렉터에는 9개의 PTL(Pass Transistor Logic)을 사용한다. 이것은 일반적인 트랜지스터 수의 감소와 비교했을 때 50% 줄인 것이다. 단일폴리, 5중금속, 2.5V, 0.25㎛ CMOS공정을 사용하여 설계하고, Hspice와 Epic으로 검증하였다. 지연시간은 4.2㎱, 평균 전력소모는1.81㎽/㎒이다. 이 결과들은 발표된 성능이 우수한 일반적인 곱셈기보다도 성능이 우수하다.
PDF KSCI

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

정현재;구자현;김회린
- 말소리와 음성과학
- /
- 제12권2호
- /
- pp.29-37
- /
- 2020
최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.
https://doi.org/10.13064/KSSS.2020.12.2.029 인용 PDF KSCI

검색결과 215건 처리시간 0.019초

객체기반 3차원 오디오 방송 시스템 설계 (The Design of Object-based 3D Audio Broadcasting System)

실시간 영상압축과 복원시스템을 위한 DWT기반의 영상처리 프로세서의 VLSI 설계 (VLSI Design of DWT-based Image Processor for Real-Time Image Compression and Reconstruction System)

VVC의 화면간 가중 양예측(BCW)을 위한 효율적인 가중치 시그널링 기법 (An Efficient Weight Signaling Method for BCW in VVC)

부분곱 압축단을 줄인 32${\times}$32 비트 곱셈기 (A 32${\times}$32-b Multiplier Using a New Method to Reduce a Compression Level of Partial Products)

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)