• 제목/요약/키워드: synthesis algorithm

검색결과 668건 처리시간 0.028초

적응적 시차 추정기법을 이용한 웹 기반의 원격 다시점 3D 화상 통신 시스템의 구현 (Implementation of Web-based Remote Multi-View 3D Imaging Communication System Using Adaptive Disparity Estimation Scheme)

  • 고정환;김은수
    • 한국통신학회논문지
    • /
    • 제31권1C호
    • /
    • pp.55-64
    • /
    • 2006
  • 본 논문에서는 실시간으로 입력되는 스테레오 영상에 효과적인 시차 추정 기법을 적용한 새로운 웹 기반의 원격 다시점 3D 화상 통신 시스템을 구현하였다. 제시된 방법에서는 먼저, IEEE 1394 방식의 스테레오 카메라를 이용하여 자체 설계된 Intel Xeon 서버 시스템을 통해 실시간으로 입력되며, 입력된 스테레오 영상을 중심으로 특징점의 크기에 따라 세밀하면서도 정확한 시차 지도를 검출한 뒤, 검출된 시차지도와 좌 영상을 Directshow SDK를 이용하여 네트워크 채널로 연결된 클라이언트 영역으로 전송하게 된다. 전송된 클라이언트 영역에서는 수신된 시차지도와 좌 영상을 중심으로 정확한 우 영상을 복원한 뒤, 중간시점 합성 기법을 이용하여 16시점의 다시점 입체 화상 통신을 이루게 된다. 각기 다른 상황에서 촬영된 'Joo' 영상과 'Hoon'영상을 웹 기반의 실시간 전송 및 중간영상 합성 실험결과, 본 논문에서 제안된 전송기법으로 우 영상을 복원할 경우 각각 30dB, 27dB의 높은 PSNR이 측정되었으며, 4시점의 8비트 영상을 전송할 경우, 각각 67.2ms의 속도로 디스플레이 함으로써 이를 통한 새로운 실시간 웹 기반의 원격 3D 화상 통신 시스템의 실질적인 구현 가능성을 제시하였다.

철도노선관리에서의 LIDAR 데이터 기반의 3차원 궤적 모델 생성 및 적용 (3D Track Models Generation and Applications Based on LiDAR Data for Railway Route Management)

  • 연상호;이영대
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2007년도 추계학술대회 논문집
    • /
    • pp.1099-1104
    • /
    • 2007
  • 3차원 국토환경의 디지털기반의 가시화는 국토계획 및 통신설비계획, 철도건설, 건축, 입체적인 도시공간정보시스템 구현, 안전 및 방재 등에서 많은 필요와 그 중요성이 크게 부각되고 있다. 현재 국가지리정보 사업으로 완성된 2차원적인 지도정보와 시설정보를 3차원의 도시공간으로 재현하기 위하여 기존의 등고선을 이용한 DEM 방식은 많은 한계를 가지고 있으며, 특히, 철도와 같은 노선 폭이 좁고 길이가 길어서 궤적 관리가 어려운 작은 구조물의 경우에는 그 고도모델이 무시되기 쉬우므로, 레이져 측량기술을 이용한 공간대상물에 대한 높은 정확도 취득이 크게 필요한 실정이다. 최근에는 레이져 측량기술과 GPS를 결합한 고밀도 고정도의 높이 값을 얻을 수 있는 LiDAR Data의 획득으로 그러한 한계를 극복하고 있는 추세이다. 비교적 LiDAR 관련 연구가 활발한 해외 선진기술을 연구하고 우리 실정에 적합한 3차원 지형 및 철도시설의 분석이 가능하도록 데이터의 생성기법 및 알고리즘을 개발하여 3차원 공간에서의 최적의 노선관리가 가능하도록 하였다. 이를 위하여 LiDAR Data를 중심으로 하는 높이 값을 DEM으로 변환하고, 디지털 영상의 매칭 및 정확도 평가 등을 통한 벡터와 래스터의 실시간 통합 및 전환으로 장거리 노선에서의 3차원 철도 모델의 생성을 통한 추적관리가 가능하도록 하였다.

  • PDF

후두암 감별진단에 있어 성문전도(Electroglottograph) 파라미터의 유용성 (The Effectiveness of Electroglottographic Parameters in Differential Diagnosis of Laryngeal Cancer)

  • 송인무;고의경;전경명;권순복;김기련;전계록;김광년;정동근;조철우
    • 대한후두음성언어의학회지
    • /
    • 제14권1호
    • /
    • pp.16-25
    • /
    • 2003
  • 후두암은 유병율이 높지만 조기에 발견하면 90% 이상의 치유율과 발성기능의 보존이 가능하며 현재 음성분석을 이용한 진단법이 시도되고 있으나 정립된 선별검사법은 없는 실정이다. 성문전도검사(electroglottography, EGG)는 성대의 진동양상을 알 수 있는 비침습적 검사로서 발성과 음성합성의 연구에 많이 사용되고 있다. 본 연구는 EGG에서 관찰되는 파라미터들을 다층 퍼셉트론(multilayer perceptron)구조의 신경회로망(artificial neural network)으로 감별하는 기법을 이용하여 후두암 감별법에 대한 연구로서 부산대학교병원을 내원한 후두암 환자 10명과 양성후두질환 26명을 대상으로 새로 고안한 Electroglottograph(v1.0)를 이용하여 검사하고 이의 임상적 유용성을 평가하였다. EGG 파라미터인 closed quotient(CQ), speed quotient(SQ), speed index(SI), fundamental frequency(F0), Jitter, Shimmer 등은 MATLAB 6.5 (Mathwork, Inc.)로 작성한 분석 프로그램을 이용하여 추출하였다. 각 환자에서 추출된 EGG 파라미터들을 다층 퍼셉트론 구조의 신경회로망으로 감별하였다. CQ는 각 질환군 간에 유의한 차이가 없었지만 SQ, SI, Jitter, Shimmer 등은 성대질환의 특성에 따라 유의한 차이를 보였다. 신경회로망에서 감별한 결과 CQ를 제외한 SQ, SI, Jitter, Shimmer 등에서 71.3-90%의 후두암의 감별율을 보였다. 또한 SQ, SI, Jitter, Shimmer를 3개씩 조합한 실험에서는 SQ-Jitter-Shimmer와 SQ-SI-Shimmer의 후두암의 감별율이 93%로 가장 높았고, SQ-SI-Jitter 90.9%, SI-Jitter-Shimmer 88.6%로 전체적으로 85% 이상의 높은 감별율을 나타내었다. 이러한 결과는 EGG검사와 신경회로망을 이용한 양성과 악성 후두질환의 감별이 가능함을 시사한다. 향후 성대 질환의 병태생리를 대변할 수 있는 파라미터가 추가로 개발되고 분류 알고리듬이 개선된다면 EGG를 이용한 성대질환의 감별 진단이 보다 정확해질 것으로 사료되었다.

  • PDF

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화 (Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2001
  • 본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

  • PDF

최적화된 탐색기법을 이용한 고성능 H.264/AVC CAVLC 부호화기 구조 설계 기법 (Architecture Design of High Performance H.264 CAVLC Encoder Using Optimized Searching Technique)

  • 이양복;정홍균;김창호;명제진;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.431-435
    • /
    • 2011
  • 본 논문에서는 H.264/AVC CAVLC 부호기의 성능 향상을 위해 변환계수의 재정렬 과정이 필요 없는 탐색기법을 제안한다. 기존의 CAVLC 부호기는 변환계수의 재정렬 과정이 포함되어 변환계수를 저장해야 할 버퍼와 버퍼제어를 위한 추가적인 사이클이 필요하므로 하드웨어 면적이 증가하고 불필요한 사이클이 수행된다. 제안한 탐색기법은 CAVLC의 파라미터 중에 Level을 역방향 탐색기법으로 계산하고 그 외 파라미터들은 순방향 탐색기법으로 계산하여 변환계수의 재정렬 과정을 수행하지 않는다. 또한, 제안한 CAVLC 부호기에 조기 종료 모드를 적용하고 3단 파이프라인 구조를 사용하여 CAVLC의 수행 사이클 수를 감소시켰다. 제안한 CAVLC의 하드웨어 구조를 매그나칩 공정 $0.18{\mu}m$ 셀라이브러리로 합성한 결과, 최대동작 주파수는 125MHz이며 게이트 수는 15.6k이다. 제안한 CAVLC의 하드웨어 구조를 H.264/AVC 표준 참조 소프트웨어 JM13.2에서 추출한 데이터를 이용하여 테스트한 결과, $16{\times}16$ 매크로블록을 처리하는데 평균적으로 66.6사이클이 소요되어 기존의 CAVLC 부호기보다 성능이 13.8% 향상됨을 확인하였다.

  • PDF

콜라주 기법으로 해석한 비디오 생성 (Video-to-Video Generated by Collage Technique)

  • 조형래;박구만
    • 방송공학회논문지
    • /
    • 제26권1호
    • /
    • pp.39-60
    • /
    • 2021
  • 딥러닝 분야 중 생성과 관련된 연구는 주로 GAN 이후에 많은 알고리즘이 있는데 생성이라는 측면에서 볼 때 미술과는 다른 점이 있다. 공학적 측면에서의 생성이 주로 정량적 지표나 정답과 오답의 유무를 판단하는 것이라면 미술적 측면에서의 생성이란 다양한 관점에서 정답과 오답을 교차검증하고 의심하여 세상과 인간의 삶을 해석하는 생성을 만들어낸다. 본 논문은 딥러닝의 비디오 생성능력을 콜라주적 관점에서 해석하고 미술작가가 만든 결과물과 비교하였다. 실험의 특징은 콜라주 기법으로 만든 창작자의 결과물을 GAN이 얼마만큼 재현하는지와 창작적인 부분과의 차이점을 비교분석하는 것이고, GAN의 재현력에 대한 성능 평가항목을 만들어 그 만족도를 조사하였다. 창작자의 스테이트먼트와 표현목적을 얼마나 재현했는지에 관한 실험을 위해서는 스테이트먼트 키워드에 해당하는 딥러닝 알고리즘을 찾아 그 유사성을 비교하였으며, 실험결과 GAN은 콜라주 기법을 표현하기에는 기대에 많이 못 미쳤다. 그럼에도 불구하고 이미지 연상에서는 인간의 능력보다 높은 만족도를 보여주었는데 이것은 GAN의 추상화 생성 측면에서 인간과 비견할만한 능력을 보일 수 있다는 긍정적인 발견이라고 하겠다.

Cycle-Consistent Generative Adversarial Network: Effect on Radiation Dose Reduction and Image Quality Improvement in Ultralow-Dose CT for Evaluation of Pulmonary Tuberculosis

  • Chenggong Yan;Jie Lin;Haixia Li;Jun Xu;Tianjing Zhang;Hao Chen;Henry C. Woodruff;Guangyao Wu;Siqi Zhang;Yikai Xu;Philippe Lambin
    • Korean Journal of Radiology
    • /
    • 제22권6호
    • /
    • pp.983-993
    • /
    • 2021
  • Objective: To investigate the image quality of ultralow-dose CT (ULDCT) of the chest reconstructed using a cycle-consistent generative adversarial network (CycleGAN)-based deep learning method in the evaluation of pulmonary tuberculosis. Materials and Methods: Between June 2019 and November 2019, 103 patients (mean age, 40.8 ± 13.6 years; 61 men and 42 women) with pulmonary tuberculosis were prospectively enrolled to undergo standard-dose CT (120 kVp with automated exposure control), followed immediately by ULDCT (80 kVp and 10 mAs). The images of the two successive scans were used to train the CycleGAN framework for image-to-image translation. The denoising efficacy of the CycleGAN algorithm was compared with that of hybrid and model-based iterative reconstruction. Repeated-measures analysis of variance and Wilcoxon signed-rank test were performed to compare the objective measurements and the subjective image quality scores, respectively. Results: With the optimized CycleGAN denoising model, using the ULDCT images as input, the peak signal-to-noise ratio and structural similarity index improved by 2.0 dB and 0.21, respectively. The CycleGAN-generated denoised ULDCT images typically provided satisfactory image quality for optimal visibility of anatomic structures and pathological findings, with a lower level of image noise (mean ± standard deviation [SD], 19.5 ± 3.0 Hounsfield unit [HU]) than that of the hybrid (66.3 ± 10.5 HU, p < 0.001) and a similar noise level to model-based iterative reconstruction (19.6 ± 2.6 HU, p > 0.908). The CycleGAN-generated images showed the highest contrast-to-noise ratios for the pulmonary lesions, followed by the model-based and hybrid iterative reconstruction. The mean effective radiation dose of ULDCT was 0.12 mSv with a mean 93.9% reduction compared to standard-dose CT. Conclusion: The optimized CycleGAN technique may allow the synthesis of diagnostically acceptable images from ULDCT of the chest for the evaluation of pulmonary tuberculosis.