• 제목/요약/키워드: Multi-task Architecture

검색결과 63건 처리시간 0.024초

시간지연 회귀 신경회로망을 이용한 피치 악센트 인식 (Automatic Recognition of Pitch Accents Using Time-Delay Recurrent Neural Network)

  • Kim, Sung-Suk;Kim, Chul;Lee, Wan-Joo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권4E호
    • /
    • pp.112-119
    • /
    • 2004
  • This paper presents a method for the automatic recognition of pitch accents with no prior knowledge about the phonetic content of the signal (no knowledge of word or phoneme boundaries or of phoneme labels). The recognition algorithm used in this paper is a time-delay recurrent neural network (TDRNN). A TDRNN is a neural network classier with two different representations of dynamic context: delayed input nodes allow the representation of an explicit trajectory F0(t), while recurrent nodes provide long-term context information that can be used to normalize the input F0 trajectory. Performance of the TDRNN is compared to the performance of a MLP (multi-layer perceptron) and an HMM (Hidden Markov Model) on the same task. The TDRNN shows the correct recognition of $91.9{\%}\;of\;pitch\;events\;and\;91.0{\%}$ of pitch non-events, for an average accuracy of $91.5{\%}$ over both pitch events and non-events. The MLP with contextual input exhibits $85.8{\%},\;85.5{\%},\;and\;85.6{\%}$ recognition accuracy respectively, while the HMM shows the correct recognition of $36.8{\%}\;of\;pitch\;events\;and\;87.3{\%}$ of pitch non-events, for an average accuracy of $62.2{\%}$ over both pitch events and non-events. These results suggest that the TDRNN architecture is useful for the automatic recognition of pitch accents.

음성합성을 위한 C-ToBI기반의 중국어 운율 경계와 F0 contour 생성 (Chinese Prosody Generation Based on C-ToBI Representation for Text-to-Speech)

  • 김승원;정옥;이근배;김병창
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.75-92
    • /
    • 2005
  • Prosody Generation Based on C-ToBI Representation for Text-to-SpeechSeungwon Kim, Yu Zheng, Gary Geunbae Lee, Byeongchang KimProsody modeling is critical in developing text-to-speech (TTS) systems where speech synthesis is used to automatically generate natural speech. In this paper, we present a prosody generation architecture based on Chinese Tone and Break Index (C-ToBI) representation. ToBI is a multi-tier representation system based on linguistic knowledge to transcribe events in an utterance. The TTS system which adopts ToBI as an intermediate representation is known to exhibit higher flexibility, modularity and domain/task portability compared with the direct prosody generation TTS systems. However, the cost of corpus preparation is very expensive for practical-level performance because the ToBI labeled corpus has been manually constructed by many prosody experts and normally requires a large amount of data for accurate statistical prosody modeling. This paper proposes a new method which transcribes the C-ToBI labels automatically in Chinese speech. We model Chinese prosody generation as a classification problem and apply conditional Maximum Entropy (ME) classification to this problem. We empirically verify the usefulness of various natural language and phonology features to make well-integrated features for ME framework.

  • PDF

Hot Spot Detection of Thermal Infrared Image of Photovoltaic Power Station Based on Multi-Task Fusion

  • Xu Han;Xianhao Wang;Chong Chen;Gong Li;Changhao Piao
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.791-802
    • /
    • 2023
  • The manual inspection of photovoltaic (PV) panels to meet the requirements of inspection work for large-scale PV power plants is challenging. We present a hot spot detection and positioning method to detect hot spots in batches and locate their latitudes and longitudes. First, a network based on the YOLOv3 architecture was utilized to identify hot spots. The innovation is to modify the RU_1 unit in the YOLOv3 model for hot spot detection in the far field of view and add a neural network residual unit for fusion. In addition, because of the misidentification problem in the infrared images of the solar PV panels, the DeepLab v3+ model was adopted to segment the PV panels to filter out the misidentification caused by bright spots on the ground. Finally, the latitude and longitude of the hot spot are calculated according to the geometric positioning method utilizing known information such as the drone's yaw angle, shooting height, and lens field-of-view. The experimental results indicate that the hot spot recognition rate accuracy is above 98%. When keeping the drone 25 m off the ground, the hot spot positioning error is at the decimeter level.

스냅샷을 가지는 다중 레벨 공간 DBMS를 기반으로 하는 센서 미들웨어 구조 설계 (Design of Sensor Middleware Architecture on Multi Level Spatial DBMS with Snapshot)

  • 오은석;김호석;김재홍;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권1호
    • /
    • pp.1-16
    • /
    • 2006
  • 최근 들어, 사용자가 주변 환경 및 요구 정보의 변화를 의식하지 않고 작업 환경과 수행하는 일에 집중하도록 배려하는 인간 중심 컴퓨팅 환경에 대한 연구 개발이 활발히 진행되고 있다. 그러나 이러한 컴퓨팅 환경에서 미들웨어는 사용자에게 RFID센서로부터 들어오는 대량의 정보에 대한 처리 부하를 줄이기 위하여 분석이 끝난 스트림 데이터를 삭제한다. 따라서 사용자의 데이터 웨어하우징이나 데이터마이닝에 필요한 확률, 통계 정보에 대한 요청, 또는 반복적이면서 동일한 데이터에 대한 요청을 처리할 수 없다는 문제점을 가진다. 본 논문에서는 기존의 미들웨어에서 문제가 되었던 과거 스트림 데이터 재사용 문제를 해결하기 위해, 사용자가 빈번하게 요구하는 데이터들을 스냅샷을 가지는 다중 레벨 공간 DBMS에서 관리하는 센서미들웨어 구조를 설계하였다. 본 시스템은 사용자가 요구하는 데이터 마이닝이나 데이터 웨어하우징과 같은 과거 스트림 정보를 사용한 서비스 요청을 위해, 미들웨어에서 필터링된 과거 스트림 데이터를 디스크 데이터베이스에서 관리한다. 그리고 디스크 데이터베이스에 저장된 스트림 데이터 중에서 사용자에 대한 높은 재사용 빈도를 가지는 데이터들을 스냅샷의 형태로 메모리 데이터베이스에 저장하고 이를 관리한다. 또한, 본 시스템은 메모리 데이터베이스에 저장된 스냅샷 데이터의 높은 데이터 재사용성과 신속한 서비스를 유지하기 위해서 주기적인 메모리 데이터베이스 관리 정책을 수행한다. 본 논문은 기존의 미들웨어에서의 스트림 데이터에 대한 반복적인 요청, 또는 과거 스트림 데이터를 이용한 정책 결정 서비스 요청에 대한 서비스를 제공할 수 없는 문제들을 해결하였다. 그리고 메모리에 저장된 데이터에 대한 높은 데이터 재사용성을 유지함으로서 사용자에게 지속적으로 다양하고 신속한 데이터 서비스를 제공한다.

  • PDF

Path Computation Element 프로토콜 (PCEP)의 설계 및 구현 - FSM과 인터페이스 (Design and Implementation of Path Computation Element Protocol (PCEP) - FSM and Interfaces)

  • 이원혁;강승애;김현철
    • 융합보안논문지
    • /
    • 제13권4호
    • /
    • pp.19-25
    • /
    • 2013
  • 백본(코어) 네트워크에서 유연하고 안정적인 품질이 보장되는 서비스 제공에 대한 요구가 폭발적으로 증가하면서 이러한 요구를 수용하기 위해 제어평면의 프로토콜로 MPLS/GMPLS가 도입되었다. GMPLS 기반 제어평면에서 경로계산 및 상호연동 기능은 최적의 서비스 품질을 제공하기 위한 핵심기술 중의 하나이다. 이를 위해 IETF에서는 Path Computation Element (PCE) 구조를 제안하였다. PCE는 경로계산 전용의 네트워크 요소이며 경로계산을 요청하는 Path Computation Clients (PCC) 와 경로계산을 수행하는 PCE 간의 통신은 PCE 프로토콜 (PCEP)을 이용한다. 본 논문은 PCE 기반 경로계산 구조에 대해서 살펴보고 이를 기반으로 PCEP 설계 및 구현을 위한 몇 가지 요소를 제시하였다. 우선 본 논문에서는 PCEP Finite State Machine (FSM)을 포함하여 각 상태에서 필요한 동작 요소를 정리하였다. 또한 본 논문에서는 PCEP에서 제공하는 통신 채널을 효과적으로 제어하기 위한 내부/외부 인터페이스를 더불어 제안하였다.

네트워크 프로세서 기반 고성능 네트워크 침입 탐지 엔진에 관한 연구 (An Implementation of Network Intrusion Detection Engines on Network Processors)

  • 조혜영;김대영
    • 한국정보과학회논문지:정보통신
    • /
    • 제33권2호
    • /
    • pp.113-130
    • /
    • 2006
  • 초고속 인터넷 망이 빠른 속도로 구축이 되고, 네트워크에 대한 해커나 침입자들의 수가 급증함에 따라, 실시간 고속 패킷 처리가 가능한 네트워크 침입 탐지 시스템이 요구되고 있다. 본 논문에서는 일반적으로 소프트웨어 방식으로 구현된 침입 탐지 시스템을 고속의 패킷 처리에 뛰어난 성능을 가지고 있는 네트워크 프로세서를 이용하여 재설계 및 구현하였다. 제한된 자원과 기능을 가지는 다중 처리 프로세서(Multi-processing Processor)로 구성된 네트워크 프로세서에서 고성능 침입 탐지 시스템을 실현하기 위하여, 최적화된 자료구조와 알고리즘을 설계하였다. 그리고 더욱 효율적으로 침입 탐지 엔진을 스케줄링(scheduling)하기 위한 침입 탐지 엔진 할당 기법을 제안하였으며, 구현과 성능 분석을 통하여 제안된 기법의 적절성을 검증하였다.

MPSoC용 임베디드 소프트웨어의 PSM 모델링 및 시뮬레이션 (Modeling and Simulation of Platform Specific Model in MPSoC Environment)

  • 송인권;오기영;홍장의;배두환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권8호
    • /
    • pp.697-707
    • /
    • 2007
  • 임베디드 소프트웨어는 탑재될 하드웨어 아키텍처에 매우 의존적이기 때문에 플랫폼 특성을 고려한 소프트웨어 설계가 이루어져야 한다. 본 연구에서는 MPSoC(Multi Processor System On Chip)용 플랫폼에 탑재될 임베디드 소프트웨어의 PIM(Platform Independent Model)을 PSM(Platform Specific Model)에 매핑하기 위한 기법을 제안하고, 매핑 결과에 대한 시뮬레이션을 통해 매핑 기법의 유효성을 검사하였다. 제안하는 방법은 UML(Unified Modeling Language) 기반의 객체지향 모델로부터 태스크를 도출하여 이 기종의 하드웨어 컴포넌트로 구성된 MPSoC 플랫폼에 할당하기 위한 것으로써, 할당의 정확성 및 신속성과 소프트웨어 병렬성을 극대화 할 수 있는 장점을 제공한다.

다중 DSP 구조의 Morocco-2 보드를 이용한 확장성을 갖는 펄스 도플러 레이다 신호처리기 구현 (Realization of the Pulse Doppler Radar Signal Processor with an Expandable Feature using the Multi-DSP Based Morocco-2 Board)

  • 조명제;임중수
    • 한국전자파학회논문지
    • /
    • 제12권7호
    • /
    • pp.1147-1156
    • /
    • 2001
  • 본 논문에서는 레이다 수신신호의 거리 및 방위 방항 데이터의 위상 연속성을 유지하면서 프로세서간의 데이터 전송량을 최소화하는 레이다 신호처리기 구조를 제안하였다. 이는 레이다 기능 알고리듬의 추가나 운용 시나리오 변경 등에 의한 하드웨어 재구성이나 확장이 용이한 다중 DSP 구조의 프로그램 가능한 레이다 신호처리기 이다. 기능 알고리듬 수행 및 신호처리 결과 데이터 전송 소요시간을 측정하여 병열 분산처리 가능한 타스크 구조로 신호처리기를 설계함으로써, 레이다의 기능 알고리듬 수행시 프로세서간 데이터 교환을 필요없게 하였다. 레이다 신호처리기를 구현하기 위하여 아날로그 디바이스사의 ADSP-21060 프로세서가 탑재된 스리트럼사의 Morocco-2 보드와 병렬처리 소프트웨어 개발 도구인 APEX-3.2를 이용하였다.

  • PDF

ARM 프로세서 기반의 리눅스를 위한 실시간 확장 커널 (RTiKA, Real-Time implant Kernel for ARMLinux) (Real-Time Kernel for Linux based on ARM Processor, RTiKA (Real-Time Implant Kernel For ARMLinux))

  • 이승율;이상길;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제17권10호
    • /
    • pp.587-597
    • /
    • 2017
  • 최근 하드웨어의 발전으로 모바일 환경에서 리눅스나 안드로이드 같은 범용 운영체제 환경에서 실시간성의 요구가 증가하고 있으나, 범용운영체제의 경우 실시간성을 제공하지 못하는 단점이 있다. 이를 해결하기 위해 리눅스에 부가적으로 설계된 RTiK(Real-Time implanted Kernel)을 통해 실시간성을 제공할 수 있으나, 기존 RTiK의 경우 x86 아키텍처만을 제공하는 단점이 있으며, 실시간성 지원을 위해서는 CPU 플랫폼에 종속되는 한계가 있다. 본 논문에서는 CPU 플랫폼 이식을 위해 ARM 아키텍쳐를 위한 실시간 확장커널인 RTiKA(Real-Time implant Kernel for ARMLinux)을 설계 및 구현한다. 실시간성 제공을 위해 독립적인 Local APIC Timer를 대체하는 MCT 타이머를 이용하였으며, 성능 검증 및 평가를 위해 생성된 실시간 태스크의 주기를 측정하였고, 1ms 단위의 주기를 바탕으로 여러 개의 실시간 태스크에 대한 동작을 보장할 수 있었다.

Lightweight Attention-Guided Network with Frequency Domain Reconstruction for High Dynamic Range Image Fusion

  • 박재현;이근택;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.205-208
    • /
    • 2022
  • Multi-exposure high dynamic range (HDR) image reconstruction, the task of reconstructing an HDR image from multiple low dynamic range (LDR) images in a dynamic scene, often produces ghosting artifacts caused by camera motion and moving objects and also cannot deal with washed-out regions due to over or under-exposures. While there has been many deep-learning-based methods with motion estimation to alleviate these problems, they still have limitations for severely moving scenes. They also require large parameter counts, especially in the case of state-of-the-art methods that employ attention modules. To address these issues, we propose a frequency domain approach based on the idea that the transform domain coefficients inherently involve the global information from whole image pixels to cope with large motions. Specifically we adopt Residual Fast Fourier Transform (RFFT) blocks, which allows for global interactions of pixels. Moreover, we also employ Depthwise Overparametrized convolution (DO-conv) blocks, a convolution in which each input channel is convolved with its own 2D kernel, for faster convergence and performance gains. We call this LFFNet (Lightweight Frequency Fusion Network), and experiments on the benchmarks show reduced ghosting artifacts and improved performance up to 0.6dB tonemapped PSNR compared to recent state-of-the-art methods. Our architecture also requires fewer parameters and converges faster in training.

  • PDF