• 제목/요약/키워드: Normalization Transform

검색결과 70건 처리시간 0.028초

정지영상 압축을 위한 인공신경망 내 비선형 변환 계층 분석 (A study on nonlinear transform layers in neural networks for image compression)

  • 이주영;조승현;김휘용;최진수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.267-269
    • /
    • 2018
  • 인공신경망의 확산 및 보급에 따라 적용 영역이 확대되고 있으며 여러 분야에서 획기적인 성능 향상을 이루고 있다. 영상 압축 분야의 기술개발은 기존 코덱 구조 내 각 요소기술의 성능향상을 위한 인공신경망 기술 분야와 기존 코덱 구조가 아닌 end-to-end 학습을 통한 인공신경망 기반 기술 분야로 나뉘어 진행되고 있다. 본 논문에서는 end-to-end 학습을 통한 인공신경망 기술의 비선형 변환 계층 중 GDN(generalized divisive normalization) 계층이 영상 압축에 미치는 영향을 분석한다.

  • PDF

On Coefficients of a Certain Subclass of Starlike and Bi-starlike Functions

  • Mahzoon, Hesam;Sokol, Janusz
    • Kyungpook Mathematical Journal
    • /
    • 제61권3호
    • /
    • pp.513-522
    • /
    • 2021
  • In this paper we investigate a subclass 𝓜(α) of the class of starlike functions in the unit disk |z| < 1. 𝓜(α), π/2 ≤ α < π, is the set of all analytic functions f in the unit disk |z| < 1 with the normalization f(0) = f'(0) - 1 = 0 that satisfy the condition $$1+\frac{{\alpha}-{\pi}}{2\;sin\;{\alpha}}. The class 𝓜(α) was introduced by Kargar et al. [Complex Anal. Oper. Theory 11: 1639-1649, 2017]. In this paper some basic geometric properties of the class 𝓜(α) are investigated. Among others things, coefficients estimates and bound are given for the Fekete-Szegö functional associated with the k-th root transform [f(zk)]1/k. Also a certain subclass of bi-starlike functions is introduced and the bounds for the initial coefficients are obtained.

시점 불변인 특징과 확률 그래프 모델을 이용한 인간 행위 인식 (Human Activity Recognition using View-Invariant Features and Probabilistic Graphical Models)

  • 김혜숙;김인철
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.927-934
    • /
    • 2014
  • 본 논문에서는 Kinect와 같은 RGB-D 센서를 이용하여 사람의 3차원 신체 포즈 스트림 데이터를 생성하고, 이로부터 사람의 일상 행위를 효과적으로 인식하는 방법을 제안한다. Kinect SDK나 OpenNI에서 제공하는 실시간 신체 포즈 데이터는 Kinect 중심의 3차원 데카르트 좌표계로 표현되기 때문에, 시점 변화 문제와 크기 변화 문제를 겪을 가능성이 높다. 이러한 문제를 해결하고 시점 및 크기 불변인 특징을 얻기 위해, 본 논문에서는 신체 포즈 데이터를 실험자의 골반을 원점으로 하는 구면 좌표계로 변환하고 실험자의 팔 길이를 이용한 크기 정규화를 수행한다. 또한, 본 논문에서는 확률 그래프 모델 중 하나인 은닉 조건부 랜덤 필드를 이용하여, 고수준의 일상 행위들이 내포하는 다양한 내부 구조를 효과적으로 표현한다. 두 가지 데이터 집합 KAD-70과 CAD-60을 이용한 실험을 통해, 본 논문에서 제안한 행위 인식 방법과 구현 시스템의 높은 인식 성능을 확인하였다.

켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 (Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum)

  • 김유진;정혜경;정재호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.361-373
    • /
    • 2002
  • 본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

Non-Destructive Sorting Techniques for Viable Pepper (Capsicum annuum L.) Seeds Using Fourier Transform Near-Infrared and Raman Spectroscopy

  • Seo, Young-Wook;Ahn, Chi Kook;Lee, Hoonsoo;Park, Eunsoo;Mo, Changyeun;Cho, Byoung-Kwan
    • Journal of Biosystems Engineering
    • /
    • 제41권1호
    • /
    • pp.51-59
    • /
    • 2016
  • Purpose: This study examined the performance of two spectroscopy methods and multivariate classification methods to discriminate viable pepper seeds from their non-viable counterparts. Methods: A classification model for viable seeds was developed using partial least square discrimination analysis (PLS-DA) with Fourier transform near-infrared (FT-NIR) and Raman spectroscopic data in the range of $9080-4150cm^{-1}$ (1400-2400 nm) and $1800-970cm^{-1}$, respectively. The datasets were divided into 70% to calibration and 30% to validation. To reduce noise from the spectra and compare the classification results, preprocessing methods, such as mean, maximum, and range normalization, multivariate scattering correction, standard normal variate, and $1^{st}$ and $2^{nd}$ derivatives with the Savitzky-Golay algorithm were used. Results: The classification accuracies for calibration using FT-NIR and Raman spectroscopy were both 99% with first derivative, whereas the validation accuracies were 90.5% with both multivariate scattering correction and standard normal variate, and 96.4% with the raw data (non-preprocessed data). Conclusions: These results indicate that FT-NIR and Raman spectroscopy are valuable tools for a feasible classification and evaluation of viable pepper seeds by providing useful information based on PLS-DA and the threshold value.

Multiple-image Encryption and Multiplexing Using a Modified Gerchberg-Saxton Algorithm in Fresnel-transform Domain and Computational Ghost Imaging

  • Peiming Zhang;Yahui Su;Yiqiang Zhang;Leihong Zhang;Runchu Xu;Kaimin Wang;Dawei Zhang
    • Current Optics and Photonics
    • /
    • 제7권4호
    • /
    • pp.362-377
    • /
    • 2023
  • Optical information processing technology is characterized by high speed and parallelism, and the light features short wavelength and large information capacity; At the same time, it has various attributes including amplitude, phase, wavelength and polarization, and is a carrier of multi-dimensional information. Therefore, optical encryption is of great significance in the field of information security transmission, and is widely used in the field of image encryption. For multi-image encryption, this paper proposes a multi-image encryption algorithm based on a modified Gerchberg-Saxton algorithm (MGSA) in the Fresnel-transform domain and computational ghost imaging. First, MGSA is used to realize "one code, one key"; Second, phase function superposition and normalization are used to reduce the amount of ciphertext transmission; Finally, computational ghost imaging is used to improve the security of the whole encryption system. This method can encrypt multiple images simultaneously with high efficiency, simple calculation, safety and reliability, and less data transmission. The encryption effect of the method is evaluated by using correlation coefficient and structural similarity, and the effectiveness and security of the method are verified by simulation experiments.

영상처리 기법을 통한 RBFNN 패턴 분류기 기반 개선된 지문인식 시스템 설계 (Design of Fingerprints Identification Based on RBFNN Using Image Processing Techniques)

  • 배종수;오성권;김현기
    • 전기학회논문지
    • /
    • 제65권6호
    • /
    • pp.1060-1069
    • /
    • 2016
  • In this paper, we introduce the fingerprint recognition system based on Radial Basis Function Neural Network(RBFNN). Fingerprints are classified as four types(Whole, Arch, Right roof, Left roof). The preprocessing methods such as fast fourier transform, normalization, calculation of ridge's direction, filtering with gabor filter, binarization and rotation algorithm, are used in order to extract the features on fingerprint images and then those features are considered as the inputs of the network. RBFNN uses Fuzzy C-Means(FCM) clustering in the hidden layer and polynomial functions such as linear, quadratic, and modified quadratic are defined as connection weights of the network. Particle Swarm Optimization (PSO) algorithm optimizes a number of essential parameters needed to improve the accuracy of RBFNN. Those optimized parameters include the number of clusters and the fuzzification coefficient used in the FCM algorithm, and the orders of polynomial of networks. The performance evaluation of the proposed fingerprint recognition system is illustrated with the use of fingerprint data sets that are collected through Anguli program.

조명 변화에 강인한 얼굴 검출을 위한 좌우대칭 평균화와 단순회귀분석 보정기법 (Bilateral Symmetry Averaging and Simple Regression Analysis for Robust Face Detection Against Illumination Variation)

  • 조치영;김수환
    • 한국콘텐츠학회논문지
    • /
    • 제6권12호
    • /
    • pp.21-28
    • /
    • 2006
  • 형판 정합 기반의 얼굴 검출 시스템에서 획득된 이미지에 대한 명암 정규화 및 영상 보정을 위해 보통 히스토그램 평활화 등을 사용한다. 이 방법은 조명 변화에 의해 발생한 이미지의 부분 명암 왜곡에는 효과적이지 못하다는 것이 알려져 있다. 본 논문에서는 다양한 방향의 조명에 의한 명암 왜곡을 효과적으로 보정하는 전처리 기법을 제시한다. 이 기법은 얼굴의 좌우대칭성을 이용한 좌우대칭 평균화와 단순회귀분석을 이용한 세로 방향 명암 보정을 결합한 것이다. 실험 결과 이 기법은 기존의 방식보다 높은 검출성능을 보일 뿐만 아니라 얼굴의 후보 개수도 현저하게 감소하는 것으로 나타났다.

  • PDF

볼륨 데이터를 위한 셀 기반 웨이브릿 압축 기법 (Cell-Based Wavelet Compression Method for Volume Data)

  • 김태영;신영길
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1285-1295
    • /
    • 1999
  • 본 논문은 방대한 크기의 볼륨 데이타를 효율적으로 렌더링하기 위한 셀 기반 웨이브릿 압축 방법을 제시한다. 이 방법은 볼륨을 작은 크기의 셀로 나누고, 셀 단위로 웨이브릿 변환을 한 다음 복원 순서에 따른 런-길이(run-length) 인코딩을 수행하여 높은 압축율과 빠른 복원을 제공한다. 또한 최근 복원 정보를 캐쉬 자료 구조에 효율적으로 저장하여 복원 시간을 단축시키고, 에러 임계치의 정규화로 비정규화된 웨이브릿 압축보다 빠른 속도로 정규화된 압축과 같은 고화질의 이미지를 생성하였다. 본 연구의 성능을 평가하기 위하여 {{}} 해상도의 볼륨 데이타를 압축하여 쉬어-? 분해(shear-warp factorization) 알고리즘에 적용한 결과, 손상이 거의 없는 상태로 약 27:1의 압축율이 얻어졌고, 약 3초의 렌더링 시간이 걸렸다.Abstract This paper presents an efficient cell-based wavelet compression method of large volume data. Volume data is divided into individual cell of {{}} voxels, and then wavelet transform is applied to each cell. The transformed cell is run-length encoded according to the reconstruction order resulting in a fairly good compression ratio and fast reconstruction. A cache structure is used to speed up the process of reconstruction and a threshold normalization scheme is presented to produce a higher quality rendered image. We have combined our compression method with shear-warp factorization, which is an accelerated volume rendering algorithm. Experimental results show the space requirement to be about 27:1 and the rendering time to be about 3 seconds for {{}} data sets while preserving the quality of an image as like as using original data.

DCT/CPCM복합 감축방식의 성능에 관한 연구 (On the Performance of CDT/DPCM Hybrid Coding)

  • 안재형;김남철;김재균
    • 대한전자공학회논문지
    • /
    • 제20권4호
    • /
    • pp.47-54
    • /
    • 1983
  • DCT/DPCM 복합 감축방식(hybrid coding)에서 주요 시스템 변수에 따른 성능 변화가 평균 자승오차와 주관검사(subjective test)를 기준으로 해서 연구되었다. 검토된 시스템 변수는 DCT 변환계수의 예측상수, 블록 양자기의 평준화 계수 및 비트배정등이다. 그리고 적응식 감축방식의 특성도 비교 검토되었다. 실험결과로는 영상의 공분체 모델을 근거로 하는 비트 기정 및 적응방식이 실시간 처리에 편리할 뿐만 아니라, 낮은 비트율에서는 매우 유리한 방법임이 확인되었다.

  • PDF