• 제목/요약/키워드: Normalization

검색결과 1,412건 처리시간 0.023초

음성인식을 위한 성도 길이 정규화 (Vocal Tract Length Normalization for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1380-1386
    • /
    • 2003
  • 화자들 사이의 성도의 길이의 변이에 의하여 음성 인식기의 성능이 저하된다. 본 연구에서는 입력 음성에서 추출한 단구간 스펙트럼의 주파수축을 확대하거나 축소하여 음성인식기에 미치는 화자사이의 성도 길이의 영향을 최소화하는 방법을 사용한다 성도의 길이를 정규화하기 위한 주파수 변환 함수로서, 선형의 주파수 변환 함수와 조각적 선형적인 변환 함수를 고려하였다. 또한, 커다란 성도길이의 변이에 따른 주파수축의 척도변화를 보다 효과적으로 모의할 수 있는 가변구간 조각적 선형함수를 제안한다. TIDIGITS 연결 숫자음 음성자료에 대하여 제안한 방법을 적용한 결과, 단어의 오인식률을 2.15%에서 0.53%로 크게 감소시킴으로서, 성도 길이 정규화가 화자 독립 음성인식기의 성능 향상에 필수적임을 알 수 있었다.

Semi-supervised Software Defect Prediction Model Based on Tri-training

  • Meng, Fanqi;Cheng, Wenying;Wang, Jingdong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.4028-4042
    • /
    • 2021
  • Aiming at the problem of software defect prediction difficulty caused by insufficient software defect marker samples and unbalanced classification, a semi-supervised software defect prediction model based on a tri-training algorithm was proposed by combining feature normalization, over-sampling technology, and a Tri-training algorithm. First, the feature normalization method is used to smooth the feature data to eliminate the influence of too large or too small feature values on the model's classification performance. Secondly, the oversampling method is used to expand and sample the data, which solves the unbalanced classification of labelled samples. Finally, the Tri-training algorithm performs machine learning on the training samples and establishes a defect prediction model. The novelty of this model is that it can effectively combine feature normalization, oversampling techniques, and the Tri-training algorithm to solve both the under-labelled sample and class imbalance problems. Simulation experiments using the NASA software defect prediction dataset show that the proposed method outperforms four existing supervised and semi-supervised learning in terms of Precision, Recall, and F-Measure values.

Building Hybrid Stop-Words Technique with Normalization for Pre-Processing Arabic Text

  • Atwan, Jaffar
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.65-74
    • /
    • 2022
  • In natural language processing, commonly used words such as prepositions are referred to as stop-words; they have no inherent meaning and are therefore ignored in indexing and retrieval tasks. The removal of stop-words from Arabic text has a significant impact in terms of reducing the size of a cor- pus text, which leads to an improvement in the effectiveness and performance of Arabic-language processing systems. This study investigated the effectiveness of applying a stop-word lists elimination with normalization as a preprocessing step. The idea was to merge statistical method with the linguistic method to attain the best efficacy, and comparing the effects of this two-pronged approach in reducing corpus size for Ara- bic natural language processing systems. Three stop-word lists were considered: an Arabic Text Lookup Stop-list, Frequency- based Stop-list using Zipf's law, and Combined Stop-list. An experiment was conducted using a selected file from the Arabic Newswire data set. In the experiment, the size of the cor- pus was compared after removing the words contained in each list. The results showed that the best reduction in size was achieved by using the Combined Stop-list with normalization, with a word count reduction of 452930 and a compression rate of 30%.

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

다수 투표 기반의 화자 식별을 위한 배경 화자 데이터의 퍼지 C-Means 중심을 이용한 히스토그램 등화기법 (Histogram Equalization Using Centroids of Fuzzy C-Means of Background Speakers' Utterances for Majority Voting Based Speaker Identification)

  • 김명재;양일호;유하진
    • 한국음향학회지
    • /
    • 제33권1호
    • /
    • pp.68-74
    • /
    • 2014
  • 이전 연구에서 퍼지 C-Means의 중심 데이터로 이루어진 보조 데이터를 이용한 히스토그램 등화기법을 제안하였다. 보조 데이터를 이용한 히스토그램 등화기법은 사용하는 참조 집합의 크기에 따라 화자 식별 성능에 영향을 받는다. 그러나 인식 시점에서 최적의 파라미터를 찾기는 어렵다. 이 문제를 해결하기 위해 본 논문에서는 화자 식별을 위한 다수 투표 방식에 기반을 둔 보조 데이터를 이용한 히스토그램 등화기법을 제안한다. 다수 투표 기반의 제안한 방법은 여러 종류의 보조 데이터를 이용한 히스토그램 등화기법으로 입력 음성을 분류한다. 본 연구에서 제안한 방법을 CMN(Cepstral Mean Normalization), MVN(Mean and Variance Normalization), HEQ(Histogram Equalization)와 같은 기존의 특징 정규화 방법 및 보조 데이터를 이용한 히스토그램 등화기법과 비교한다.

저장탄약 신뢰성분류 인공신경망모델의 학습속도 향상에 관한 연구 (Study on Improving Learning Speed of Artificial Neural Network Model for Ammunition Stockpile Reliability Classification)

  • 이동녁;윤근식;노유찬
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.374-382
    • /
    • 2020
  • 본 연구에서 저장탄약 신뢰성평가(ASRP: Ammunition Stockpile Reliability Program)의 데이터 특성을 고려하여 입력변수를 줄이는 정규화기법을 제안함으로써 분류성능의 저하 없이 저장탄약 신뢰성분류 인경신경망모델의 학습 속도향상을 목표로 하였다. 탄약의 성능에 대한 기준은 국방규격(KDS: Korea Defense Specification)과 저장탄약 시험절차서(ASTP: Ammunition Stockpile reliability Test Procedure)에 규정되어 있으며, 평가결과 데이터는 이산형과 연속형 데이터가 복합적으로 구성되어 있다. 이러한 저장탄약 신뢰성평가의 데이터 특성을 고려하여 입력변수는 로트 추정 불량률(estimated lot percent nonconforming) 또는 고장률로 정규화 하였다. 또한 입력변수의 unitary hypercube를 유지하기 위하여 최소-최대 정규화를 2차로 수행하는 2단계 정규화 기법을 제안하였다. 제안된 2단계 정규화 기법은 저장탄약 신뢰성평가 데이터를 이용하여 비교한 결과 최소-최대 정규화와 유사하게 AUC(Area Under the ROC Curve)는 0.95 이상이었으며 학습속도는 학습 데이터 수와 은닉 계층의 노드 수에 따라 1.74 ~ 1.99 배 향상되었다.

자동 PIF 추출을 통한 Hyperion 초분광영상의 상대 방사정규화 - 변화탐지를 목적으로 (Relative Radiometric Normalization of Hyperion Hyperspectral Images Through Automatic Extraction of Pseudo-Invariant Features for Change Detection)

  • 김대성;김용일
    • 한국측량학회지
    • /
    • 제26권2호
    • /
    • pp.129-137
    • /
    • 2008
  • 지상의 정보를 주기적으로 취득하는 위성영상은 여러 가지 원인으로 인해 동일 지점에 대해 일정한 화소값을 기대하기 어렵고, 이런 영상은 변화탐지 결과에 영향을 미칠 가능성이 높으므로 방사보정을 통해 화소값 차이를 최소화시킬 필요가 있다. 본 연구는 변화탐지를 위한 전처리 과정 중 하나인 방사정규화에 초점을 맞추고 있다. 이를 위해 시간적 불변특성을 보이는 화소인 PIF를 추출하고, 선형회귀 기법을 이용하여 상대 방사정규화를 수행하였다. 화소간 유사도 측정 기법인 분광각을 통해 PIF를 자동으로 추출함으로써, 초분광영상이 가지는 많은 밴드의 장점을 활용하였다 또한 반복적인 정량 평가를 통해 적절한 PIF 개수를 결정하는 연구도 함께 수행하였다. 영상회귀, 히스토그램 매칭, FLAASH 기법을 적용한 방사보정 결과와 비교하여 제안된 알고리즘의 성능을 평가하였으며, PIF 추출을 통한 선형회귀 기법이 변화탐지를 위한 방사보정에 보다 효과적으로 적용될 수 있음을 확인하였다.

R&D 프로젝트 성과평가를 위한 DEA모형의 타당성 실증분석 : 정규화지표와의 순위상관을 중심으로 (Empirical Analysis of DEA models Validity for R&D Project Performance Evaluation : Focusing on Rank Correlation with Normalization Index)

  • 박성민
    • 산업공학
    • /
    • 제24권4호
    • /
    • pp.314-322
    • /
    • 2011
  • This study analyzes a relationship between Data Envelopment Analysis(DEA) efficiency scores and a normalization index in order to examine the validity of DEA models. A normalization index concerned in this study is 'sales per R&D project fund' which is regarded as a crucial R&D project performance evaluation index in practice. For this correlation analysis, three distinct DEA models are selected such as DEA basic model, DEA/AR-I revised model(i.e. DEA basic model with Acceptance Region Type I constraints) and Super-Efficiency(SE) model. Especially, SE model is adopted where efficient R&D projects(i.e. Decision Making Units, DMU's) with DEA efficiency score of unity from DEA basic model can be further differentiated in ranks. Considering the non-normality and outliers, two rank correlation coefficients such as Spearman's ${\rho}_s$ and Kendall's ${\tau}_B$ are investigated in addition to Pearson's ${\gamma}$. With an up-to-date empirical massive dataset of n = 482 R&D projects associated with R&D Loan Program of Korea Information Communication Promotion Fund in the year of 2011, statistically significant (+) correlations are verified between the normalization index and every model's DEA efficiency scores with all three correlation coefficients. Especially, the congruence verified in this empirical analysis can be a useful reference for enhancing the practitioner's acceptability onto DEA efficiency scores as a real-world R&D project performance evaluation index.

표준화 기반 표지 유전자를 이용한 난소암 마이크로어레이 데이타 분류 시스템 (Ovarian Cancer Microarray Data Classification System Using Marker Genes Based on Normalization)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.2032-2037
    • /
    • 2011
  • 표지 유전자는 특정한 실험 조건의 특성을 나타내주는 발현수준의 유전자를 의미한다. 이 유전자들은 여러 집단간의 발현수준에서 유의한 차이를 보여주며, 실제로 집단 간의 차이를 유발하는 유전자일 확률이 높아 특정 생물학적 현상과 관련 있는 표지 유전자를 찾는 연구에 이용될 수 있다. 본 논문에서는, 먼저 그 동안 제안된 여러 표준화 방법들 중에서 가장 널리 사용되고 있는 방법들을 이용하여 데이터를 표준화 한 후 통계에 따라 유전자의 우선순위를 정함으로써 표지유전자를 추출할 수 있는 시스템을 제안하였다. 다층퍼셉트론 신경망 분류기를 이용하여 각 표준화 방법들의 성능을 비교분석하였다. 그 결과 Lowess 표준화 후 ANOVA를 이용하여 선택된 8개의 표지 유전자를 포함하는 마이크로어레이 데이터 셋에 MLP 알고리즘을 적용한 결과 99.32%의 가장 높은 분류 정확도와 가장 낮은 예측 에러 추정치를 나타내었다.

공공기관 정상화 대책이 보수적 회계처리에 미치는 영향 (Impact of the Normalization Policy of Public Institutions on Accounting Conservatism)

  • 장지경
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.527-535
    • /
    • 2018
  • 본 연구는 부채감축을 목표로 시행된 공공기관 정상화 대책이 공기업의 보수적 회계처리에 어떠한 영향을 주었는지를 살펴보고자 한다. 구체적으로 공기업의 부채비율에 따른 보수적 회계처리가 일반적으로 어떠한 행태를 가지는지 검증하고, 공공기관 정상화 대책의 시행으로 보수적 회계처리 행태가 변화하였는지를 검증한다. 분석결과를 요약하면, 공기업의 경우에도 일반 사기업과 동일하게 부채비율과 보수적 회계처리 간에 유의한 양(+)의 관련성이 존재함을 확인하였다. 이는 공기업의 부채비율이 높아질수록 더욱 보수적인 회계처리가 이루어짐을 의미한다. 그러나 양자 간의 관련성은 정상화 대책이 시행된 이후에 유의한 변화가 관찰되지 않았다. 이는 공공기관 정상화 대책의 시행은 공기업의 보수적 회계처리 행태를 변화시키는 요인이 아님을 의미한다. 본 연구의 결과는 최근 보고되는 공기업의 지속적 부채감축 성과가 보수적 회계처리 실무와는 무관하며 실질적인 경영정상화 과정에 의한 것임을 시사한다. 본 연구는 공공기관의 부채감축이 중요시되는 현 상황에서 정부 정책의 효과를 평가하는데 중요한 실증적 증거를 제시하였다는 점에서 의미가 있다.