• 제목/요약/키워드: feature vector selection

검색결과 180건 처리시간 0.022초

퍼지이론과 SVM 결합을 통한 기업부도예측 최적화 (Optimized Bankruptcy Prediction through Combining SVM with Fuzzy Theory)

  • 최소윤;안현철
    • 디지털융복합연구
    • /
    • 제13권3호
    • /
    • pp.155-165
    • /
    • 2015
  • 기업부도예측은 재무 분야에 있어 중요한 연구주제 중 하나로 1960년대 이후부터 꾸준히 연구되어져 왔다. 국내의 경우, IMF 사태 이후 기업부도예측에 관한 중요성이 강조되고 있다. 이에 본 연구에서는 보다 정확한 기업부도예측을 위해 높은 예측력과 동시에 과적합화의 문제를 해결한다고 알려진 SVM(Support Vector Machine)을 기반으로 퍼지이론(fuzzy theory)을 활용해 입력변수를 확장하고, 유전자 알고리즘(GA, Genetic Algorithm)을 이용해 유사 혹은 유사최적의 입력변수집합과 파라미터를 탐색하는 새로운 융합모형을 제시한다. 제안모형의 유용성을 검증하기 위하여 H은행의 비외감 중공업 기업 데이터를 이용하여 실험을 수행하였으며, 비교모형으로는 로짓분석, 판별분석, 의사결정나무, 사례기반추론, 인공신경망, SVM을 선정하였다. 실험결과, 제안모형이 모든 비교모형들에 비해 우수한 예측력을 보이는 것으로 나타났다. 본 연구는 우수한 예측 성능을 가진 다기법 융합 모형을 새롭게 제안하여, 부도예측 분야에 학술적, 실무적으로 기여할 수 있을 것으로 기대된다.

음악 정보검색 시스템을 위한 효율적인 특징 벡터 추출에 관한 연구 (A Study on the Efficient Feature Vector Extraction for Music Information Retrieval System)

  • 윤원중;이강규;박규식
    • 한국음향학회지
    • /
    • 제23권7호
    • /
    • pp.532-539
    • /
    • 2004
  • 본 논문에서는 Classic, Hiphop, Jazz, Rock 4개의 장르로 곡을 구분하여 각 장르별 60곡씩 총 240곡의 음악 DB를 대상으로 예제 질의 (QBE) 방식의 음악 정보 검색 시스템을 제안하였다. 제안된 시스템은 입력 질의로부터 spectral centroid, rolloff, flux등 STFT기반의 특징들과 MFCC, LPC, Beat 정보 등의 총 60차의 특징 벡터들을 추출한후 Euclidean 유사도를 측정해서 DB내의 해당 음악을 검색한다. 실제 검색에 사용되는 특징 벡터는 SFS (Sequential Forward Selection) 기법을 사용하여 10차 특징 벡터로 최적화 되며 검색 실험결과 평균 84% Hit Rate 와 0.63 MRR의 성공률을 보이고 있어 기존의 연구 결과보다 약 10%이상의 성능 향상을 보였다. 한편 본 논문에서는 실제 시스템 사용 환경을 고려하여 임의 질의 구간과 임의 질의 길이에 대한 시스템 성능 평가를 수행하였으며 실험 결과 이러한 임의성에 기인한 검색 성능의 불안정성을 지적하였다.

적응적 상관도를 이용한 주성분 변수 선정에 관한 연구 (A Study on Selecting Principle Component Variables Using Adaptive Correlation)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.79-84
    • /
    • 2021
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하다. 주성분분석 방법은 고차원 데이터에 포함된 정보를 저차원의 데이터로 변환하여 원래 데이터의 변수 수보다 적은 수의 변수로 고차원 데이터를 표현 할 수 있는 방법으로서 데이터의 특징 추출을 위한 대표적인 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석에 있어서 주성분 변수 선정 시 적응적 상관도를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관 관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 다른 여러 변수에 중복적으로 상관도가 높은 변수와 주성분을 유도하는데 연관성이 적은 변수를 주성분 변수 후보 대상에서 제외시키고자 한다. 고유벡터 계수 값에 의한 주성분 위계를 분석하고 위계가 낮은 주성분이 변수로 선정이 되는 것을 막고 또한 상관 분석을 통하여 데이터의 중복 발생이 데이터 편향을 유도하는 것을 최소화하 하고자 한다. 이를 통하여 주성분 변수 선정 시 데이터 편향성의 영향을 줄임으로써 실제 데이터의 특징을 잘 나타내는 주성분 변수를 선정하는 방법을 제안하고자 한다.

화자인식에서 연속밀도 은닉마코프모델의 혼합밀도 결정방법 (Gaussian Density Selection Method of CDHMM in Speaker Recognition)

  • 서창우;이주헌;임재열;이기용
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.711-716
    • /
    • 2003
  • 본 논문은 연속밀도 은닉마코프모델에서 각 상태별 혼합성분 개수를 결정하는 방법을 제안한다. 지금까지의 대부분의 연구가 연속밀도 은닉마코프모델에서 화자의 스펙트럼 특성에 상관없이 각 상태별 동일한 혼합성분 개수를 적용하였다. 이런 접근방법은 많은 계산량을 요구할 뿐만 아니라, 각 상태의 특성을 무시하고 있기 때문에 각 상태별 음성신호의 정확한 모델링을 할 수 없다. 따라서 본 논문에서 제안한 연속밀도 은닉마코프모델의 파라미터 추정은 각 상태별 혼합성분에 대한 발생 확률값에 따라서 결정하였다. 또한 혼합성분의 개수를 줄이는 과정에서 신호의 상관성을 줄이고 시스템의 전체적인 안정성을 얻기 위해서 주성분 분석을 이용하였다. 제안한 방법은 기존의 은닉마코프모델에 비해서 평균 10% 작은 혼합성분 개수를 이용했을 때를 기준으로 실험하였다. 실험결과에서 혼합성분 결정만을 적용했을 때 거의 비슷한 성능을 얻을 수 있었다. 그리고 주성분 분석을 이용했을 때, 특정벡터가 16 차일 때 평균 0.35%의 성능감소가 일어났지만, 25 차에서는 평균 0.65%의 성능개선을 얻을 수 있었다.

차원별 Eigenvoice와 화자적응 모드 선택에 기반한 고속화자적응 성능 향상 (Performance Improvement of Fast Speaker Adaptation Based on Dimensional Eigenvoice and Adaptation Mode Selection)

  • 송화전;이윤근;김형순
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.48-53
    • /
    • 2003
  • Eigenvoice 방법은 고속화자적응에 적합하다고 알려져 있지만, 이 방법은 발화수가 증가하더라도 추가적인 인식성능향상이 이루어지지 않는 단점이 있다. 본 논문에서는 이 문제를 해결하기 위해 음성 특징벡터의 차원별로 eigenvoice의 가중치를 구하여 적응시키는 방법과 또한 적응 데이터 수에 따라 높은 인식률을 얻는 적응 방식을 선택하는 방식을 제안한다. 화자독립모델 및 eigenvoice들을 구성하기 위해 POW (Phonetically Optimized Words)데이터베이스를 사용하였으며, PBW(Phonetically Balanced Words) 452단어 중50개까지 발화 수를 변화시키면서 교사방식 (Supervised mode)로 적응에 사용하고 나머지 중 400개를 인식실험에 사용하였다. 차원별 eigenvoice 방법이 발화수가 증가함에 따라 기존의 eigenvoice 나 MLLR 방법보다 높은 성능을 보였으며, eigenvoice와 차원별 eigenvoice방법 사이의 적응 모드 선택을 통해 기존의 eigenvoice 방식에 비해 최고 26%의 단어 오인식률 감소를 얻었다.

Resume Classification System using Natural Language Processing & Machine Learning Techniques

  • Irfan Ali;Nimra;Ghulam Mujtaba;Zahid Hussain Khand;Zafar Ali;Sajid Khan
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.108-117
    • /
    • 2024
  • The selection and recommendation of a suitable job applicant from the pool of thousands of applications are often daunting jobs for an employer. The recommendation and selection process significantly increases the workload of the concerned department of an employer. Thus, Resume Classification System using the Natural Language Processing (NLP) and Machine Learning (ML) techniques could automate this tedious process and ease the job of an employer. Moreover, the automation of this process can significantly expedite and transparent the applicants' selection process with mere human involvement. Nevertheless, various Machine Learning approaches have been proposed to develop Resume Classification Systems. However, this study presents an automated NLP and ML-based system that classifies the Resumes according to job categories with performance guarantees. This study employs various ML algorithms and NLP techniques to measure the accuracy of Resume Classification Systems and proposes a solution with better accuracy and reliability in different settings. To demonstrate the significance of NLP & ML techniques for processing & classification of Resumes, the extracted features were tested on nine machine learning models Support Vector Machine - SVM (Linear, SGD, SVC & NuSVC), Naïve Bayes (Bernoulli, Multinomial & Gaussian), K-Nearest Neighbor (KNN) and Logistic Regression (LR). The Term-Frequency Inverse Document (TF-IDF) feature representation scheme proven suitable for Resume Classification Task. The developed models were evaluated using F-ScoreM, RecallM, PrecissionM, and overall Accuracy. The experimental results indicate that using the One-Vs-Rest-Classification strategy for this multi-class Resume Classification task, the SVM class of Machine Learning algorithms performed better on the study dataset with over 96% overall accuracy. The promising results suggest that NLP & ML techniques employed in this study could be used for the Resume Classification task.

기계학습을 이용한 풀필먼트센터의 실시간 박스 추천에 관한 연구 (A Study on the Real-time Recommendation Box Recommendation of Fulfillment Center Using Machine Learning)

  • 차대욱;조희연;한지수;신광섭;민윤홍
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.149-163
    • /
    • 2023
  • 지속적인 이커머스 시장의 성장으로 풀필먼트센터가 처리해야 하는 주문량은 증가하였고, 다양한 고객 요구사항은 주문 처리의 복잡성을 높이고 있다. 이러한 추세와 함께 최근 인건비 증가로 인해 풀필먼트센터의 운영 효율성이 기업 경영 관점에서 더욱 중요해지고 있다. 본 연구는 풀필먼트센터의 출고 프로세스 중 포장 작업 영역에 적용 가능한 박스 추천을 중심으로 연구를 수행하였다. 박스 추천을 하기 위해 과거 실적 데이터를 기계학습 모형의 학습 데이터로 사용하였다. 상품 정보, 주문 정보, 포장 정보, 배송 정보 4가지 종류의 데이터를 전처리, 변수 가공 과정을 거쳐 기계학습 모델에 적용하였다. 입력 벡터로는 상품 규격 정보에 해당하는 width, length, height 3가지 특성을 사용하였으며, 상품의 실수 정보를 구간별 정수체계로 변환하는 변수 가공 과정을 통해 입력 벡터의 특성을 추출하였다. 기계학습 모형별 성능을 비교한 결과 GradientBoosting 모델을 적용하였을 경우 21개의 구간으로 상품 규격 정보를 정수로 변환하였을 때 95.2%로 가장 높은 정확도로 예측을 수행함을 확인하였다. 본 연구는 풀필먼트센터에서 잘못된 박스 선택으로 인해 발생하는 물류비용의 증가와 박스 포장 소요 시간의 비효율을 줄이기 위한 방안으로 기계학습 모형을 제시하며, 상품 규격 정보의 특성을 효과적으로 추출하기 위한 변수 가공 처리 방식을 제안한다.

미분진화 기반의 초단기 호우예측을 위한 특징 선택 (Feature Selection to Predict Very Short-term Heavy Rainfall Based on Differential Evolution)

  • 서재현;이용희;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.706-714
    • /
    • 2012
  • 본 논문에서는 대한민국의 국립기상연구소에서 제공한 최근 4년간의 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 나누어 초단기 호우 예측을 하고자 한다. 우리는 데이터 셋을 훈련 데이터, 검증 데이터와 테스트 데이터 세 부분으로 나눴다. 데이터의 차원이 커짐에 따라 해 공간의 크기가 지수적으로 증가하여 실험의 속도가 현저히 떨어지는 문제를 피하기 위하여 72개의 특징들 중에서 주요한 특징들만을 선택하게 되었다. 예측의 정확도를 높이기 위해 미분진화 알고리즘을 사용하였고, 진화연산의 적합도 함수로 두 개의 분류기를 선택하였는데, 일반적으로 우수한 성능을 보이는 서포트 벡터 머신(SVM)과 분류 속도가 빠른 최근린법(k-NN)을 사용하였다. 또한, 실험에 사용할 데이터 가공을 위해 언더샘플링과 정규화를 하였다. 진화연산의 적합도 함수로 SVM 분류기를 사용하였을 때 실험 결과가 대체로 우수하였는데, 미분진화 알고리즘 실험은 모든 특징을 선택한 실험보다 약 5 배 정도 우수한 성능을 보였고, 유전 알고리즘을 사용한 실험보다 약 1.36 배 정도 더 우수한 성능을 보였다. 실험 속도 면에서는 미분진화 알고리즘을 사용한 실험이 유전 알고리즘을 사용한 실험보다 약 20배 이상 실험 시간이 단축되었다.

필기의 구조적 표현에 의한 온라인 자동 서명 검증 기법 (A Technique for On-line Automatic Signature Verification based on a Structural Representation)

  • 김성훈;장문익;김재희
    • 한국정보처리학회논문지
    • /
    • 제5권11호
    • /
    • pp.2884-2896
    • /
    • 1998
  • 온라인 서명검증을 위해서는 서명의 국부적인 형태가 중요한 판단 근거가 된다. 함수적 접근이나 매개변수적 접근과 같은 지금까지의 접근방법은 서명을 시간에 대한 함수로 나타내거나, 특징집합으로 표현함으로써, 서명의 국부적인 모양을 무시한 채로 서명검증에서 유용한 요소로 사용될 수 있는 국부적인 모양에서의 다양한 특징, 국부적인 모양의 변화, 형태의 복잡성 등을 사용하지 않았다. 이 논문에서는 서명을 구성 형태에 근거한 구조적인 표현 방법으로 나타내어 서명의 국부적인 모양의 분석과 중요한 부분에 대한 선택적인 사용이 가능한 새로운 접근방식의 서명 검증 기법을 제시하였다. 즉, 서명의 구조적 표현에 근거하여 국부적 가중치 적용방법과 진위판단을 위한 임계치의 개인별 차등화 방법을 고안하였고, 이에 대한 실험결과를 분석하였다.

  • PDF

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.