• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.026초

시계열 예측을 위한 LSTM 기반 딥러닝: 기업 신용평점 예측 사례 (LSTM-based Deep Learning for Time Series Forecasting: The Case of Corporate Credit Score Prediction)

  • 이현상;오세환
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권1호
    • /
    • pp.241-265
    • /
    • 2020
  • Purpose Various machine learning techniques are used to implement for predicting corporate credit. However, previous research doesn't utilize time series input features and has a limited prediction timing. Furthermore, in the case of corporate bond credit rating forecast, corporate sample is limited because only large companies are selected for corporate bond credit rating. To address limitations of prior research, this study attempts to implement a predictive model with more sample companies, which can adjust the forecasting point at the present time by using the credit score information and corporate information in time series. Design/methodology/approach To implement this forecasting model, this study uses the sample of 2,191 companies with KIS credit scores for 18 years from 2000 to 2017. For improving the performance of the predictive model, various financial and non-financial features are applied as input variables in a time series through a sliding window technique. In addition, this research also tests various machine learning techniques that were traditionally used to increase the validity of analysis results, and the deep learning technique that is being actively researched of late. Findings RNN-based stateful LSTM model shows good performance in credit rating prediction. By extending the forecasting time point, we find how the performance of the predictive model changes over time and evaluate the feature groups in the short and long terms. In comparison with other studies, the results of 5 classification prediction through label reclassification show good performance relatively. In addition, about 90% accuracy is found in the bad credit forecasts.

Comparison of field- and satellite-based vegetation cover estimation methods

  • Ko, Dongwook W.;Kim, Dasom;Narantsetseg, Amartuvshin;Kang, Sinkyu
    • Journal of Ecology and Environment
    • /
    • 제41권2호
    • /
    • pp.34-44
    • /
    • 2017
  • Background: Monitoring terrestrial vegetation cover condition is important to evaluate its current condition and to identify potential vulnerabilities. Due to simplicity and low cost, point intercept method has been widely used in evaluating grassland surface and quantifying cover conditions. Field-based digital photography method is gaining popularity for the purpose of cover estimate, as it can reduce field time and enable additional analysis in the future. However, the caveats and uncertainty among field-based vegetation cover estimation methods is not well known, especially across a wide range of cover conditions. We compared cover estimates from point intercept and digital photography methods with varying sampling intensities (25, 49, and 100 points within an image), across 61 transects in typical steppe, forest steppe, and desert steppe in central Mongolia. We classified three photosynthetic groups of cover important to grassland ecosystem functioning: photosynthetic vegetation, non-photosynthetic vegetation, and bare soil. We also acquired normalized difference vegetation index from satellite image comparison with the field-based cover. Results: Photosynthetic vegetation estimates by point intercept method were correlated with normalized difference vegetation index, with improvement when non-photosynthetic vegetation was combined. For digital photography method, photosynthetic and non-photosynthetic vegetation estimates showed no correlation with normalized difference vegetation index, but combining of both showed moderate and significant correlation, which slightly increased with greater sampling intensity. Conclusions: Results imply that varying greenness is playing an important role in classification accuracy confusion. We suggest adopting measures to reduce observer bias and better distinguishing greenness levels in combination with multispectral indices to improve estimates on dry matter.

상호정보량과 Binary Particle Swarm Optimization을 이용한 속성선택 기법 (Feature Selection Method by Information Theory and Particle S warm Optimization)

  • 조재훈;이대종;송창규;전명근
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.191-196
    • /
    • 2009
  • 본 논문에서는 BPSO(Binary Particle Swarm Optimization)방법과 상호정보량을 이용한 속성선택기법을 제안한다. 제안된 방법은 상호정보량을 이용한 후보속성부분집합을 선택하는 단계와 BPSO를 이용한 최적의 속성부분집합을 선택하는 단계로 구성되어 있다. 후보속성부분집합 선택 단계에서는 독립적으로 속성들의 상호정보량을 평가하여 순위별로 설정된 수 만큼 후보속성들을 선택한다. 최적속성부분집합 선택 단계에서는 BPSO를 이용하여 후보속성부분집합에서 최적의 속성부분집합을 탐색한다. BPSO의 목적함수는 분류기의 정확도와 선택된 속성 수를 포함하는 다중목적함수(Multi-Object Function)을 이용하였다. 제안된 기법의 성능을 평가하기 위하여 유전자 데이터를 사용하였으며, 실험결과 기존의 방법들에 비해 우수한 성능을 보임을 알 수 있었다.

인체의 임펄스 응답 신호를 이용한 사용자 인식 방법 (User Recognition Method using Human Body Impulse Response Signals)

  • 박범수;강은정;강태욱;이재진;김성은
    • 전기전자학회논문지
    • /
    • 제24권1호
    • /
    • pp.120-126
    • /
    • 2020
  • 본 연구에서는 인체의 임펄스 응답 신호를 이용하여 사용자를 인식하는 방법을 제안한다. 인체는 물, 근육, 지방, 뼈 등으로 구성되어 있고, 이러한 구성비는 사람마다 다르게 형성되어 있다. 기존의 인체 통신 연구에서는 인체가 커패시터와 저항으로 이루어진 회로로 모델링 되었고, 회로의 특징은 인체의 구성 특성에 따라 다르다는 것이 밝혀졌다. 따라서 인체는 개인별 고유한 채널로 인식될 수 있고, 이를 이용한 사용자 인식이 가능하다는 연구가 보고 되었다. 이 연구에서는, 임펄스 신호를 인체에 인가하여 임펄스 응답 신호를 측정하고, empirical mode decomposition 기법으로 노이즈를 제거한다. 그리고 10개의 피크 값을 추출하고 피크 간 값의 차이를 특징량으로 사용하여 사용자 인증을 수행하였다. 6명의 참가자로부터 수집한 데이터를 k-nearest neighbors(KNN) 알고리즘을 사용하여 분류 성능을 확인한 결과, 임펄스 응답 신호의 전체 시계열 데이터의 분류 정확도는 91.57%이었으나, 제안한 피크 간 값의 차이를 특징량으로 하여 분류를 하였을 때 분류 정확도가 97.71%로 크게 향상되는 것을 확인할 수 있었다.

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 (Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm)

  • 장영식;김종우;허준
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.133-154
    • /
    • 2008
  • 데이터 마이닝 분류 문제에서 발생하는 데이터 불균형 문제는 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 이러한 불균형 문제를 해결하기 위해 표본추출과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 조합적 활용에 대한 타당성에 대해 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 소수 범주에 대한 정확성을 높이기 위해 소수 범주에 대한 F-value에 기초하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 격자표 형태의 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 4개의 공개 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다.

  • PDF

MMORPG 게임 내 계정도용 탐지 모델에 관한 연구 (A study on the identity theft detection model in MMORPGs)

  • 김하나;곽병일;김휘강
    • 정보보호학회논문지
    • /
    • 제25권3호
    • /
    • pp.627-637
    • /
    • 2015
  • 온라인 게임시장의 성장으로 아이템 거래시장이 활성화됨에 따라 아이템 현금 거래시장은 1조 6,000억원 규모로 성장하였으며, 활성화된 시장으로 인해 아이템 및 게임머니의 현금화가 용이하게 되었다. 이러한 특성으로 악의적인 사용자들은 온라인 게임에서 계정도용을 통해 금전적인 가치가 높은 희귀 아이템 및 게임머니를 탈취하여 현금화하는 사례가 빈번히 발생하고 있는 실정이다. 본 연구에서는 MMORPG(Massive Multi-user Online Role Playing Game)내에서의 계정도용자들의 행위분석을 통한 계정도용 탐지모델을 제안한다. 계정도용의 경우 현금화 시킬 수 있는 아이템 및 게임머니를 탈취해야하기 때문에 게임 행동상에서 경제활동에 치중되어 있으며 아이템 생산, 아이템 판매, 게임머니 획득 이라는 특정 시퀀스를 가지고 있다. 이를 기반으로 계정도용 탐지모델을 제안하였으며, 본 논문의 탐지모델을 활용하여 분류한 결과 84%의 정확도를 보였다. 더불어 거래 네트워크 분석을 통해 계정도용 시 발생하는 거래특성에 대해 분석하였다.

설악산국립공원내 산양(Nemorhaedus Caudatus Raddeanus)의 잠재 서식지 적합성 모형; 다기준평가기법(MCE)과 퍼지집합(Fuzzy Set)의 도입을 통하여 (Korean Groal Potential Habitat Suitability Model at Soraksan National Park Using Fuzzy Set and Multi-Criteria Evaluation)

  • 최태영;박종화
    • 한국조경학회지
    • /
    • 제32권4호
    • /
    • pp.28-38
    • /
    • 2004
  • Korean goral (Nemorhaedus caudatus raddeanus) is one of the endangered species in Korea, and the rugged terrain of the Soraksan National Park (373㎢) is a critical habitat for the species. But the goral population is threatened by habitat fragmentation caused by roads and hiking trails. The objective of this study was to develop a potential habitat suitability model for Korean goral in the park, and the model was based on the concepts of fuzzy set theory and multi-criteria evaluation. The process of the suitability modeling could be divided into three steps. First, data for the modeling was collected by using field work and a literature survey. Collected data included 204 points of GPS data obtained through a goral trace survey and through the number of daily visitors to each hiking trail during the peak season of the park. Second, fuzzy set theory was employed for building a GIS data base related to environmental factors affecting the suitability of the goral habitat. Finally, a multiple-criteria evaluation was performed as the final step towards a goral habitat suitability model. The results of the study were as follows. First, characteristics of suitable habitats were the proximity to rock cliffs, scattered pine (Pinus densiflora) patches, ridges, the elevation of 700∼800m, and the aspect of south and southeast. Second, the habitat suitability model had a high classification accuracy of 93.9% for the analysis site, and 95.7% for the validation site at a cut off value of 0.5. Finally, 11.7% of habitatwith more than 0.5 of habitat suitability index was affected by roads and hiking trails in the park.

멀티 코어 환경에서 실시간 트래픽 분석 시스템 처리속도 향상 (Performance Improvement of a Real-time Traffic Identification System on a Multi-core CPU Environment)

  • 윤성호;박준상;김명섭
    • 한국통신학회논문지
    • /
    • 제37권5B호
    • /
    • pp.348-356
    • /
    • 2012
  • 오늘날 네트워크 환경은 응용 프로그램 및 서비스의 변화가 많아 응용탐지에 있어 기존의 단일 분석 알고리즘으로는 모든 트래픽의 응용을 정확하게 탐지하기 어렵다. 최근 이러한 단점을 보완하기 위해 여러 개별 알고리즘을 통합한 멀티 레벨의 트래픽 탐지 알고리즘에 대한 연구가 진행되고 있다. 이러한 멀티 레벨 탐지 알고리즘은 단일 알고리즘 구조에 비해 계산 복잡도가 높은 단점이 있다. 또한, 고속 네트워크에서 실시간으로 트래픽을 분류하기 위해서는 멀티코어 CPU의 장점인 병렬처리를 이용하여 높은 계산 복잡도를 해결해야 할 필요가 있다. 본 논문에서는 요즘 일반화된 멀티 코어 CPU환경에 적합한 실시간 응용 트래픽 탐지 시스템 구조를 제안한다. 먼저 멀티 레벨 트래픽 탐지 알고리즘이 멀티 코어 환경에서 실시간으로 동작하기 위한 고려 사항들을 살펴보고, 이를 통해 시스템을 설계하고 구현한 내용을 기술한다. 본 논문에서 구축한 시스템은 캠퍼스 네트워크와 기숙사 네트워크를 대상으로 구축하여 그 실효성을 검증하였다.

의사결정나무 분석법을 활용한 우울 노인의 특성 분석 (Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis)

  • 박명화;최소라;신아미;구철회
    • 대한간호학회지
    • /
    • 제43권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Purpose: The purpose of this study was to develop a prediction model for the characteristics of older adults with depression using the decision tree method. Methods: A large dataset from the 2008 Korean Elderly Survey was used and data of 14,970 elderly people were analyzed. Target variable was depression and 53 input variables were general characteristics, family & social relationship, economic status, health status, health behavior, functional status, leisure & social activity, quality of life, and living environment. Data were analyzed by decision tree analysis, a data mining technique using SPSS Window 19.0 and Clementine 12.0 programs. Results: The decision trees were classified into five different rules to define the characteristics of older adults with depression. Classification & Regression Tree (C&RT) showed the best prediction with an accuracy of 80.81% among data mining models. Factors in the rules were life satisfaction, nutritional status, daily activity difficulty due to pain, functional limitation for basic or instrumental daily activities, number of chronic diseases and daily activity difficulty due to disease. Conclusion: The different rules classified by the decision tree model in this study should contribute as baseline data for discovering informative knowledge and developing interventions tailored to these individual characteristics.

엔트로피 및 최대우도추정법을 이용한 표면 근전도 기반 손가락 동작 인식 (Classifying Finger Flexing Motions with Surface EMG Using Entropy and The Maximum Likelihood Method)

  • 유경진;신현출
    • 전자공학회논문지SC
    • /
    • 제46권6호
    • /
    • pp.38-43
    • /
    • 2009
  • 표면 근전도 신호를 이용하여 손가락의 굽힘 동작을 추론하는 방법을 제안한다. 표면 근전도 신호는 인체 근육의 표면에서 무해하고 손쉽게 취득되나, 전극이 근육 내부에 침투하는 침습식 근전도와는 달리 특정 근육의 활동만을 반영하지 않는다. 따라서 소수의 전극을 사용하는 표면 근전도 신호로 다양한 신체 동작을 구분하기는 쉽지 않다. 본 연구에서는 전완 둘레에 부착된 4채널 근전도 센서를 사용하여 신호를 취득하였고, 구분을 위하여 사용한 동작은 엄지, 검지, 중지, 약지, 소지의 개별 손가락의 굽힘 동작이다. 피검자 한 명은 숙련자였으며, 다른 한 명은 비숙련자였다. 근전도 신호의 특성으로 정보 엔트로피를 추출하였으며 최대우도추정법을 사용하여 실제 동작을 추정하였다. 실험 결과 평균 95% 이상의 성능을 보였으며, 제안하는 방법이 손가락 동작의 구분에 유용함을 확인하였다.