• 제목/요약/키워드: Feature Importance Analysis

검색결과 135건 처리시간 0.028초

통계 정보 기반 트래픽 분석 방법론의 성능 향상 (Performance Improvement of the Statistical Information based Traffic Identification System)

  • 안현민;함재현;김명섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권8호
    • /
    • pp.335-342
    • /
    • 2013
  • 네트워크의 고속화와 다양한 서비스의 등장으로 오늘날의 네트워크 트래픽은 복잡 다양해지고 있다. 효율적인 네트워크 관리를 위해서 QoS, SLA와 같은 정책을 적용하기 위해서는 트래픽 분석 중에서도 응용 트래픽 분류의 중요성이 크다. 현재까지 트래픽 분류에 관한 연구가 활발히 진행되어 왔는데 최근에는 플로우의 통계 정보를 이용한 트래픽 분류 방법론이 많이 연구되고 있다. 하지만 플로우의 통계 정보를 이용한 트래픽 분류 방법론에는 필히 고려해야 할 여러 문제점이 있다. 본 논문에서는 정답지 트래픽 분석을 통해 통계 정보 기반 트래픽 분석 방법론의 해결해야 하는 문제점들을 분석하고 그 해결방안에 대해 제안한다. 통계 정보 기반 트래픽 분석 방법론에서 필히 해결해야 할 문제점은 총 네 가지로 Feature들의 거리 측정 방법과 대표값 추출 방법, TCP 세션의 이상동작, 그리고 패킷 별 가중치이다. 제안하는 방법은 선정한 통계 시그니쳐 기반 트래픽 분석 시스템을 이용한 학내 망에서의 실험을 통해 그 성능을 검증한다.

데이터 마이닝을 이용한 한의비만변증 설문지 재평가: 실제 임상에서 수집한 설문응답 기반으로 (Re-evaluation of Obesity Syndrome Differentiation Questionnaire Based on Real-world Survey Data Using Data Mining)

  • 오지홍;왕징화;최선미;김호준
    • 한방비만학회지
    • /
    • 제21권2호
    • /
    • pp.80-94
    • /
    • 2021
  • Objectives: The purpose of this study is to re-evaluate the importance of questions of obesity syndrome differentiation (OSD) questionnaire based on real-world survey and to explore the possibility of simplifying OSD types. Methods: The OSD frequency was identified, and variance threshold feature selection was performed to filter the questions. Filtered questions were clustered by K-means clustering and hierarchical clustering. After principal component analysis (PCA), the distribution patterns of the subjects were identified and the differences in the syndrome distribution were compared. Results: The frequency of OSD in spleen deficiency, phlegm (PH), and blood stasis (BS) was lower than in food retention (FR), liver qi stagnation (LS), and yang deficiency. We excluded 13 questions with low variance, 7 of which were related to BS. Filtered questions were clustered into 3 groups by K-means clustering; Cluster 1 (17 questions) mainly related to PH, BS syndromes; Cluster 2 (11 questions) related to swelling, and indigestion; Cluster 3 (11 questions) related to overeating or emotional symptoms. After PCA, significant different patterns of subjects were observed in the FR, LS, and other obesity syndromes. The questions that mainly affect the FR distribution were digestive symptoms. And emotional symptoms mainly affect the distribution of LS subjects. And other obesity syndrome was partially affected by both digestive and emotional symptoms, and also affected by symptoms related to poor circulation. Conclusions: In-depth data mining analysis identified relatively low importance questions and the potential to simplify OSD types.

얼굴인식을 위한 PCA, LDA 및 정합기법의 비교 (A Comparison of PCA, LDA, and Matching Methods for Face Recognition)

  • 박세제;박영태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.372-378
    • /
    • 2003
  • 얼굴 인식을 위한 주요 기법인 PCA, LBA 등과 같은 mapping에 의한 기법과 템플리트 정합기법 모두 얼굴 영역의 회전, 이동, 표정, 그리고 조명조건의 변화에 민감한 특성을 가진다. 본 논문에서는, 영상의 변화를 보상할 수 있는 전처리 과정으로서 기하학적 특징에 기반한 순수 얼굴영역검출기법을 도입하고 후처리 과정으로서 간단한 정합기법을 사용한 얼굴인식 기법을 제안한다. 제안한 기법은 PCA와 LDA 기법에 비해 영상의 변화에 민감하지 않고 높은 인식률을 보장할 수 있는 장점을 가진다.

텍스트마이닝을 활용한 메타버스 서비스의 경험 품질 평가의 이해: 로블록스 사례 연구 (Understanding the Evaluation of Quality of Experience for Metaverse Services Utilizing Text Mining: A Case Study on Roblox)

  • 김민준
    • 서비스연구
    • /
    • 제13권4호
    • /
    • pp.160-172
    • /
    • 2023
  • 메타버스는 정치, 경제, 사회, 문화적 활동이 가능한 가상의 환경을 나타내는데, 이를 통해 현실과 디지털이 공존하여 사람들은 색다른 일상을 경험할 수 있다. 최근 메타버스의 발전으로, 기존의 서비스 경험 방식이 변화하고 있다. 기존의 선행연구는 주로 메타버스 서비스의 기술 발전에 중점을 두었지만, 최근의 연구들은 고객 관점에서 메타버스 서비스의 경험 품질을 평가하는 것에 중점을 두고 있다. 고객 관점에서 서비스 품질을 결정하는 서비스 특성을 정확히 이해하고 분석해야, 성공적인 메타버스 서비스를 설계할 수 있기 때문이다. 그러나, 선행연구들은 이러한 중요성만을 강조하고 있을 뿐, 평가를 위한 보편적이고 체계적인 개념과 관련된 연구는 부족한 실정이다. 본 연구는 이러한 한계를 극복하기 위해 텍스트마이닝을 활용한 온라인 리뷰 분석을 수행하였다. 특히, 로블록스 서비스의 온라인 리뷰 227,332건을 분석하고, 분석 결과를 기반으로 로블록스 서비스의 개선 방향을 모색하였다. 분석을 위해 토픽 모델링, 감성 분석, 로지스틱 회귀 분석 등의 텍스트마이닝 및 기계학습 알고리즘을 활용하였으며, 서비스 개선 방향을 모색하기 위해 중요도-실행도 분석을 수행하였다. 연구 결과, 메타버스 서비스의 경험 품질 평가에 활용 가능한 9개 서비스 특징을 도출하였으며, 이들과 서비스 만족도 간의 관계 분석을 통해 특징별 중요도를 추정하였다. 마지막으로 중요도-실행도 분석을 통해 메타버스 서비스를 가능케하는 기술적 요소보다 서비스 경험을 강화하는 방향의 서비스 개선 전략이 필요함을 파악하였다. 본 논문의 결과물은 메타버스 서비스에 관심이 있는 기업들에게 중요한 시사점을 제공하며, 기업은 이러한 서비스 특징을 활용하여 자사의 강점 및 약점을 파악하여, 변화하는 메타버스 서비스의 환경에서 우위를 차지하는데 유용한 통찰력을 제공할 것이라 기대한다.

Fault Detection and Identification of Induction Motors with Current Signals Based on Dynamic Time Warping

  • Bae, Hyeon;Kim, Sung-Shin;Vachtsevanos, George
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제7권2호
    • /
    • pp.102-108
    • /
    • 2007
  • The issues of preventive and condition-based maintenance, online monitoring, system fault detection, diagnosis, and prognosis are of increasing importance. This study introduces a technique to detect and identify faults in induction motors. Stator currents were measured and stored by time domain. The time domain is not suitable for representing current signals, so wavelet transform is used to convert the signal; onto frequency domain. The raw signals can not show the significant feature, therefore difference values are applied. The difference values were transformed by wavelet transform and the features are extracted from the transformed signals. The dynamic time warping method was used to identify the four fault types. This study describes the results of detecting fault using wavelet analysis.

DTW를 이용한 유도전동기 베어링 및 회전자봉 고장진단 (Fault Detection and Diagnosis of Faulty Bearing and Broken Rotor Bar of Induction Motors Based on Dynamic Time Warping)

  • 이재현;배현
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제31권1호
    • /
    • pp.95-102
    • /
    • 2007
  • The issues of preventive and condition-based maintenance, online monitoring, system fault detection, diagnosis and prognosis are of increasing importance. This study introduces a technique to detect and identify faults in induction motors. Stator currents were measured and stored by time domain. The time domain is not suitable for representing current signals, so wavelet transform is used to convert the signals onto frequency domain. The raw signals can not show the significant feature, therefore difference values between the signal of the health conditions and that of the fault conditions are applied. The difference values were transformed by wavelet transform and the features are extracted from the transformed signals. The dynamic time warping method was used to identify the fault type. This study describes the results of detecting fault using wavelet analysis.

의사결정나무 기반 비만과 대사증후군 데이터 분류와 특징 중요도 분석 (Decision tree based obesity and metabolic syndrome data classification and feature importance analysis)

  • 이종욱;김영호;백병현;황두성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.880-883
    • /
    • 2021
  • 비만은 다양한 합병증을 일으키는 위험요소로 현대인의 건강을 위협한다. 비만에 영향을 주는 요소들은 유전적 영향, 식습관, 신체활동 등이 연관된다. 비만 인구의 증가로 대사증후군의 발병률이 높아졌다. 대사증후군은 비만, 고지혈증과 고혈압 등의 여러 가지 성인병을 동반한다. 비만과 대사증후군 판별 요소 검출을 위한 개인의 신체 정보와 생활 정보 분석이 필요하다. 본 논문에서는 의사결정나무를 이용하여 비만과 대사증후군을 분류하고 분류 시 사용된 특징의 중요도 분석을 수행한다. 비만 분석 결과는 체중과 신장이 높은 특징 중요도를 나타냈으며 대사증후군은 HDL, 허리둘레, 혈압과 나이 등이 높은 특징 중요도를 보였다.

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

Cognitive Impairment Prediction Model Using AutoML and Lifelog

  • Hyunchul Choi;Chiho Yoon;Sae Bom Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.53-63
    • /
    • 2023
  • 본 연구는 고령층의 치매 예방을 위한 선별검사 수단으로 자동화된 기계학습(AutoML)을 활용하여 인지기능 장애 예측모형을 개발하였다. 연구 데이터는 한국지능정보사회진흥원의 '치매 고위험군 웨어러블 라이프로그 데이터'를 활용하였다. 분석은 구글 코랩 환경에서 PyCaret 3.0.0이 사용하여 우수한 분류성능을 보여주는 5개의 모형을 선정하고 앙상블 학습을 진행하여 모형을 통합한 뒤, 최종 성능평가를 진행하였다. 연구결과, Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, Random Forest Classifier 모형 순으로 높은 예측성능을 보이는 것으로 나타났다. 특히 '수면 중 분당 평균 호흡수'와 '수면 중 분당 평균 심박수'가 가장 중요한 특성변수(feature)로 확인되었다. 본 연구의 결과는 고령층의 인지기능 장애를 보다 효과적으로 관리하고 예방하기 위한 수단으로 기계학습과 라이프로그의 활용 가능성에 대한 고려를 시사한다.

Iterative-R: A reliability-based calibration framework of response modification factor for steel frames

  • Soleimani-Babakamali, Mohammad Hesam;Nasrollahzadeh, Kourosh;Moghadam, Amin
    • Steel and Composite Structures
    • /
    • 제42권1호
    • /
    • pp.59-74
    • /
    • 2022
  • This study introduces a general reliability-based, performance-based design framework to design frames regarding their uncertainties and user-defined design goals. The Iterative-R method extracted from the main framework can designate a proper R (i.e., response modification factor) satisfying the design goal regarding target reliability index and pre-defined probability of collapse. The proposed methodology is based on FEMA P-695 and can be used for all systems that FEMA P-695 applies. To exemplify the method, multiple three-dimensional, four-story steel special moment-resisting frames are considered. Closed-form relationships are fitted between frames' responses and the modeling parameters. Those fits are used to construct limit state functions to apply reliability analysis methods for design safety assessment and the selection of proper R. The frameworks' unique feature is to consider arbitrarily defined probability density functions of frames' modeling parameters with an insignificant analysis burden. This characteristic enables the alteration in those parameters' distributions to meet the design goal. Furthermore, with sensitivity analysis, the most impactful parameters are identifiable for possible improvements to meet the design goal. In the studied examples, it is revealed that a proper R for frames with different levels of uncertainties could be significantly different from suggested values in design codes, alarming the importance of considering the stochastic behavior of elements' nonlinear behavior.