• 제목/요약/키워드: Preprocess Data

검색결과 62건 처리시간 0.02초

진단 전문가시스템의 개발 : 연산적 센서검증 (Development of On-Line Diagnostic Expert System Algorithmic Sensor Validation)

  • 김영진
    • 대한기계학회논문집
    • /
    • 제18권2호
    • /
    • pp.323-338
    • /
    • 1994
  • This paper outlines a framework for performing intelligent sensor validation for a diagnostic expert system while reasoning under uncertainty. The emphasis is on the algorithmic preprocess technique. A companion paper focusses on heuristic post-processing. Sensor validation plays a vital role in the ability of the overall system to correctly detemine the state of a plant monitored by imperfect sensors. Especially, several theoretical developments were made in understanding uncertain sensory data in statistical aspect. Uncertain information in sensory values is represented through probability assignments on three discrete states, "high", "normal", and "low", and additional sensor confidence measures in Algorithmic Sv.Upper and lower warning limits are generated from the historical learning sets, which represents the borderlines for heat rate degradation generated in the Algorithmic SV initiates a historic data base for better reference in future use. All the information generated in the Algorithmic SV initiate a session to differentiate the sensor fault from the process fault and to make an inference on the system performance. This framework for a diagnostic expert system with sensor validation and reasonig under uncertainty applies in HEATXPRT$^{TM}$, a data-driven on-line expert system for diagnosing heat rate degradation problems in fossil power plants.

텍스트 마이닝과 토픽 모델링을 기반으로 한 트위터에 나타난 사회적 이슈의 키워드 및 주제 분석 (Keywords and Topic Analysis of Social Issues on Twitter Based on Text Mining and Topic Modeling)

  • 곽수정;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.13-18
    • /
    • 2019
  • 본 연구는 커뮤니케이션이 활발한 SNS 속에서 사회적 이슈가 어떤 주제별로 나뉘어져 있고, 어떤 키워드들이 유기적으로 연결되었는지 그 연결 관계를 알아보고자 하였다. '미투'라는 새로운 단어가 생겨남과 동시에 큰 운동으로 번지고 있는 '미투운동'을 사회적 이슈로 간주하였고, 여러 SNS 중 특히 실시간 소통이 가장 활발한 트위터를 중심으로 분석을 실시하였다. 우선 키워드를 '미투'로 하여 관련된 키워드를 각 날짜별로 추출하였고, 주요 키워드를 파악한 후 토픽 모델링을 수행하였다. 이를 통해 사회적 이슈를 둘러싼 키워드들이 시간의 흐름에 따라 어떻게 변화하였는지 파악하고, 각 토픽 내의 키워드를 종합하여 토픽별 사회적 이슈의 다양한 관점을 해석하였다.

Construction of Customer Appeal Classification Model Based on Speech Recognition

  • Sheng Cao;Yaling Zhang;Shengping Yan;Xiaoxuan Qi;Yuling Li
    • Journal of Information Processing Systems
    • /
    • 제19권2호
    • /
    • pp.258-266
    • /
    • 2023
  • Aiming at the problems of poor customer satisfaction and poor accuracy of customer classification, this paper proposes a customer classification model based on speech recognition. First, this paper analyzes the temporal data characteristics of customer demand data, identifies the influencing factors of customer demand behavior, and determines the process of feature extraction of customer voice signals. Then, the emotional association rules of customer demands are designed, and the classification model of customer demands is constructed through cluster analysis. Next, the Euclidean distance method is used to preprocess customer behavior data. The fuzzy clustering characteristics of customer demands are obtained by the fuzzy clustering method. Finally, on the basis of naive Bayesian algorithm, a customer demand classification model based on speech recognition is completed. Experimental results show that the proposed method improves the accuracy of the customer demand classification to more than 80%, and improves customer satisfaction to more than 90%. It solves the problems of poor customer satisfaction and low customer classification accuracy of the existing classification methods, which have practical application value.

열화상 영상 데이터 기반 배전반 화재 발생 판별을 위한 딥러닝 모델 설계 (Design of a deep learning model to determine fire occurrence in distribution switchboard using thermal imaging data)

  • 박동준;김민영
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.737-745
    • /
    • 2023
  • 본 논문은 열화상 이미지를 활용하여 배전반 화재 발생을 감지하기 위한 인공지능 모델을 개발하는 연구에 대해 다룬다. 연구의 목표는 수집한 열화상 이미지를 전처리하여 객체 탐지 모델에 적합한 데이터로 가공하고, 이를 이용하여 배전반 내 화재 발생 여부를 판단하는 모델을 설계하는 것이다. 연구에서는 AI-HUB의 산업단지 내 학습용 열화상 이미지 데이터를 활용하였으며, CNN 기반 딥러닝 객체 검출 알고리즘 중 대표적인 모델인 Faster R-CNN과 RetinaNet을 사용하여 모델을 구축하고 두 개의 모델을 비교 분석하여 최적의 모델을 제안하고 있다.

Web-Based Computational System for Protein-Protein Interaction Inference

  • Kim, Ki-Bong
    • Journal of Information Processing Systems
    • /
    • 제8권3호
    • /
    • pp.459-470
    • /
    • 2012
  • Recently, high-throughput technologies such as the two-hybrid system, protein chip, Mass Spectrometry, and the phage display have furnished a lot of data on protein-protein interactions (PPIs), but the data has not been accurate so far and the quantity has also been limited. In this respect, computational techniques for the prediction and validation of PPIs have been developed. However, existing computational methods do not take into account the fact that a PPI is actually originated from the interactions of domains that each protein contains. So, in this work, the information on domain modules of individual proteins has been employed in order to find out the protein interaction relationship. The system developed here, WASPI (Web-based Assistant System for Protein-protein interaction Inference), has been implemented to provide many functional insights into the protein interactions and their domains. To achieve those objectives, several preprocessing steps have been taken. First, the domain module information of interacting proteins was extracted by taking advantage of the InterPro database, which includes protein families, domains, and functional sites. The InterProScan program was used in this preprocess. Second, the homology comparison with the GO (Gene Ontology) and COG (Clusters of Orthologous Groups) with an E-value of $10^{-5}$, $10^{-3}$ respectively, was employed to obtain the information on the function and annotation of each interacting protein of a secondary PPI database in the WASPI. The BLAST program was utilized for the homology comparison.

SVM 기법을 적용한 구름베어링의 부식 고장진단 (Corrosion Failure Diagnosis of Rolling Bearing with SVM)

  • 고정일;이의영;이민재;최성대;허장욱
    • 한국기계가공학회지
    • /
    • 제20권9호
    • /
    • pp.35-41
    • /
    • 2021
  • A rotor is a crucial component in various mechanical assemblies. Additionally, high-speed and high-efficiency components are required in the automotive industry, manufacturing industry, and turbine systems. In particular, the failure of high-speed rotating bearings has catastrophic effects on auxiliary systems. Therefore, bearing reliability and fault diagnosis are essential for bearing maintenance. In this work, we performed failure mode and effect analysis on bearing rotors and determined that corrosion is the most critical failure type. Furthermore, we conducted experiments to extract vibration characteristic data and preprocess the vibration data through principle component analysis. Finally, we applied a machine learning algorithm called support vector machine to diagnose the failure and observed a classification performance of 98%.

Novel Image Classification Method Based on Few-Shot Learning in Monkey Species

  • Wang, Guangxing;Lee, Kwang-Chan;Shin, Seong-Yoon
    • Journal of information and communication convergence engineering
    • /
    • 제19권2호
    • /
    • pp.79-83
    • /
    • 2021
  • This paper proposes a novel image classification method based on few-shot learning, which is mainly used to solve model overfitting and non-convergence in image classification tasks of small datasets and improve the accuracy of classification. This method uses model structure optimization to extend the basic convolutional neural network (CNN) model and extracts more image features by adding convolutional layers, thereby improving the classification accuracy. We incorporated certain measures to improve the performance of the model. First, we used general methods such as setting a lower learning rate and shuffling to promote the rapid convergence of the model. Second, we used the data expansion technology to preprocess small datasets to increase the number of training data sets and suppress over-fitting. We applied the model to 10 monkey species and achieved outstanding performances. Experiments indicated that our proposed method achieved an accuracy of 87.92%, which is 26.1% higher than that of the traditional CNN method and 1.1% higher than that of the deep convolutional neural network ResNet50.

MLOps workflow language and platform for time series data anomaly detection

  • Sohn, Jung-Mo;Kim, Su-Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.19-27
    • /
    • 2022
  • 본 연구에서는 시계열 데이터 이상 탐지 수행을 위한 MLOps(Machine Learning Operations) 워크플로를 기술하고 관리할 수 있는 언어와 플랫폼을 제안한다. 시계열 데이터는 IoT 센서, 시스템 성능 지표, 사용자 접속량 등 많은 분야에서 수집되고 있다. 또한, 시스템 모니터링 및 이상 탐지 등 많은 응용 분야에 활용 중이다. 시계열 데이터의 예측 및 이상 탐지를 수행하기 위해서는 분석된 모델을 빠르고 유연하게 운영 환경에 적용할 수 있는 MLOps 플랫폼이 필요하다. 이에, 최근 데이터 분석에 많이 활용되고 있는 Python 기반의 AMML(AI/ML Modeling Language)을 개발하여 손쉽게 MLOps 워크플로를 구성하고 실행할 수 있도록 제안한다. 제안하는 AI MLOps 플랫폼은 AMML을 이용하여 다양한 데이터 소스(R-DB, NoSql DB, Log File 등)에서 시계열 데이터를 추출, 전처리 및 예측을 수행할 수 있다. AMML의 적용 가능성을 검증하기 위해, 변압기 오일 온도 예측 딥러닝 모델을 생성하는 워크플로를 AMML로 구성하고 학습이 정상적으로 수행됨을 확인하였다.

초등 인공지능 교육을 위한 데이터 범주와 알고리즘 종류 탐색 (Exploring Data Categories and Algorithm Types for Elementary AI Education)

  • 심재권
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.167-173
    • /
    • 2021
  • 본 연구는 초등학생 대상의 인공지능 교육에서 다루는 알고리즘의 종류, 활용하는 도구와 데이터의 범주를 논의하는 것을 목적으로 초등예비교사 11명을 대상으로 15주 동안 데이터, 인공지능 알고리즘, 인공지능 교육 플랫폼을 교육 및 실습한 후 설문하여 초등학생 수준을 고려한 데이터와 알고리즘의 범주, 교육 도구를 제시하고 적합성을 분석하였다. 설문을 통해 교사가 수업목적에 따라 사전에 데이터를 선정 및 가공하여 교육에 사용하는 것이 가장 적합하며, 분류와 예측 알고리즘이 초등 인공지능 교육에서 다루기에 적절하다는 결론을 도출하였다. 또한, 엔트리가 인공지능 교육 도구로서 가장 적합하며 인공지능의 학습이라는 개념을 교육하기 위해 수학적 지식을 설명하는 자료가 필요함을 확인하였다. 본 연구는 초등학생의 인공지능 교육에서 다루는 알고리즘과 데이터의 범주를 구체적으로 제시하고 이와 관련된 수학교육에 대한 필요성과 적절한 교육 도구를 분석하였다는 점에서 의의가 있다.

  • PDF

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.