• 제목/요약/키워드: Large Data Set

검색결과 1,058건 처리시간 0.034초

대형 상용차용 독립 현가부품 플래쉬 부피 예측 모델 개발 (Development of Flash Volume Prediction Model for Independent Suspension Parts for Large Commercial Vehicles)

  • 박지우
    • 소성∙가공
    • /
    • 제32권6호
    • /
    • pp.352-359
    • /
    • 2023
  • Recently, independent suspension systems have been applied not only to passenger cars but also to large commercial vehicles. Therefore, the need for research to domestically produce such independent suspensions for large commercial vehicles is gradually increasing. In this paper, we conducted research on the manufacturing technology of the relay lever, which are integral components of independent suspension systems for large commercial vehicles. Our goal was to reduce the flash volume generated during the forging process. The shape variables of the initial billet were adjusted to find proper forming conditions that could minimize flash volume while performing product forming smoothly. Shape variables were set as input variables and the flash volume was set as an output variable, and simulations were carried out to analytically predict the volume of the flash area for each variable condition. Based on the data obtained through numerical simulations, a regression model and an artificial neural network model were used to develop a prediction model that can easily predict the flash volume for variable conditions. For the corresponding prediction model, a goodness of-fit test was performed to confirm a high level of fit. By comparing and analyzing the two prediction models, the high level of fit of the ANN model was confirmed.

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

프로토타입 선택을 이용한 최근접 분류 학습의 성능 개선 (Performance Improvement of Nearest-neighbor Classification Learning through Prototype Selections)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 최근접 이웃 분류에서 입력 데이터의 클래스는 선택된 근접 학습 데이터들 중에서 가장 빈번한 클래스로 예측된다. 최근접분류 학습은 학습 단계가 없으나, 준비된 데이터가 모두 예측 분류에 참여하여 일반화 성능이 학습 데이터의 질에 의존된다. 그러므로 학습 데이터가 많아지면 높은 기억 장치 용량과 예측 분류 시 높은 계산 시간이 요구된다. 본 논문에서는 분리 경계면에 위치한 학습 데이터들로 구성된 새로운 학습 데이터를 생성시켜 분류 예측을 수행하는 프로토타입 선택 알고리즘을 제안한다. 제안하는 알고리즘에서는 분리 경계 영역에 위치한 데이터를 Tomek links와 거리를 이용하여 선별하며, 이미 선택된 데이터와 클래스와 거리 관계 분석을 이용하여 프로토타입 집합에 추가 여부를 결정한다. 실험에서 선택된 프로토타입의 수는 원래 학습 데이터에 비해 적은 수의 데이터 집합이 되어 최근접 분류의 적용 시 기억장소의 축소와 빠른 예측 시간을 제공할수 있다.

식품 눈대중량 퍼지데이타의 처리방안에 관한 연구 (A Method for Fuzzy-Data Processing of Cooked-rice Portion Size Estimation)

  • 김명희
    • Journal of Nutrition and Health
    • /
    • 제27권8호
    • /
    • pp.856-863
    • /
    • 1994
  • To develop a optimized method for educing the errors associated with the estimation of portion size of foods, fuzzy-dta processing of portion size was performed. Cooked-rice was chosen as a food item. The experiment was conducted in two parts. First, to study the conceptions of respondents to bowl size(large, medium, small), 11 bowls of different size and shape were used and measured the actual weights of cooked-rice. Second, to study the conceptions of respondents to volume(1, 1/2, 1/3, 1/4), 16 different volumes of cooked-rice in bowls of same size and shape were used. Respondents for this study were 31 graduate students. After collecting the data of respondents to size and volume, fuzzy sets of size and volume were produced. The critical values were calculated by defuzzification(mean of maximum method, center of area method). The differences of the weights of cooked-rice in various bowl size and volume between the critical values and the calculated values by average portion size using in conventional methods were compared. The results hows large inter-subject variation in conception to bowl size, especially in large size. However, conception of respondents to volume is relatively accurate. Conception to bowl size seems to be influenced by bowl shape. Considering that the new fuzzy set was calculated by cartesian product(bowl size and volume), bowl shape should be considered in estimation of bowl size to make more accurate fuzzy set for cooked-rice portion size. The limitations of this study were discussed. If more accurate data for size and volume of many other food items are collected by the increased number of respondents, reducing the errors associated with the estimation of portion size of foods and rapid processing will be possible by constructing computer processing systems.

  • PDF

클래스 초월구를 이용한 프로토타입 기반 분류 (Prototype-Based Classification Using Class Hyperspheres)

  • 이현종;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.483-488
    • /
    • 2016
  • 본 논문은 최근접 이웃 규칙을 이용한 프로토타입을 이용하는 분류 학습을 제안한다. 훈련 데이터가 대표하는 클래스 영역을 초월구로 분할하는데 최근접 이웃규칙을 적용시키며, 초월구는 동일 클래스 데이터들만 포함시킨다. 초월구의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용한다. 제안하는 선택 방법은 클래스 별 프로토타입을 선택하는 그리디 알고리즘으로 설계되며, 대규모 훈련 데이터에 대한 병렬처리가 가능하다. 분류 예측은 최근접 이웃 규칙을 이용하며, 새로운 훈련 데이터는 프로토타입 집합이다. 실험에서 제안하는 방법은 기 연구된 학습 방법에 비해 일반화 성능이 우수하다.

수정된 Ziegler-Nichols 방법에 의한 PID제어의 자동 동조 (An Automatic tuning of PlD Controls by Refined Ziegler-Nichols Methods)

  • 구진호;양원영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1992년도 하계학술대회 논문집 A
    • /
    • pp.337-339
    • /
    • 1992
  • This paper deals with the tuning method of PID controls for process controls. It introduces the normalized process gain and the normalized process dead-time for processes based on Ziegler-Nichols tuning methods. In the case of PID auto-tuning, the first, this method applies Ziegler-Nichols tuning method and introduces the set-point weighting for reducing overshoot in the large normalized process gain or small normalized process dead-time, the second, this method is modified and includes the set-point weighting in the small normalized process gain or large normalized process dead-time. In the case of PI auto-tuning, this method is modified for reducing overshoot. This paper obtains empirical data with Ziegler-Nichols methods for refined Ziegler-Nichols tuning methods.

  • PDF

Generation of Large-scale and High-resolution DEMs over Antarctica through a LIDAR survey

  • Lee, Im-Pyeong;Ahn, Yushin;Csatho, Bea;Schenk, Toni;Shin, Sung-Woong;Yoon, Tae-Hun
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.1374-1376
    • /
    • 2003
  • NASA, NSF and USGS jointly conducted a LIDAR survey over several sites in the Antarctic Dry Valleys and its vicinity, acquiring numerous surface points by NASA's Airborne Topographic Mapper (ATM) conical laser scanning altimetry system. The data set have high blunder ratio, and the conical scanning pattern resulted large variation of the point densities. Hence, to reduce the undesirable effects due to these characteristics and process the huge number of points with reasonable time and resources, we developed a novel approach to generate large-scale and high-resolution DEMs in robust, efficient and nearly automatic manners. Based on this approach we produced DEMs and then verified them with reference data.

  • PDF

빌딩 및 일반 대수용가용 통합관리 시스템에 대한 적용사례 소개 및 전력사용 데이터 활용연구 (A Study of Electric Power Usage Data Utilization and Application regarding Consumer Portal System for Building and Large Consumers)

  • 최중인
    • 조명전기설비학회논문지
    • /
    • 제25권12호
    • /
    • pp.101-106
    • /
    • 2011
  • An utilization of electricity usage measured data by region and time through the consumer portal system for building and large consumer are suggested. Electricity usage data by region and time can't be measured by traditional approach. A measured data from smart meters which are installed various regions can be utilized to set up a management of electricity peak demand.

Fixed size LS-SVM for multiclassification problems of large data sets

  • Hwang, Hyung-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.561-567
    • /
    • 2010
  • Multiclassification is typically performed using voting scheme methods based on combining a set of binary classifications. In this paper we use multiclassification method with a hat matrix of least squares support vector machine (LS-SVM), which can be regarded as the revised one-against-all method. To tackle multiclass problems for large data, we use the $Nystr\ddot{o}m$ approximation and the quadratic Renyi entropy with estimation in the primal space such as used in xed size LS-SVM. For the selection of hyperparameters, generalized cross validation techniques are employed. Experimental results are then presented to indicate the performance of the proposed procedure.

SUPPORT VECTOR MACHINE USING K-MEANS CLUSTERING

  • Lee, S.J.;Park, C.;Jhun, M.;Koo, J.Y.
    • Journal of the Korean Statistical Society
    • /
    • 제36권1호
    • /
    • pp.175-182
    • /
    • 2007
  • The support vector machine has been successful in many applications because of its flexibility and high accuracy. However, when a training data set is large or imbalanced, the support vector machine may suffer from significant computational problem or loss of accuracy in predicting minority classes. We propose a modified version of the support vector machine using the K-means clustering that exploits the information in class labels during the clustering process. For large data sets, our method can save the computation time by reducing the number of data points without significant loss of accuracy. Moreover, our method can deal with imbalanced data sets effectively by alleviating the influence of dominant class.