• 제목/요약/키워드: Machine Learning

검색결과 5,469건 처리시간 0.038초

아파치 스파크 활용 극대화를 위한 성능 최적화 기법 (Performance Optimization Strategies for Fully Utilizing Apache Spark)

  • 명노영;유헌창;최수경
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.9-18
    • /
    • 2018
  • 분산 처리 플랫폼에서 다양한 빅 데이터 처리 어플리케이션들의 수행 성능 향상에 대한 관심이 높아지고 있다. 이에 따라 범용적인 분산 처리 플랫폼인 아파치 스파크에서 어플리케이션들의 처리 성능 최적화에 대한 연구들이 활발하게 진행되고 있다. 스파크에서 데이터 처리 어플리케이션들의 수행 성능을 향상시키기 위해서는 스파크의 분산처리모델인 Directed Acyclic Graph(DAG)에 알맞은 형태로 어플리케이션을 최적화시켜야 하고 어플리케이션의 처리 특징을 고려하여 스파크 시스템 파라미터들을 설정해야 하기 때문에 매우 어렵다. 기존 연구들은 각각의 어플리케이션의 처리 성능에 영향을 주는 하나의 요소에 대한 부분적인 연구를 수행했고, 최종적으로 어플리케이션의 성능개선을 이뤄냈지만 스파크의 전반적인 처리과정을 고려한 성능 최적화를 다루지 않았을 뿐만 아니라 처리성능과 상관관계를 갖는 다양한 요소들의 복합적인 상호작용을 고려하지 못했다. 본 연구에서는 스파크에서 일반적인 데이터 처리 어플리케이션의 수행 과정을 분석하고, 분석된 결과를 토대로 어플리케이션의 처리과정 중 스테이지 내부와 스테이지 사이에서 성능 향상을 위한 처리 전략을 제안한다. 또한 스파크의 시스템 설정 파라미터 중 분산 병렬처리와 밀접한 관계를 갖는 파티션 병렬화에 따른 어플리케이션의 수행성능을 분석하고 적합한 파티셔닝 최적화 기법을 제안한다. 3가지 성능 향상 전략의 실효성을 입증하기 위해 일반적인 데이터 처리 어플리케이션: WordCount, Pagerank, Kmeans에 각각의 방법을 사용했을 때의 성능 향상률을 제시한다. 또한 제안한 3가지 성능 최적화 기법들이 함께 적용될 때 복합적인 성능향상 시너지를 내는지를 확인하기 위해 모든 기법들이 적용됐을 때의 성능 향상률을 제시함으로써 본 연구에서 제시하는 전략들의 실효성을 입증한다.

VCM과 Beat Tracking을 이용한 음악의 명암 분류 기법 개발 (Development of Music Classification of Light and Shade using VCM and Beat Tracking)

  • 박승민;박준형;이영환;고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제20권6호
    • /
    • pp.884-889
    • /
    • 2010
  • 최근 음악을 장르로 분류하는 다양한 연구가 진행되고 있다. 하지만 이러한 분류는 전문가들 마다 분류하는 기준이 서로 상이하여 정확한 결과를 도출하기가 쉽지 않다. 또한 새로운 장르 출현 시, 새롭게 정의해야하는 번거로움이 발생한다. 따라서 음악을 장르로 구분하기 보다는 감정단어들로 분류, 검색하여야 한다. 본 논문에서는 사람이 느끼는 감정 중, 밝음과 어두움을 기준으로 음악을 분류하려고 한다. 음악이 내포하고 있는 특성들에 VCM(Variance Considered Machines)을 적용하여 음악의 명암 분류 시스템을 제안한다. 본 논문에서 이용한 음악적 특성은 3가지이다. 설문조사를 통해 명암이 정의된 기준 음악을 음의 높고 낮음의 분포, 음색의 가늘고 굵음과 비트의 빠르기를 이용하여 VCM에 먼저 학습을 시킨 후, 학습된 VCM을 통하여 분류 되지 않은 음악을 정의하여 설문조사를 통한 결과와 비교 분석 하였다. 음 추출은 Matlab을 이용하여 샘플링된 음악을 일정한 간격으로 나누어 FFT를 통해 주파수 분석을 한 후 평균값을 그 구간의 대표음이라 가정하고 추출된 음들의 높낮이를 수치화 하여 전체 분포를 파악하였다. 음색 부분에서는 음 추출에서 사용된 주파수 영역에서 전체 주파수 누적분포의 차이를 이용하여 수치화 하였다. 이 세 가지 특성을 VCM에 적용하여 실험 결과와 설문 조사 결과 비교하여 보니 약 95.4%의 확률로 음악의 명암이 분리된 것을 확인 하였다.

k-NN 분류 모델의 학습 데이터 구성에 따른 PIC 보의 하중 충실도 향상에 관한 연구 (Load Fidelity Improvement of Piecewise Integrated Composite Beam by Construction Training Data of k-NN Classification Model)

  • 함석우;전성식
    • Composites Research
    • /
    • 제33권3호
    • /
    • pp.108-114
    • /
    • 2020
  • Piecewise Integrated Composite (PIC) 보는 하중 유형에 따라 구간을 나누어, 각 구간마다 하중 유형에 강한 복합재료의 적층 순서를 배열한 보이다. 본 연구는 PIC 보의 구간을 머신 러닝의 일종인 k-NN(k-Nearest Neighbor) 분류를 통해 나누어 기존에 제시되었던 PIC 보에 비해 우수한 굽힘 특성을 갖게 하는 것이 목적이다. 먼저, 알루미늄 보의 3점 굽힘 해석을 통하여 참조점에서의 3축 특성(Triaxiality) 값 데이터를 얻었고, 이를 통해 인장, 전단, 압축의 레이블을 가진 학습 데이터가 만들어진다. 학습 데이터를 통해 각 면마다 독립적인 k-NN 분류 모델을 구성하는 방법(Each plane)과 전체 면에 대한 k-NN 분류 모델을 구성하는 방법(one part)을 이용하여 k-NN 분류 모델을 생성하였고, 하이퍼파라미터의 튜닝을 통하여 다양한 하중 충실도를 도출하였다. 가장 높은 하중 충실도를 가진 k-NN 분류 모델을 기반으로 보를 매핑(mapping)하였고, PIC 보에 대하여 유한요소 해석을 진행한 결과, 기존에 제시되었던 PIC 보에 비해 최대하중과 흡수 에너지가 커지는 특성을 보였다. 하중 충실도를 수동으로 조절하여 100%로 만든 PIC 보와 비교하였을 때, 최대하중과 흡수에너지가 미소한 차이가 나타났으며 이는 타당한 하중 충실도로 보여진다.

웹서비스 저장소의 검색기법에 관한 실증적 연구 (Empirical Research on Search model of Web Service Repository)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.173-193
    • /
    • 2010
  • 월드와이드웹 (WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스가 서비스 지향 컴퓨팅환경으로서 운영하기 위해서는 웹서비스 저장소가 완성도 높게 구축되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 지향 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 발견을 효율적으로 지원할 수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계 및 검색기법들을 제안하여 왔지만, 대부분의 분류체계와 기존의 검색기법들은 실질적으로 활용하기에는 제대로 발달하지 못하였거나 지속적이고 체계적으로 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적 가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 통한 복합 검색기법을 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크는 실증적인 프로토타입 시스템으로 개발하였으며, 실제 운영되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 복합 검색기법을 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 의미 있는 실험결과를 보고한다.

단층 코어넷 다단입력 인공신경망회로의 처리용량과 사전 무게값 계산에 관한 연구 (The Capacity of Multi-Valued Single Layer CoreNet(Neural Network) and Precalculation of its Weight Values)

  • 박종준
    • 전기전자학회논문지
    • /
    • 제15권4호
    • /
    • pp.354-362
    • /
    • 2011
  • 인공신경망회로에서 아직도 안 풀리는 문제 중 하나는 회로의 처리용량에 관한 것이다. 본 논문은 인공신경망회로의 가장 기본이 되는 하나의 입력과 하나의 출력을 갖은 단층 다단 코어넷을 제안하고 그 처리 용량에 관한 수식을 유도하였다. 제안된 코어넷의 처리 용량으로 p단 입력과 q단 출력을 갖는 코어넷의 처리용량(구현 가능한 함수의 수)은 $a_{p,q}=\frac{1}{2}p(p-1)q^2-\frac{1}{2}(p-2)(3p-1)q+(p-1)(p-2)$ 이며, 입력단 p 값이 짝수이고, 출력단 q가 홀수값이면 추가로 (p-1)(p-2)(q-2)/2 만큼 감해진다. 입력 값으로 3단(level), 출력 값으로 6단을 갖는 1(3)-1(6) 모델을 시뮬레이션하여 분석한 결과, 총 216가지의 함수 조합에서 입력 레벨링 방법으로 cot(x)를 이용하여 82가지의 함수가 구현가능 함을 보였다. 이 모델의 시뮬레이션 결과 80개의 함수가 수렴(구현 가능)하였고, 나머지 수렴되지 않은 함수 중에서 2개의 함수는 무게값 공간에서 무게값 좌표를 미리 계산하여 구현 가능함으로 나와, 총 82개의 구현 가능한 함수가 있음을 보였으며, 이는 위 코어넷 처리용량에 의한 계산 값과 일치하였다.

조건(암, 정상)에 따라 특이적 관계를 나타내는 유전자 쌍으로 구성된 유전자 모듈을 이용한 독립샘플의 클래스예측 (Class prediction of an independent sample using a set of gene modules consisting of gene-pairs which were condition(Tumor, Normal) specific)

  • 정현이;윤영미
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권12호
    • /
    • pp.197-207
    • /
    • 2010
  • 대용량(High-throughput) 형태로 얻어진 cDNA 마이크로어레이 데이터에 다양한 데이터 마이닝 기법을 적용하면 서로 다른 조직에서 추출한 유전자의 발현정도를 비교할 수 있고 정상세포와 암세포에서 발현량의 차이를 보이는 DEG(Differently Expression Gene) 유전자를 추출할 수 있다. 이들을 이용하여 병을 진단할 수 있을 뿐만 아니라, 암의 진행 단계(Cancer Stage)에 따른 치료 방법을 결정할 수 있다. 마이크로어레이를 기반으로 한 대부분의 암 분류자는 기계학습 기법을 이용하여 암 관련 유전자를 추출하여, 이들 유전자를 총체적으로 이용하여 독립 샘플의 클래스(암, 정상)를 판정한다. 하지만 유전자의 발현량의 차이뿐만 아니라 유전자와 유전자의 상관관계의 변화가 질병 진단에 활용될 수 있다. 대부분의 질병은 단독 유전자의 변이에 의한 것이 아니라 유전자의 모듈로 이루어진 유전자조절네트워크의 변이에 의한 것이기 때문이다. 본 논문에서는 조건에 따라 특이적 관계를 나타내는 유전자 쌍을 식별하여, 이들 유전자 쌍을 이용한 유전자 분류 모듈을 생성한다. 분류 모듈을 이용한 암 분류 방법이 기존의 암 분류 방법보다 높은 정확도로 암과정상 샘플을 분류함을 보여주고 있다. 분류 모듈을 구성하는 유전자의 수가 상대적으로 적으므로 임상키트로의 개발도 고려할 수 있다. 향후 분류 모듈에 속하는 유전자의 기능적 검증을, GO(Gene Ontology)를 활용함으로서, 밝혀지지 않은 새로운 암 관련 유전자를 식별하고, 분류 모듈을 확대하여 암 특이적 유전자조절네트워크 구성에 활용할 계획이다.

의사결정나무를 이용한 낙동강 본류 구간의 남조류 발생특성 연구 (A study on the characteristics of cyanobacteria in the mainstream of Nakdong river using decision trees)

  • 정우석;조부건;김영도;김성은
    • 한국습지학회지
    • /
    • 제21권4호
    • /
    • pp.312-320
    • /
    • 2019
  • 남조류의 대발생은 대량 번성 및 사멸에 따라 수체 내 산소 고갈 및 유기물 증가와 같은 문제를 야기하고 있다. 매년 여름철 폭염 및 가뭄의 영향으로 조류대경보가 발령되고 있으며, 낙동강 본류 구간의 선제적 녹조관리를 위해 남조류 발생특성을 정량적으로 규명할 필요가 있다. 본 연구에서는 시각화 분석 및 상관관계 분석을 이용한 남조류 발생 주요 영향인자 분석과 더불어 머신러닝 기법인 의사결정나무를 이용하여 영향인자에 따른 남조류 발생조건을 정량적으로 분석하였다. 8개 보 모든 지점에서 기상학적 요인인 기온과 SPI 가뭄지수는 남조류 세포수와 유의한 상관관계 특성을 보였다. 이는 폭염일수 증가 및 가뭄에 따른 수체 내 물의 혼합 차단 및 성층현상이 지속되어 남조류 발생을 촉진시키는 것으로 보여지며, 장기적으로 기상학적 영향을 고려한 남조류 발생의 선제적 관리도 필요할 것으로 판단된다.

인공신경망 기법을 이용한 청미천 유역 Flux tower 결측치 보정 (A point-scale gap filling of the flux-tower data using the artificial neural network)

  • 전현호;백종진;이슬찬;최민하
    • 한국수자원학회논문집
    • /
    • 제53권11호
    • /
    • pp.929-938
    • /
    • 2020
  • 본 연구에서는 청미천 유역에서의 플럭스타워에서 산출되는 증발산량의 결측값을 보완하기 위해 인공신경망(Artificial Neural Network, ANN)을 사용하였다. 비교 평가를 위해, Mean Diurnal Variation(MDV), Food and Agriculture Organization Penman-Monteith(FAO-PM) 방법들을 이용하여 증발산량을 산정하였고, ANN 방법을 이용한 결과와 비교하였다. 비교 평가 방법으로 시계열 방법 및 통계 분석(결정계수, IOA, RMSE, MAE)이 사용되었다. 각 gap-filling 모델의 검증을 위해 2015년의 30분 단위 데이터를 이용하였으며, 121개의 결측값 중 MDV, FAO-PM, ANN 방법 순으로 각각 70, 53, 54개의 결측값을 보완하여 모든 데이터가 관측되지 않은 36개의 데이터를 제외하면 각각 82.4%, 62.4%, 63.5%의 성능을 보였다. 결정계수(MDV, FAO-PM, ANN 방법 순으로 각각 0.673, 0.784, 0.841)와 IOA(MDV, FAO-PM, ANN 방법 순으로 각각 0.899, 0.890, 0.951)를 분석한 결과, 3가지 방법 모두 양질의 상관성을 보여 활용성이 충분하다고 판단되며, 이 중 ANN 모델이 가장 높은 적합도와 양질의 성능을 나타내었다. 본 연구를 기반으로 기계학습방법을 이용한 플럭스 타워 자료의 gap-filing 연구에 보다 적절하게 활용될 수 있을 것이다.

유출유 이동 가시화 및 입자 매칭 알고리즘 (Oil Spill Visualization and Particle Matching Algorithm)

  • 이현창;김용혁
    • 한국융합학회논문지
    • /
    • 제11권3호
    • /
    • pp.53-59
    • /
    • 2020
  • 허베이 스피리트호 기름유출사고와 같은 해양 유류유출사고에서 잘못된 초기대응은 경제 손실뿐만 아니라 생태계에 큰 피해를 입힌다. 하지만 다양한 변수가 존재하는 해양에서 유출유의 움직임을 예측하는 것은 매우 힘든일이다. 이를 해결하기 위해서 뜰개 데이터를 활용해서 바다위의 부유물의 이동을 연구하는 기존 연구인 입자예측을 확장하여 면단위로 예측을 하는 유출유 예측 가시화를 진행하였다. 해양 데이터 포맷인 HDF5에서 특정 위치의 해류, 풍속 데이터를 양선형 보간법을 이용해 추출한 뒤, 수많은 점들의 이동을 입자예측하여 그 결과를 폴리곤 및 히트맵을 이용해 가시화 하였다. 또한 뜰개데이터의 문제점인 데이터 부족과 유출유와 움직임이 다른 점을 해결 하기 위해 유출유로부터 입자 데이터를 얻어낼 수 있는 유출유 입자 매칭 알고리즘을 제안한다. 유출유 입자 매칭 알고리즘은 면단위 유출유의 모습을 입자화 하여 입자의 움직임을 추적하는 알고리즘이다. 주성분 분석을 이용하여 문제를 분할하고, 유출유의 이동 거리의 분산이 최소화 되는 지점으로 유전알고리즘을 이용해 매칭하였다. 유출유 가시화 결과 데이터로 검증한 결과 주성분 분석과 유전알고리즘을 이용한 입자매칭 알고리즘이 가장 성능이 뛰어난 것을 확인할 수 있었으며, 평균 데이터 오차는 3.2%로 의미있는 연구임을 확인하였다.

데이터 중심 다항식 확장형 RBF 신경회로망의 설계 및 최적화 (Design of Data-centroid Radial Basis Function Neural Network with Extended Polynomial Type and Its Optimization)

  • 오성권;김영훈;박호성;김정태
    • 전기학회논문지
    • /
    • 제60권3호
    • /
    • pp.639-647
    • /
    • 2011
  • In this paper, we introduce a design methodology of data-centroid Radial Basis Function neural networks with extended polynomial function. The two underlying design mechanisms of such networks involve K-means clustering method and Particle Swarm Optimization(PSO). The proposed algorithm is based on K-means clustering method for efficient processing of data and the optimization of model was carried out using PSO. In this paper, as the connection weight of RBF neural networks, we are able to use four types of polynomials such as simplified, linear, quadratic, and modified quadratic. Using K-means clustering, the center values of Gaussian function as activation function are selected. And the PSO-based RBF neural networks results in a structurally optimized structure and comes with a higher level of flexibility than the one encountered in the conventional RBF neural networks. The PSO-based design procedure being applied at each node of RBF neural networks leads to the selection of preferred parameters with specific local characteristics (such as the number of input variables, a specific set of input variables, and the distribution constant value in activation function) available within the RBF neural networks. To evaluate the performance of the proposed data-centroid RBF neural network with extended polynomial function, the model is experimented with using the nonlinear process data(2-Dimensional synthetic data and Mackey-Glass time series process data) and the Machine Learning dataset(NOx emission process data in gas turbine plant, Automobile Miles per Gallon(MPG) data, and Boston housing data). For the characteristic analysis of the given entire dataset with non-linearity as well as the efficient construction and evaluation of the dynamic network model, the partition of the given entire dataset distinguishes between two cases of Division I(training dataset and testing dataset) and Division II(training dataset, validation dataset, and testing dataset). A comparative analysis shows that the proposed RBF neural networks produces model with higher accuracy as well as more superb predictive capability than other intelligent models presented previously.