• 제목/요약/키워드: 데이터 분석성능

검색결과 5,910건 처리시간 0.033초

병렬 프로세서 기반의 패턴 분류 기법을 이용한 유전자 발현 데이터 분석 (Gene Expression Data Analysis Using Parallel Processor based Pattern Classification Method)

  • 최선욱;이종호
    • 전자공학회논문지CI
    • /
    • 제46권6호
    • /
    • pp.44-55
    • /
    • 2009
  • 최근 활발히 연구가 진행 중인 마이크로어레이로부터 얻어지는 유전자 발현 데이터를 이용한 질병 진단은, 데이터를 직접적으로 분석하기 힘들기 때문에 일반적으로 기계 학습 알고리즘을 사용하여 이루어져왔다. 그러나 유전자 발현 데이터를 분석함에 있어서 유전자들 간의 상호작용을 고려하는 분석이 필요하다는 최근의 연구 결과들은 기존 기계 학습 알고리즘들을 이용한 분석에 한계가 있음을 의미한다고 볼 수 있다. 본 논문에서는 특징들 사이의 고차원 상관관계를 고려 가능한 하이퍼네트워크 모델을 이용하여 유전자 발현 데이터의 분류를 수행하고 기존의 기계 학습 알고리즘들과 분류 성능을 비교한다. 또한 기존 하이퍼네트워크 모델의 단점을 개선 한 모델을 제안하고, 이를 병렬 프로세서 상에서 구현하여 처리 성능을 비교한다. 실험 결과 제안 된 모델은 기존의 기계 학습 방법들과의 비교에서도 경쟁력 있는 분류 성능을 보여주었고, 기존 하이퍼네트워크 모델 보다 안정적이고 향상된 분류 성능을 보여주었다. 또한 이를 병렬 프로세서 상에서 구현 할 경우 처리 성능을 극대화 할 수 있음을 보였다.

무선 데이터 망에서 IEEE 802.11 브로드캐스트 기법의 성능 분석 (Performance Analysis of the IEEE 802.11 Broadcast Scheme in a Wireless Data Network)

  • 박재성;임유진;안상현
    • 대한전자공학회논문지TC
    • /
    • 제46권5호
    • /
    • pp.56-63
    • /
    • 2009
  • IEEE 802.11 표준은 무선랜, 애드 혹 망 및 차량간 통신 망 등 무선 데이터 망에 광범위하게 이용되고 있다. 이에 따라 망 성능 최적화 및 효과적인 망 자원 관리 기법의 개발을 위해 IEEE 802.11의 성능 분석이 광범위하게 이루어져 왔으나 대부분의 성능 분석 연구들은 데이터 평면에서 유니캐스트 전송 기법의 성능에 관한 것들이었다. 그러나 무선 데이터 망에서는 망 형상 관리, 노드 사이의 경로 관리 및 데이터 전송 방법으로 IEEE 802.11 브로드캐스트 기법을 이용하고 있다. 따라서 IEEE 802.11 브로드캐스트 기법의 성능에 대한 정확한 이해는 무선 데이터 망 설계를 위해 매우 중요하다. 이에 따라 본 논문에서는 노드의 전송 범위, 데이터 전송율, 최소 경합 윈도우의 크기와 같은 IEEE 802.11 시스템 파라미터뿐만 아니라 노드의 수, 망의 부하, 전파 전송 환경과 같은 망 운용 환경을 모두 고려하여 IEEE 802.11 브로드캐스트 기법의 성능을 송신 노드와의 거리에 따른 브로드캐스트 프레임 수신 확률 측면에서 분석한다. 제안된 분석 프레임은 망 환경과 관련된 모든 파라미터들을 고려하기 때문에 동적인 무선 데이터 망 환경을 위한 적응성 있는 제어 기법 개발에 이용될 것으로 기대된다.

데이터 전처리 기능을 활용한 음식 사진 인식 서비스 설계 및 구현 (Food recognition service using HSV data preprocessing function)

  • 김학겸;유연준;신대현;오주현;이진아;김영운
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1215-1218
    • /
    • 2021
  • 한국을 방문하는 외국인들은 매년 증가하고 있고 방한 목적 중 식도락관광이 3위에 오를 만큼 세계에서 한국 음식은 위상이 높아지고 있다. 하지만, 한국에서의 알레르기 성분 표시는 법적 의무가 아니기 때문에 대부분의 한식당에서는 이를 표시하지 않고 있고 알레르기가 있는 외국인 관광객들은 한국 음식 섭취에 있어서 상당한 위험과 불편함을 부담하고 있다. 이에 본 논문에서는 머신러닝을 활용하여 사진 촬영만으로 쉽고 정확하게 알레르기 성분을 제공하고자 사물 이미지 데이터 전처리를 위한 HSV(Hue, Saturation, Value) 데이터 전처리 기법을 제안한다. 제안하는 기법은 이미지의 HSV의 평균 및 분산, 표준편차를 통해 불필요한 데이터를 제거한다. 성능평가에서는 비빔밥, 불고기, 제육볶음 등 사진 약 500장의 데이터 셋을 구성하여 HSV의 평균 및 분산을 통해 이미지를 제거하는 방식으로 구축한 데이터 셋을 TensorFlow를 통해 정확도와 학습시간을 측정한다. 측정결과, 제안하는 기법으로 구축한 데이터 셋은 최소 15%에서 최대 25% 높은 정확도와 최소 37.96%에서 최대 42.85% 높은 정도 낮은 학습시간을 보여주었다. 향후 HSV를 활용한 데이터 전처리 기법은 더 많은 데이터를 통해 더욱 구체적인 성능 분석이 필요하다. 또한, 실질적인 개발 및 구현을 통해 제안하는 데이터 전처리 기법의 더욱 현실적인 검증이 필요하다.

전방향 트레드밀의 성능분석을 위한 데이터 측정기술 연구 (A Study on Treadmill Performance Data Measurement Technology using Unmanned Vehicle)

  • 박찬석;차무현;문두환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.543-544
    • /
    • 2018
  • 가상 현실 네비게이션을 위한 전방향 트레드밀은 사용자가 걷거나 달리면서 물리적으로 고정된 공간 내에 사용자를 유지할 수 있도록 지면 모션을 시뮬레이션하는 장비이다. 이러한 트레드밀 시스템의 성능이나 안정성을 정량적으로 측정하거나 분석하기가 어렵기 때문에 이전의 연구에서는 주관적 설문 조사와 같은 정성적 분석 방법을 사용하였다. 본 연구에서는 인간의 보행 경로와 유사한 궤도를 따라 움직이는 무인 차량 시스템을 이용한 새로운 정량적 데이터 측정 방법을 제안한다. 무인 차량 시스템은 미리 정의 된 인간의 보행 동작을 시뮬레이션하고 트레드밀 시스템에 대한 제어 입력을 제공하며, 다축 가속 및 방향과 같은 차량의 동적 데이터를 측정 할 수 있다. 또한 이 데이터는 평상시의 정기 또는 다른 제어 알고리즘과의 비교를 수행할 수 있다. 본 연구에서는 궤적 시뮬레이션 모듈, 데이터 수집 모듈, 성능 평가 모듈 등 전방향 트레드밀에 대한 정량 분석 방법의 설계 구조 및 초기구현 결과를 제시하고자 한다.

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

암호화폐 종가 예측 성능과 입력 변수 간의 연관성 분석 (Understanding the Association Between Cryptocurrency Price Predictive Performance and Input Features)

  • 박재현;서영석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권1호
    • /
    • pp.19-28
    • /
    • 2022
  • 최근 암호화폐가 많은 주목을 받음에 따라 암호화폐의 종가 예측 연구들이 활발히 진행되고 있다. 특히 딥 러닝 모델을 적용시켜 예측 성능을 높이려는 연구들이 지속되고 있다. 딥 러닝 모델 중 시계열 데이터에서 높은 예측 성능을 보이는 LSTM (Long Short-Term Memory) 모델이 다각도로 응용되고 있으나 변동성이 큰 암호화폐 종가 데이터에서는 낮은 예측 성능을 보인다. 이를 해결하기 위해 새로운 입력 변수를 찾아내고, 이를 사용하는 종가 예측 연구가 수행되고 있다. 그러나 딥 러닝 기반의 암호화폐 종가 예측에 사용되는 데이터들의 각 입력 변수들이 예측 성능에 미치는 영향력이나 학습에 효율적인 입력 변수들의 조합에 관한 연구 사례가 부족한 실정이다. 따라서 본 논문에서는 Bitcoin과 Ethereum을 포함한 6가지 암호화폐의 최근 동향 자료를 수집하였고, 통계와 딥 러닝을 통해 입력 변수들이 암호화폐 종가 예측에 미치는 영향력을 분석한다. 실험 결과 모든 암호화폐의 종가 예측 성능 평가에서 종가 변동률을 제외한 개장가, 고가, 저가, 거래량, 종가를 조합했을 때 가장 우수한 성능을 보였다.

사이트간 웹 사용 마이닝을 위한 데이터 전처리의 성능 향상 (Performance Improvement of Data Preprocessing for Intersite Web Usage Mining)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.357-361
    • /
    • 2006
  • 매일 새롭게 생기는 웹 페이지 수가 수천만 개, 온라인 문서들의 수가 수십억 개에 이르게 되자, 웹 사이트를 설계함에 있어서 웹 서버 로그 파일에 기록된 사용자의 행동을 분석하는 것이 중요한 부분이 되어가고 있다. 분석가들은 전체 웹 사이트에서 사용자 행동의 완전한 개요를 알기 원하기 때문에 고객이 방문했던 모든 다른 웹 서버를 통하여 사용자의 패스(path)를 다시 수집해야만 한다. 본 연구에서는 모든 로그 파일을 연결해서 방문했던 곳을 재구성하는 향상된 데이터 전처리 방법에 의하여 실험을 하여 로그 파일 크기를 감소시키게 되어 데이터 전처리의 성능이 향상되었음을 보였다.

  • PDF

무선 센서네트워크 기반 실시간 다중소스 센서데이터 관리시스템 구현 및 성능분석 (Implementation and Performance Analysis of Real-time Multi-source Sensor Data Management System Based on Wireless Sensor Network)

  • 강문식
    • 한국통신학회논문지
    • /
    • 제36권8B호
    • /
    • pp.1003-1011
    • /
    • 2011
  • 본 논문에서는 우선 센서네트워크를 기반으로 실시간 다중소스 센서데이터 관리시스템을 제안하고 구현하였다. 제안된 관리시스템은 대상시스템의 상태를 효율적으로 감시하고 제어하기 위해서 다수의 센서들로부터 수집된 실시간 데이터를 무선으로 서버로 전송하며, 이를 분석하여 동작하도록 설계되었다. 제안된 시스템은 원격지에서 세포배양장치와 같은 다중 소스 센서들을 클러스터 형태로 구성하고, 이들로부터 발생하는 센서데이터를 제어, 전송하며, 각 소스로부터 수신된 데이터를 소스별로 구분하여 관리가 가능하도록 구현하였다. 제안된 시스템의 성능을 평가하기 위해서 전송거리에 따른 전송 지연시간과 다중소스로부터 발생된 데이터 손실률을 측정하여 분석하였으며, 그 결과 우수한 성능을 보임을 확인하였다.

확장형 실시간 데이터 파이프라인 시스템 아키텍처 설계 (Design of Extended Real-time Data Pipeline System Architecture)

  • 신호승;강성원;이지현
    • 정보과학회 논문지
    • /
    • 제42권8호
    • /
    • pp.1010-1021
    • /
    • 2015
  • 빅데이터 시스템은 대규모 로그 데이터를 수집하는 용도로 광범위하게 사용되고 있기 때문에 높은 성능을 갖는 것이 매우 중요하지만, 현재의 Hadoop 기반의 빅데이터 시스템은 중복 처리로 인하여 낮은 성능을 갖는 아키텍처적인 문제를 가지고 있다. 본 논문은 아키텍처 설계 개선을 통하여 Hadoop 기반 시스템의 낮은 성능 문제를 해결한다. 새로운 제안 아키텍처는 기존 아키텍처의 배치(Batch) 기반의 데이터 수집 방식을 개별처리 방식과 혼합한 수집 방법을 사용하고, 수집하는 데이터를 In-Memory 상에서 직접 분석하여 중복 처리를 배제하여 높은 성능을 제공하게 한다. 또한 제안 아키텍처는 기존 Hadoop 기반 아키텍처의 장점인 시스템 확장성을 가진다. 본 논문은 제안 아키텍처가 테스트 베드 환경에서 기존 아키텍처보다 데이터의 분석 처리 속도가 30%~35% 빠르고 확장성도 가진다는 것을 확인하였다.

고성능 스토리지를 이용한 Lustre 파일 시스템의 성능 분석 연구 (Performance Analysis of Lustre File System using High Performance Storage Devices)

  • 이재환;구동훈;박경민;김직수;황순욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.163-169
    • /
    • 2016
  • Lustre는 대용량 분산파일 시스템의 일종으로 슈퍼컴퓨팅 분야에서 널리 사용되고 있다. 최근 SSD의 등장으로 인해, 고성능 스토리지를 구성할 수 있는 하드웨어적인 발전은 이루어졌으나, 이에 따른 소프트웨어적인 발전은 아직 따라가지 못하고 있다. 본 논문에서는 SSD를 이용한 Lustre시스템의 성능을 실험을 통해 측정하고 분석하였다. 하드디스크로 구성된 Lustre와 SSD로 구성된 Lustre를 각각 비교실험을 통해, 전체 대역폭 및 메타데이터 접근 성능에 대해서 분석하고, 장단점을 비교한다. 실험결과, 1) 랜덤 접근에 강한 SSD를 메타데이터용 저장공간에 사용하는 것이 효율적이며, 2) 스레드 수가 많거나, 작은 파일이 많은 경우 SSD를 데이터 저장 디스크로 사용하는 것이 성능의 이점이 있다.