• 제목/요약/키워드: 데이터 분석성능

검색결과 5,910건 처리시간 0.041초

AI 기반환경의 주식 시세예측을 위한 성능 비교분석 시스템 (The Performance Comparative Analysis System for Stock Price Forecasting on AI Environment)

  • 이철현;오염덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.127-128
    • /
    • 2022
  • 최근 많은 증권사 및 다양한 금융사기업에서 투자자의 주식투자를 돕는 투자자문 인공지능, 로보어드바이저를 제안하고 활용한다. 본 논문에서는 증권사 등에서 사용되고 있는 주식 시세예측 알고리즘의 성능을 상호 비교분석한다. 주식 시계열 데이터 예측에 용이한 4가지의 인공지능 알고리즘인 LSTM, GRU, 딥Q 네트워크강화학습, XGBoost 알고리즘의 성능을 분석하고 비교하는 시스템을 구현하였다. 본 연구에서는 구현된 성능 분석 시스템을 통해 어떤 알고리즘이 주식 시세를 예측하고 활용하기 위해 가장 좋은 성능을 가졌는지 비교분석하고 해당 시스템의 결과분석이 주식예측에 어떠한 영향을 주는지를 평가한다.

  • PDF

한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구 (A Study of Pre-trained Language Models for Korean Language Generation)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.309-328
    • /
    • 2022
  • 본 연구는 자연어처리의 분석목적과 추론데이터 성격에 적합한 한국어 사전훈련 언어모델의 특성을 실증분석했다. 이를 위해 자연어생성이 가능한 대표적 사전훈련 언어모델인 BART와 GPT 모델을 실험에 사용했다. 구체적으로 한국어 텍스트를 BART와 GPT 모델에 학습한 사전훈련 언어모델을 사용해 문서요약 생성 성능을 비교했다. 다음으로 추론데이터의 특성에 따라 언어모델의 성능이 어떻게 달라지는지 확인하기 위해 6가지 정보전달성과 4가지 창작물 유형의 한국어 텍스트 문서에 적용했다. 그 결과, 모든 문서유형에서 인코더와 디코더가 모두 있는 BART의 구조가 디코더만 있는 GPT 모델보다 더 높은 성능을 보였다. 추론데이터의 특성이 사전훈련 언어모델의 성능에 미치는 영향을 살펴본 결과, KoGPT는 데이터의 길이에 성능이 비례한 것으로 나타났다. 그러나 길이가 가장 긴 문서에 대해서도 KoGPT보다 KoBART의 성능이 높아 다운스트림 태스크 목적에 맞는 사전훈련 모델의 구조가 자연어생성 성능에 가장 크게 영향을 미치는 요소인 것으로 나타났다. 추가적으로 본 연구에서는 정보전달성과 창작물로 문서의 특징을 구분한 것 외에 품사의 비중으로 문서의 특징을 파악해 사전훈련 언어모델의 성능을 비교했다. 그 결과, KoBART는 어미와 형용사/부사, 동사의 비중이 높을수록 성능이 떨어진 반면 명사의 비중이 클수록 성능이 좋았다. 반면 KoGPT는 KoBART에 비해 품사의 비중과 상관도가 낮았다. 이는 동일한 사전훈련 언어모델이라도 추론데이터의 특성에 따라 자연어생성 성능이 달라지기 때문에 다운스트림 태스크에 사전훈련 언어모델 적용 시 미세조정 외에 추론데이터의 특성에 대한 고려가 중요함을 의미한다. 향후 어순 등 분석을 통해 추론데이터의 특성을 파악하고, 이것이 한국어 생성에 미치는 영향을 분석한다면 한국어 특성에 적합한 언어모델이나 자연어생성 성능 지표 개발이 가능할 것이다.

생존분석에서의 기계학습 (Machine learning in survival analysis)

  • 백재욱
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문은 중도중단 데이터가 포함된 생존데이터의 경우 적용할 수 있는 기계학습 방법에 대해 살펴보았다. 우선 탐색적인 자료분석으로 각 특성에 대한 분포, 여러 특성들 간의 관계 및 중요도 순위를 파악할 수 있었다. 다음으로 독립변수에 해당하는 여러 특성들과 종속변수에 해당하는 특성(사망여부) 간의 관계를 분류문제로 보고 logistic regression, K nearest neighbor 등의 기계학습 방법들을 적용해본 결과 적은 수의 데이터이지만 통상적인 기계학습 결과에서와 같이 logistic regression보다는 random forest가 성능이 더 좋게 나왔다. 하지만 근래에 성능이 좋다고 하는 artificial neural network나 gradient boost와 같은 기계학습 방법은 성능이 월등히 좋게 나오지 않았는데, 그 이유는 주어진 데이터가 빅데이터가 아니기 때문인 것으로 판명된다. 마지막으로 Kaplan-Meier나 Cox의 비례위험모델과 같은 통상적인 생존분석 방법을 적용하여 어떤 독립변수가 종속변수 (ti, δi)에 결정적인 영향을 미치는지 살펴볼 수 있었으며, 기계학습 방법에 속하는 random forest를 중도중단 데이터가 포함된 생존데이터에도 적용하여 성능을 평가할 수 있었다.

NEC 시스템의 I/O 성능 향상을 위한 파일 시스템 최적화 구성 (File System Optimization Implement for I/O Efficient Performance of NEC System)

  • 이영주;성진우;장지훈;이상동;김중권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.1347-1350
    • /
    • 2006
  • 최근 인터넷과 같은 개방된 네트워크의 발달로 데이터의 양이 기하급수적으로 증가하고 있으며 데이터의 단위 크기도 커지고 있다. NEC 시스템에서 이러한 크고 많은 데이터들을 효율적으로 관리하고 컴퓨터의 성능을 최대로 활용하기 위하여 파일 시스템을 설계하고 구현하여 그 성능을 시험하고 분석하였다. 전체 컴퓨터의 성능을 결정하는 요소는 CPU와 메모리, 디스크, 그리고 이들을 연결하는 네트워크 등 여러 가지가 있지만 이러한 각각의 부분적인 시스템 중에서 사용자가 수행할 프로그램 특성에 맞게 설계하여 사용할 수 있는 부분은 파일 시스템이다. 파일 시스템은 전체 시스템의 특성과 사용자의 프로그램 용도를 고려하여 알맞게 설계되면 시스템의 성능을 더 향상시킬 수 있다. 본 논문은 NEC 시스템에서의 파일 시스템을 시스템의 특성과 용도에 맞게 설계하고 테스트하여 그 성능 결과를 분석하였다.

  • PDF

IP계층에서의 VPN 전송성능에 관한 연구 (Secure VPN Performance in TP Layers)

  • 임형진;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.717-720
    • /
    • 2001
  • 본 논문에서는 IPSec을 리눅스에서 구현하여 AH, ESP 프로토콜 사용시 노드간 성능을 측정하여 네트웍에서의 보안성능대 처리성능에 대하여 분석하였다. IPSec VPN은 노드간 호스트간 정보보호와 안전한 응용에 대하여 IP계층에서 구현된 보호서비스를 이용할 수 있게 하지만 IPSec에서 사용하는 AH와 ESP에서의 인증데이터의 계산 및 비교, 암호화와 복호화에 의하여 IP프로토콜의 처리비용 및 통신에 대한 잠재비용이 증가하게 된다. 이에 각 프로토콜에서 전송데이타 크기의 점진적 변경에 따라 커널에서 IPSec모듈내 처리 시간과 전체 데이터의 처리시간을 측정하여 보았다. 데이터 전송 크기가 증가함에 따라 Non IPSec 전송에 비하여 IPSsec 전송시 처리지연 시간의 차는 증대되었다. 본 논문에서는 이러한 성능차이를 야기하는 인자들을 평가하여 향후 기존 네트웍에 VPN도입시 성능대 보안에서의 정책 결정의 기반이 될 수 있는 분석을 제시하고 있다.

  • PDF

병렬 분산파일시스템의 성능 분석을 통한 최적화 연구 (Study of Optimization through Performance Analysis of Parallel Distributed Filesystem)

  • 윤준원;송의성
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권5호
    • /
    • pp.409-416
    • /
    • 2016
  • 최근 빅데이터 이슈가 화두가 됨에 따라 대학, 산업체, 연구소 등에서는 다양한 데이터들을 수집, 분석 하려는 노력이 활성화 되고 있다. 여기에는 과거부터 축적된 데이터, 현재에 바로 분석이 불가능하더라도 잠재적인 의미를 가지고 있는 데이터 등 대량의 데이터들이 수집되어 의미론적인 분석을 통해 가치 있는 분석결과를 얻게 된다. 이를 위해 전 세계적으로 대용량의 데이터 요구를 처리 할 수 있는 고성능 스토리지 시스템의 수요가 증가하고 있다. 또한, 여러 사용자들에게 축적된 대량의 데이터에 동시에 접속하여 다양한 분석을 수행할 수 있도록 안정성 있는 병렬 분산파일시스템을 제공해야 한다. 본 연구에서는 위와 같이 안정성 있는 파일시스템을 제공하기 위해 반드시 고려되어야 할 스토리지 시스템의 I/O 대역폭, 메타데이터의 성능 등을 파악하고 최적의 환경을 구성하기 위한 방법을 제시하고자 한다.

빅 데이터를 위한 행렬 곱셈의 성능 분석 (Performance Analysis of Matrix Multiplications for Big Data)

  • 권일택;조용연;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.747-749
    • /
    • 2014
  • 행렬 곱셈은 다양한 사회연결망을 포함한 빅 데이터 분석에 핵심이 되는 연산 중 하나이다. 본 연구에서는 행렬 곱셈 방법 중 내적과 행-행 곱셈에 대한 성능 분석과 실제 사회연결망 데이터 셋을 이용한 행렬 곱셈 시간을 분석한다. 본 연구의 실험환경에서 행렬 곱셈 방법 중 행-행 곱셈이 내적보다 약 125 배 빠르다는 것을 확인했고, 실제 사회연결망 데이터 셋을 행렬 곱셈했을 때의 시간은 읽기, 쓰기 등 저장장치 접근 시간이 행렬 곱셈 전체 수행 시간의 약 90% 이상 차지한다는 것을 확인했다. 따라서 사회연결망 데이터 분석을 위한 행렬 곱셈에서 저장 장치 접근 시간을 줄이는 것이 전체 계산 수행 시간을 줄이는 것의 핵심임을 이야기한다.

고차원 멀티미디어 데이터에 대한 내용기반 검색을 위한 인덱싱 방법들의 성능 평가 (A Performance Evaluation of Indexing Methods for Content-based Retrieval of High Dimensional Multimedia Data)

  • 문주선;최정훈;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (A)
    • /
    • pp.345-346
    • /
    • 2008
  • 멀티미디어 데이터베이스의 효과적인 내용 기반 검색을 위한 많은 색인 방법들이 연구되어왔지만 정작 동일한 데이터 집합과 동일한 평가 기준으로 서로 다른 검색 방법들의 성능을 분석한 실험은 이뤄지지 않았다. 본 논문에서는 기존의 대표적인 색인 방법들을 구현하고 공통의 데이터 집합에 대한 색인 검색을 여러 성능 측정 기준에 따라 분석함으로써 각 색인 방법들의 특징 및 성능을 객관적으로 평가하였다. 향후 본 논문에서 실험한 결과들을 이용하면 특정 데이터 집합에 효과적인 색인 방법을 선택할 수 있을 것이다.

  • PDF

독립변수의 차원 감소에 의한 일반회귀 신경망의 성능개선 (Performance Improvement of General Regression Neural Network by Reducing Dimensionality of Independent Variables)

  • 조용현
    • 한국지능시스템학회논문지
    • /
    • 제10권6호
    • /
    • pp.533-541
    • /
    • 2000
  • 본 논문에서는 독립변수들의 차원을 감소시켜 일반회귀 신경망의 성능을 개선하는 방법을 제안하였다. 제안된 방법에서는 적응적 학습 알고리즘의 주요성분분석 기법을 이용하여 독립변수 패턴의 특징을 추출하고 이를 일반회귀 신경망의 학습데이터로 이용하였다. 이는 주요성분분석 기법이 가지는 대용량의 입력 데이터를 통계적으로 독립인 특징들의 집합으로 변환시키는 속성을 살려 학습데이터의 차원을 감소시킴으로서 고차원의 학습데이터에 따른 일반회귀 신경망이 가지는 제약을 해결하기 위함이다. 제안된 기법의 일반회귀 신경망을 3개의 독립변수 패턴을 가진 암모니아 제조공정문제와 10개의 독립변수 패턴을 가진 자동차 연비문제에 각각 적용하여 시뮬레이션한 결과, 기존의 일반회귀 신경망에 의한 결과와 비교할 때 더욱 우수한 학습성능과 회귀성능이 있음을 확인할 수 있었다. 그리고 커널함수의 평활요소 설정 면에서도 우수한 특성이 있음을 확인할 수 있었다.

  • PDF

비동기 시스템 역방향 링크의 성능분석 및 패킷수신기에 관한 연구

  • 성락주;이문호
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2000년도 춘계학술대회논문집
    • /
    • pp.173-181
    • /
    • 2000
  • 본 논문에서는 비동기 방식 CDMA의 표준화 기관인 3GPP(3rd Generation Partnership Project) 규격에 의거 비동기 IMT-2000 역방향 링크의 Physical layer flatform simulation을 수행하여 차세대 이동통신의 성능 분석 및 파라메터를 도출하였다. 역방향 링크의 성능은 채널 환경과 데이터 전송율, 채널 코딩 기법, 변복조 방식 등에 의해 크게 좌우된다. 따라서, 광대역 채널 모델링과 ITU-R 평가 환경에 근거하여 데이터 전송율에 따른 시스템 성능과 채널 환경에 따른 시스템 성능, 터보 부호화에 따른 성능, 터보 인터리버 종류에 따른 성능 및 OCQPSK 변복조 방식에 따른 성능을 분석하여 비동기 방식 시스템의 기술적 근거 및 타당성을 제시하며 차세대 이동 통신 서비스의 전개시기에 적절한 연구로서 활용될 수 있는 자료를 제시하였다.

  • PDF