• 제목/요약/키워드: 데이터 분석성능

검색결과 5,877건 처리시간 0.038초

클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석 (Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제45권6호
    • /
    • pp.179-186
    • /
    • 2008
  • 본 논문에서는 베이지안 알고리즘이 불균형 데이터의 학습 시 나타나는 현상을 분석하고 성능 평가 방법을 비교하였다. 사전 데이터 분포를 가정하고 불균형 데이터 비율과 분류 복잡도에 따라 발생된 분류 문제에 대해 베이지안 학습을 수행하였다. 실험 결과는 ROC(Receiver Operator Characteristic)와 PR(Precision-Recall) 평가 방법의 AUC(Area Under the Curve)를 계사하여 불균형 데이터 비율과 분류 복잡도에 따라 분석되었다. 비교 분석에서 불균형 비율은 기 수행된 연구 결과와 같이 베이지안 학습에 영향을 주었으며, 높은 분류 복잡도로부터 나타나는 데이터 중복은 학습 성능을 방해하는 요인으로 확인되었다. PR 평가의 AUC는 높은 분류 복잡도와 높은 불균형 데이터 비율에서 ROC 평가의 AUC보다 학습 성능의 차이가 크게 나타났다. 그러나 낮은 분류 복잡도와 낮은 불균형 데이터 비율의 문제에서 두 측정 방법의 학습 성능의 차이는 미비하거나 비슷하였다. 이러한 결과로부터 PR 평가의 AUC는 클래스 불균형 문제의 학습 모델의 설계와 오분류 비용을 고려한 최적의 학습기를 결정하는데 도움을 줄 수 있다.

Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석 (Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning)

  • ;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.437-440
    • /
    • 2021
  • 지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

Interactive 데이터 서비스를 위한 무선 패킷망의 성능 분석 (Performance of Wireless Packet Access Network for Interactive Data Service)

  • 조민희;윤순영
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 I
    • /
    • pp.149-152
    • /
    • 2003
  • All-IP 망에서는 core 망 뿐만 아니라 무선망 모두 IP 공유패킷망 (shared packet network)으로 구성된다. 특히 유선망에 비해 대역폭이 제한적인 무선패킷망에서 사용자의 QoS 요구를 만족시키면서 성능을 최대화시키는 것은 매우 중요하다. 본 논문에서는 Web-browsing 과 같은 대화형 (interactive) 데이터 사용자를 위한 무선공유패킷망을 모델링하고 사용자 관점의 성능 분석 결과와 시뮬레이션 결과를 보인다.

  • PDF

SSD 기반의 데이터 버퍼 교체 정책 분석 (A Study on Data Buffer Replacement Policy in Solid State Drives)

  • 강동현;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.56-57
    • /
    • 2014
  • 최근 HDD와는 다른 성능 특성을 가진 SSD가 빠르게 보급됨으로써, SSD의 성능 특성을 고려한 연구들이 활발하게 진행되고 있다. 특히, SSD의 내부에 위치한 작은 사이즈의 램 버퍼를 활용함으로써 SSD의 랜덤 쓰기의 성능을 향상시키기 위한 기법들이 연구되고 있다. 본 논문에서는 SSD의 구조를 확인하고 기존 데이터 버퍼 교체 기법에 대한 분석 및 비교를 수행한다.

대학교 교내식당을 위한 식사 인원 예측 모델 개발 (The Development of Prediction Models for the Number of People for Meal at University Cafeteria)

  • 정광원;조태근;김기원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.535-536
    • /
    • 2023
  • 본 논문에서는 대학교 교내 식당의 실제 데이터를 사용해 식사 인원 예측 모델을 개발하여 교내식당에서 발생하는 적자, 음식 품절, 대량 잔반 발생을 경감 시키고자 한다. 모델 개발에 사용되는 데이터는 2018년도, 2019년도 학기 중 식당 데이터와 기상청 날씨 데이터를 사용하였다. 2018년도, 2019년도 데이터를 이용해 EDA 분석 및 전처리를 통해 필요한 변수를 추출하였다. 전체 데이터의 70%를 기반으로 GridSearch와 XGBoostRegressor를 사용해 평일과 주말에 대한 식사 인원 예측 모델을 생성하였다. 그리고 나머지 데이터의 30%를 사용해 생성한 두 모델의 성능을 평가한다. 평일 식사 인원 예측 모델에 대한 MAE값이 조식 16명, 중식 23명, 석식 25명으로 준수한 결과를 보였고 주말 식사 인원 예측 모델에 대한 MAE값은 조식 16명, 중식 23명, 석식 25명으로 좋은 성능을 보였다.

  • PDF

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

MAHA-FS : 고성능 메타데이터 처리 및 랜덤 입출력을 위한 분산 파일 시스템 (MAHA-FS : A Distributed File System for High Performance Metadata Processing and Random IO)

  • 김영창;김동오;김홍연;김영균;최완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.91-96
    • /
    • 2013
  • 바이오 응용과 같은 대용량 데이터 처리와 고성능 계산을 동시에 지원하는 발판으로 슈퍼컴퓨팅 시스템의 활용 분야가 변화하고 있다. 이러한 응용에서는 발생하는 대용량의 데이터를 고속으로 처리하고 효율적으로 저장 관리하기 위한 고성능의 분산 파일 시스템이 요구된다. 본 논문에서는 대용량의 데이터 처리와 고성능 계산을 동시에 지원하는 슈퍼컴퓨팅 시스템을 위해 우수한 메타데이터 연산 성능 및 입출력 성능을 제공하는 MAHA-FS를 소개한다. 아울러 성능 분석을 통해 MAHA-FS가 메타데이터 연산 처리 성능 및 random 입출력 성능이 우수함을 보인다.

웹 로그 데이터의 OLAP 연산을 위한 희박성 분석 (Web Log Data Sparsity Analysis for OLAP)

  • 김지현;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.58-60
    • /
    • 2001
  • 하루에도 수십 수백 메가 바이트까지 증가하는 웹 로그 데이터를 이용하여 실시간에 다차원분석을 가능하게 하기 위해서는 OLAP의 적용이 필요하다. 하지만 OLAP을 적용하는데 있어서 빠른 응답시간을 얻기 위해 사전처리(Precomputation)를 수행 할 시 심각한 데이터의 희박성으로 인해 데이터 폭발 현상이 발생된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 OLAP적용 시 희박성을 일으키는 원인들을 밝히고, 2, 3 차원에서의 희박성 형태를 분석함으로써 웹 로그 데이터의 희박성 처리 방식 및 성능평가에 기반이 되게 한다.

  • PDF

설치 형태에 따른 파이프 하이드로폰의 소류사량 계측 성능 비교 분석 (Comparison and Analysis of Discharge Measurement Performance of Pipe Hydrophone According to Installation Type)

  • 김성욱;전계원;장창덕;윤영호
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.141-141
    • /
    • 2023
  • 본 연구에서는 음향센싱 기법을 활용하여 소류사량 계측이 가능한 센서인 파이프 하이드로폰을 2가지 형태로 개발하여 설치 형태에 따른 소류사량 계측 성능을 비교·분석하였다. 파이프 하이드로폰은 수리구조물 끝단에 설치하는 부착식 하이드로폰과 하천 하상에 설치 가능한 형태로 제작하였으며, 파이프 하이드로폰의 실내 실험을 위한 수리실험장치를 구축하였다. 소류사 음향 데이터를 수집 및 저장하기 위해 National Instrument사에서 개발된 LabVIEW 언어를 이용하여 데이터 분석 프로그램을 개발하였으며, 데이터를 시계열 그래프로 표출하여 센서를 통해 계측되는 소류사의 특성을 분석하였다. 분석 결과 하천 하상 설치 형태의 파이프 하이드로폰은 후류가 발생하여 센서 후면으로 소류사가 재충돌되는 현상이 발생하였으며, 이에 6~9% 정도의 과다 산출되는 것을 확인할 수 있었다. 또한 소류사가 센서에 퇴적되어 지속적인 데이터를 취득하기에는 적합하지 못할 것으로 판단되었다. 동일한 조건으로 실험한 부착식 하이드로폰은 후류로 인한 재충돌 현상 및 퇴적현상 또한 발생하지 않았으며, 소류사량 추정 결과 90.9%로 양호한 수준의 성능이 확인되었다.

  • PDF

이동 컴퓨팅을 위한 K-Level Indexing Broadcast 기법의 성능분석 (Performance Analysis K-Level Indexing Data Broadcast Schemes for Resilient Mobile Computing)

  • 정의종;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.505-507
    • /
    • 2000
  • 이동 컴퓨팅에서 사용되는 단말기는 배터리의 제약과 이동통신망의 높은 장애율로 사용에 불편을 느낀다. 여러 mobile client는 공통 관심이 있는 데이터를 서버로부터 받는 방법으로 broadcasting을 많이 쓰는데, 이때 indexing 기법을 이용해 클라이언트는 원하는 데이터를 filtering해서 수신함으로서 에너지의 효율적 사용을 기할 수 있다. index를 중복시킴으로써 원하는 데이터 접근(access) 시간을 줄이고 무선 통신망의 장애에 따른 성능저하를 줄일 수 있다. 본 논문에서는 K-level indexing 기법을 위한 장애율에 따른 최적의 중복회수를 구하고 데이터 수신시 데이터 시간과 튜닝(tuning)시간을 구한다.

  • PDF