• 제목/요약/키워드: 데이터 분석성능

검색결과 5,877건 처리시간 0.035초

이기종 환경에서 RDF 컨버터 이용한 데이터 형식 통합 관련 연구 (Research on Integrated Data Format Using RDF Converter in Heterogenous Environment)

  • 박희정;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.503-505
    • /
    • 2014
  • 지능형 웹의 확장을 위해 링크드 데이터(Linked Open Data)를 통한 표준화 연구가 활발하게 진행되고 있다. 뿐만 아니라 링크드 데이터는 RDF, SPARQL을 이용한 정보를 더욱 더 지능적이고 다양한 분야에 적용 할 수 있는 방법으로 제시되고 있다. 하지만 이기종 환경에서는 각각 서로 다른 데이터 형식을 지니게 되므로 통합환경을 구축하는데 어려움이 따른다. 이를 위해 본 논문에서는 다양한 이기종 환경에서의 데이터 형식 변환이 가능한 RDF 컨버터를 제안한다. 제안하는 RDF 컨버터는 SPARQL를 비롯한 다양한 질의어로 데이터의 효율적인 분석, 변환이 가능하다. 성능평가를 통해 RDB 데이터 형식 분석과 RDF 데이터 변환에 대한 정확도를 확인하였고 D2RQ와 Jena2의 비교를 통해 서로 다른 RDB 데이터가 D2RQ에서 변환시간이 4.2% 빠르다는 성능을 증명하였다.

  • PDF

대역효율 및 전송성능 향상을 위한 추가 데이터 전송기법 (Additional Data Transmission for Improved Bandwidth Efficiency and Transmission Performance)

  • 홍성원;김상기;한동석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.299-300
    • /
    • 2015
  • 본 논문에서는 ADT 전송기법에서 추가 데이터에 채널 부호화를 적용하여 전송률 손실 없이 성능을 향상시킬 수 있는 방법을 제안하였다. ADT 전송기법은 추가로 전송할 데이터에 따라 성상을 다르게 하여 보내는 전송기법이다. ADT 전송기법에서는 수신단에서 실제로 전송되지 않는 추가 데이터를 얼마나 잘 검파하는지에 따라 시스템 성능이 좌우된다. 이에 성능 향상을 위하여 추가 데이터에 채널 부호화를 적용하였다. 일반적인 통신 시스템에서는 채널 부호화를 적용할 경우 데이터 전송률의 감소가 필연적으로 발생하게 된다. 그러나 본 논문에서 제안하는 방법은 실제 전송되지 않는 추가 데이터에 채널 부호화를 적용함으로써 전송률 손실을 방지하였다. 또한 제안한 방법을 컴퓨터 모의실험을 통하여 분석하였다.

  • PDF

데이터 정제를 통한 딥러닝 기반의 유저 맞춤형 음식추천시스템 (User-specific Food Recommended System Using Data Cleaning)

  • 김균엽;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.578-581
    • /
    • 2020
  • 제품을 추천하는 기능은 사용자의 콘텐츠 또는 제품 소비량에 직결되기에 다양한 인터넷 플랫폼에서 많은 관심을 받고 있다. 이러한 제품 추천 시스템의 성능은 다양한 머신러닝 알고리즘과 딥러닝의 발전에 의해 성능을 비약적으로 개선되어왔다. 하지만 여느 딥러닝과 머신러닝 알고리즘과 마찬가지로 추천 시스템들의 성능은 빅데이터의 품질에 따라 매우 민감한 영향을 받는다. 본 논문에서는 모바일 배달 플랫폼에서 사용자들의 리뷰 데이터들을 통해 딥러닝과 빅데이터를 사용하여 음식을 추천하는 방법을 제안한다. 또한 사용자들의 리뷰 데이터들을 정제하여 데이터의 품질을 높이는 과정을 추가하여 그 결과가 성능에 얼마만큼 영향을 미치는 지를 실험을 통하여 분석한다.

  • PDF

소용량 데이터베이스 처리를 위한 DBMS의 성능 비교 (Comparison of DBMS Performance for processing Small Scale Database)

  • 장시웅
    • 한국정보통신학회논문지
    • /
    • 제12권11호
    • /
    • pp.1999-2004
    • /
    • 2008
  • 대규모 용량의 데이터베이스를 처리하기 위한 상용 DBMS에 대한 성능의 비교는 벤치마크 테스트로 결과가 주어진 경우가 많은 반면, 소규모 용량의 데이터베이스를 처리하기 위한 DBMS의 성능에 대해서는 많이 알려져 있지 않다. 따라서 본 연구에서는 소규모 용량의 데이터 베이스를 처리하기 위한 상용 DBMS 및 공개용 DBMS의 성능에 대해 비교하고 분석하였다. 분석 결과, 오라클은 데이터 갱신 및 삽입에 관한 연산에서는 데이터의 안전성 보장을 위한 rollback 기능의 준비 작업이 많아 좋지 못한 성능을 보인 반면, MySQL이나 MS-SQL등의 경우에는 별다른 오버헤드가 없어 오라클에 비해 좋은 성능을 보였다.

단일 단계 검출 방법을 위한 이미지 합성기반 학습 데이터 증강에 관한 연구 (A Study on Synthesizing Training Data for One-stage Object Detector)

  • 이선경;정치윤;문경덕;김채규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.446-450
    • /
    • 2020
  • 딥러닝 기반의 영상 분석 방법들은 많은 양의 학습 데이터가 필요하며, 학습 데이터 구축에는 많은 시간과 노력이 소요된다. 특히 객체 검출 분야의 경우 영상 내 객체의 위치, 크기, 범주 등의 정보가 모두 필요하여 학습 데이터 구축에 더 많은 어려움이 있으며, 이를 해결하기 위해 최근 이미지 합성기반 데이터 증강에 관한 연구가 활발히 진행되고 있다. 이미지 합성기반 데이터 증강 방법은 배경 영상에 객체를 합성할 때 객체와 배경 영상이 접한 영역에서 아티팩트(Artifact)가 발생하며, 이는 객체 검출 모델이 아티팩트를 객체의 특징으로 모델링하여 검출 성능이 저하되는 원인이 된다. 이러한 문제를 해결하기 위하여 본 논문에서는 양방향 필터 기반의 이미지 합성 방법을 제안하고, 단일 단계 검출의 대표적인 방법인 RetinaNet을 이용하여 이미지 합성기반 데이터 증강 방법의 성능을 분석하였다. 공개 데이터셋에 대한 실험 결과 본 논문에서 사용한 단일 검출 방법 및 데이터 증강 기법을 사용하면 더 적은 양의 증강 데이터로 기존 방법과 동일한 성능을 보여주는 것을 확인하였다.

데이터 결합이 웹 문서 검색성능에 미치는 영향 연구 (A Study on the Effect of Data Fusion on the Retrieval Effectiveness of Web Documents)

  • 박옥화;정영미
    • 정보관리연구
    • /
    • 제38권1호
    • /
    • pp.1-19
    • /
    • 2007
  • 이 연구에서는 최근 검색성능을 향상시키기 위한 전략으로 사용되는 데이터 결합기법을 웹 문서 검색에 적용하고, 실험을 통해 문서표현 방법의 결합이 검색성능에 미치는 영향을 분석하였다. 문서 표현 방법으로는 내용기반 표현, 링크기반 표현,URL 등을 선정하고, 단일 표현 방법에 의한 검색결과와 표현방법의 결합을 통한 검색결과를 비교하였다. 분석결과 다른 문서표현 방법의 결합이 웹 문서의 검색성능을 향상시키지는 못하는 것으로 나타났다.

실해역 운항 데이터를 활용한 최적항로 지원 시스템의 효과 검증

  • 정세용;안경수;양진호;조춘제
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2015년도 추계학술대회
    • /
    • pp.66-68
    • /
    • 2015
  • 최적항로 지원 시스템은 실해역 속도 성능 예측방법에서의 선택 근거확보와 정확도 평가를 위한 효과 검증이 반드시 필요하다. 하지만 이 같은 성능검증에 있어서 동일한 선박에 대한 다양한 대안 항로에서의 동시성능계측이 불가능하기 때문에 효과를 직접 비교하기는 상당히 어렵다. 따라서 본 논문에서는 최적항로 지원 시스템의 효과 검증을 위한 간접적인 절차를 제안하였고, 시스템의 내부 분석코드를 이용하여 효과를 비교 검증하였다. 그 절차는 1) 계산의 근거 인기상 정보의 정확성 검증, 2) 실제 항로에서의 성능예측계산의 신뢰성 확인, 3) 신뢰성이 확보된 계산방법을 이용한 최적항로선택, 4) 실제 항로와 최적항로의 연료 효율성 비교의 4단계로 이루어진다. 대상 선박은 폴라리스쉬핑의 솔라돌핀호(208k BC)이며 실선 운항 데이터는 최적항로 지원 시스템을 통하여 직접 계측하였다. 그 결과 호주-한국 항차에서 최적항로를 항해할 경우 약 6.0%의 연료 절감 효과를 기대할 수 있음을 확인하였다.

  • PDF

데이터베이스 성능 향상을 위한 기계학습 기반의 RocksDB 파라미터 분석 연구 (A Study on the Analysis of RocksDB Parameters Based on Machine Learning to Improve Database Performance)

  • 김휘군;최원기;최종환;성한승;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.69-72
    • /
    • 2020
  • Log Structured Merged Tree(LSM-Tree)구조를 사용하여 빠른 데이터 쓰기 성능을 보유한 RocksDB에는 쓰기 증폭과 공간 증폭 현상이 발생한다. 쓰기 증폭은 과도한 쓰기 연산을 유발하여 데이터 처리 성능 저하와 플래시 메모리 기반 장치의 수명 저하를 초래하며, 공간 증폭은 데이터 저장 공간 점유로 인한 저장 공간 부족 문제를 야기한다. 본 논문에서는 쓰기 증폭과 공간 증폭 완화를 위해 RocksDB 의 성능에 영향 주는 주요 파라미터를 추출하고, 기계학습 기법인 랜덤 포레스트를 사용하여 추출한 파라미터가 쓰기 증폭과 공간 증폭에 미치는 영향을 분석하였다. 실험결과 쓰기 증폭과 공간 증폭에 영향을 많이 주는 주요 요소를 선별하였고 다른 파라미터에 대비해서 성능 격차가 61.7% 더 나타낸 것을 발견하였다.

건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석 (Performance Evaluation between Models for Smoker Classification Based on Health Examination Data)

  • 윤지선;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.648-651
    • /
    • 2018
  • 흡연여부를 감별하는 지표가 있지만 반감기 등 여러 가지 요인에 따라 결과가 변한다는 단점이 있다. 그렇기 때문에 흡연여부 감별 시 외부요인에 영향을 덜 받는 지표가 필요하게 되었다. 그래서 흡연 여부 감별하는데 적합한 모형을 찾아 외부요인에 영향이 적은 지표를 개발에 도움이 될 것을 기대하며 연구를 진행하였다. 실험은 국민건강보험공단에서 제공한 건강검진정보데이터를 기반으로, SVM, Logistic Regression, KNN 등의 머신러닝 모델을 이용하여 흡연 여부를 감별하는 것을 진행한다. 이 실험은 속성에 따른 모형의 성능변화와 학습데이터 수에 따른 모형의 성능변화에 대한 2가지 측면에서 모델의 성능을 측정하였다. 모델의 평가는 정확도(accuracy), 정밀도(precision), 재현율(recall), 조화 평균(f1-score)으로 진행하였으며, 약 70퍼센트 정도의 정확도와, 60퍼센트 대의 재현율을 보인다. 실험 결과, SVM이 속성에 따른 모형의 성능 변화 실험에서는 63%의 재현율, 학습데이터 수에 따른 성능 변화 실험에서는 68%의 재현율을 보여, 흡연자 판별에 가장 좋은 성능을 보였다. 또한 재현율을 기준으로 실험 차수별로 가장 좋은 성능을 보인 모델과 가장 저조한 성능을 보인 모델의 차이를 비교한 결과, '속성에 따른 모형의 성능 변화 실험'에서는 최고 36%의 차이를 보였으며, '학습데이터 수에 따른 성능 변화 실험'에서 최고 42%의 차이를 보여 주었다. 이에 판별을 위한 속성도 중요하지만, 적합한 모형 선택 또한 중요하다는 것을 확인하였다.

다대다 응용 계층 멀티캐스트 프로토콜에서의 처리 지연 시간 영향 분석 (An Analysis of Impact of Processing Delay in Many­to­many Application Layer Multicast Protocols)

  • 김성훈;강경란;이동만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.289-291
    • /
    • 2003
  • IP멀티캐스트가 현재 보편적 서비스로 사용되지 못하는 한계로 인하여 그 대안으로 응용 계층 멀티캐스트 기법들이 제안되고 있다. 기존의 응용 계층 멀티캐스트의 성능 분석 기준으로 네트워크 자원의 효율적 사용면을 고려하여 스트레스, 스트레치와 전송 트리 관리 비용등이 사용되었다. 그러나, 응용 계층 멀티캐스트는 데이터의 전송이 참가자인 종단 시스템에 의해 이루어지고, 종단 시스템은 범용 장비로서 데이터 전달에 최적화된 성능을 갖지 못한다. 따라서, 데이터 전달을 위해 종단 시스템에서의 처리 지연이 발생하고 이로 인한 종단간 데이터 전송 지연에 영향을 끼치게 된다. 본 논문에서는 종단 시스템에서의 데이터 전달을 위한 전달 지연 시간을 모델링 하고, 대표적 다대다 응용 계층 멀티캐스트 기법인 End­system Multicast와 NICE에 대하여 종단 시스템에서 발생하는 처리 지연 시간이 전체 참가자간의 데이터 전송 지연 시간에 미치는 영향을 분석한 결과를 기술한다.

  • PDF