• 제목/요약/키워드: 데이터 평가

검색결과 9,778건 처리시간 0.07초

데이터 품질 평가에 관한 연구 (A Study of the Data Qualituy Evaluation)

  • 정혜정
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.119-128
    • /
    • 2007
  • 본 연구는 데이터 품질 평가란 관점에서 현재 진행되어지고 있는 국제 표준 ISO/IEC 25000시리즈인 SQuaRE(Software Quality Requirements and Evaluation) 프로젝트 중에서도 ISO/IEC 25012의 데이터 품질 평가 모델에 대한 연구이다. 데이터의 양이 많아지면서 사용자 관점에서는 정확한 데이터, 최신의 데이터, 사용하는 도구에 적합한 데이터, 보안성과 비 공개성을 준수할 수 있는 데이터를 원한다. 저 품질의 데이터가 비즈니스에 미치는 영향을 평가하여 실제적으로 적용할 수 있는 관점에서 데이터 품질 관리에 대한 것을 연구한다. 이러한 관점에서 데이터에 대한 품질을 평가할 수 있는 평가항목을 제시하고 제시된 평가항목의 평가 방안에 대해서 제시한다. 본 연구는 현재 진행되어지고 있는 ISO/IEC 25012의 표준문서와 소프트웨어 품질관리 표준문서 ISO/IEC 9126-2를 기초로 하여 연구되었으며 현재 진행되어지고 있는 소프트웨어 품질평가 모델 ISO/IEC 2500을 기반으로 하여 데이터 품질을 정량적으로 평가하는 방안을 제시한다.

  • PDF

RFID 미들웨어 평가를 위한 테스트 데이터셋의 품질 지표 (Quality Metrics for RFID Test Dataset to Evaluate RFID Middleware)

  • 류우석;권준호;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.141-143
    • /
    • 2012
  • RFID 미들웨어의 평가를 위한 방법으로서, 테스트 데이터셋을 이용한 시뮬레이션은 일반적으로 사용되는 평가 방법이다. 태그 식별자에 따라 순차생성된 가상 데이터셋이나 랜덤 생성된 데이터셋의 경우 미들웨어의 단순 처리량을 평가하기에는 유용하나 미들웨어의 정확성이나 실행 가능성를 평가하기에는 한계가 있다. 테스트 데이터셋은 실제 리더에서 생성된 데이터셋과 매우 유사하여야 함에도 불구하고, 테스트 데이터셋의 품질 기준이 정의되어 있지 않음에 따라 테스트 데이터셋이 얼마만큼 실제 데이터셋과 유사한 지를 평가하기가 어려운 문제가 있다. 이를 위해 본 논문에서는 RFID 미들웨어의 평가에 사용되는 테스트 데이터셋의 품질을 평가하기 위한 품질 지표를 제안한다. 제안하는 품질 지표는 실제 RFID 리더에 태그가 통과할 때 생성되는 데이터 셋을 기반으로 하여 정의하였으며, RFID 무선 인식의 고유의 특성, 즉 중복성과 불확실성을 수치화해서 표현하는 특징이 있다. 또한 제안한 품질 지표를 실제 RFID 리더를 통해 생성한 데이터셋에 적용하여 비교 검토함으로써 품질 지표의 유용성을 입증한다.

FAIR 원칙 기반 메타데이터 평가 프레임워크 (FAIR Principle-Based Metadata Assessment Framework)

  • 박진효;김성희;윤주상
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.461-468
    • /
    • 2022
  • 최근 빅데이터 산업의 발전으로 디지털 플랫폼에서 데이터 활용 서비스를 제공하는 사례가 증가하고 있다. 이와 관련해 데이터 관련 분야에서 (메타)데이터 품질, 서비스, 기능 등의 평가에 적용할 수 있는 FAIR 원칙을 데이터 품질 평가에 적용하여 활용하는 연구가 진행되고 있다. 특히, 유럽 오픈 데이터 포털에서는 FAIR 원칙 기반의 평가 모델을 적용하여 이를 기준으로 데이터 성숙도 평가를 시행하고 그 결과를 매년 보고서로 공개하고 있다. 이에 반해 공공데이터 포털에서는 메타데이터를 기반으로 한 데이터 성숙도 평가를 시행하고 있지 않다. 따라서 본 논문에서는 유럽 오픈 데이터 포털에서 데이터 성숙도 평가를 위해 사용되고 있는 FAIR 원칙을 국내 여러 공공데이터 포털 및 데이터 거래를 위해 구축된 빅데이터 플랫폼에 데이터 성숙도 평가를 위한 새로운 모델 제안하고 평가를 시행한다. 제안한 성숙도 평가 모델은 공공데이터 포털 데이터셋 품질을 평가하는 모델이다.

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

게임 그래픽 데이터의 품질평가지표 개발 프로세스 (The Development Process of Quality Evaluation Indicators for Game Graphical Data)

  • 윤선정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.113-114
    • /
    • 2012
  • 게임이 기획, 그래픽, 프로그램의 복합적 기능을 가진 콘텐츠이지만 특별히 수준 높은 그래픽 데이터는 이용자의 만족도, 몰입 등에 긍정적인 영향을 미치는 중요한 영역이다. 그러나 아직 국내외에 게임 그래픽 데이터의 품질을 객관적으로 평가할 수 있는 기준이 마련되어 있지 않다. 이에 따라 본 논문에서는 게임 그래픽 데이터의 품질 평가를 위한 지표를 개발하는 프로세스를 제안한다. 제안된 프로세스는 그래픽 데이터의 품질 평가 영역 추출을 위한 방법과 세부 평가 지표 마련을 위한 평가 항목 추출방법들로 구성된다. 본 연구 결과는 고품질 게임 개발을 위한 품질평가 지표 개발에 적용될 것이며 관련 분야의 품질평가 모델 개발의 참조 모델이 될 것이다. 향후 본 연구는 국내외 게임 그래픽 데이터의 품질평가 표준안 설계 개발로 진행될 예정이다.

  • PDF

XML 데이터베이스 시스템 성능 평가를 위한 통합 XML 데이터 생성기의 설계 (Design of an Integrated XML Data Generator for the Performance Evaluation of XML DBMSs)

  • 신선미;정회진;이상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.7-10
    • /
    • 2004
  • XML 데이터베이스 시스템이 개발되면 다른 XML 데이터베이스 시스템과의 성능 비교, 또는 자체 기능에 대한 성능 평가를 수행한다. 성능 평가를 수행하기 위해서는 해당 성능 평가에 적합한 XML 데이터를 생성하는 XML 데이터 생성기가 필요하다. 본 논문에서는 지금까지 개발되었던 다양한 XML 데이터 생성기들의 특징 및 장단점을 살펴보고, 이를 기반으로 하나의 사용자 인터페이스를 이용하여 XML 데이터를 생성하는 통합 XML 데이터 생성기의 설계 내용을 기술한다. 통합 XML 데이터 생성기는 레코드 단위의 텍스트 데이터 파일의 내용을 기반으로 XML 데이터를 생성한다. 통합 XML 데이터 생성기는 관계형 데이터베이스 시스템의 데이터를 이용하여 XML 데이터로 생성하는 등 사용자가 제공하는 데이터 활용이 가능하며, 타 XML 데이터 생성기에 비해 다양한 XML 데이터를 생성함으로써 광범위한 XML 데이터베이스 시스템 성능 평가에 이용될 수 있다.

  • PDF

공공데이터 개방 평가지표 개발을 통한 현황분석 및 가시화 (Service Level Evaluation Through Measurement Indicators for Public Open Data)

  • 김지혜;조상우;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.53-60
    • /
    • 2016
  • 공공데이터 포털에 공개된 지자체 데이터와 공공기관 데이터를 자동으로 수집한 후, 공공 데이터의 개방현황 및 다양한 영역별 데이터 제공여부, 파일 형식 등 다양한 기준으로 다차원 분석하여 서비스 수준 평가를 제공하고자 한다. 이를 위해, 해외 평가지표 사례를 바탕으로 평가지표 내용을 설정한 후 이를 기준으로 데이터웨어하우스(DW)를 구축하였으며, 다차원 분석 기법을 사용한 서비스 수준평가 결과를 지역별로, 기관별로, 분야별로 시각화한다.

  • PDF

데이터거래 활성화를 위한 데이터상품가치 평가모델 연구 (Data Product Value Evaluation Method for Data Exchange Platform)

  • 김수진;이정현;박천웅
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.34-46
    • /
    • 2021
  • 국내 데이터 거래시장은 구매데이터의 불합리한 가격책정이 데이터 거래 시의 주요 애로사항으로 지속적으로 언급되고 있다. 이는 상품정보 및 사용경험 부족으로 인해 데이터상품의 가치를 제대로 평가할 수 없는데서 발생한 문제로, 데이터 거래소는 거래활성화를 위해 가격 외에 수요자가 데이터상품의 가치를 종합적으로 판단할 수 있는 정보 제공이 필요하다. 데이터 가치평가에 주로 적용되는 원가기반, 수익기반, 시장기반 평가방법은 공급자 관점에서의 가치평가결과인 가격정보만 수요자와 공유가능하기 때문에 거래 및 유통을 활성화하기 위한 데이터가치평가방법으로는 부족한 점이 있다. 본 논문은 데이터거래 이해관계자(거래소, 공급자, 수요자)가 공통된 시각으로 데이터상품의 가치를 판단하고 공유할 수 있는 측정가능한 가치평가방법을 개발하는 것을 목표로 한다. 이를 위해 해외 데이터거래소 및 관련 연구에서 중요하게 생각하고 있는 데이터상품의 가치동인을 파악하고, 가치동인별로 정량적 측정이 가능한 평가방식을 도출하였다. 또한, 거래용 데이터상품을 활용하여 평점표 형식의 평가기준을 개발하고, 상대적 가치비교가 가능하도록 계층화분석(AHP)을 통해 가치평가지수를 개발하였다. 실제 데이터상품에 평가기준을 적용할 결과, 개별 데이터상품의 특성에 따라 가치평가값이 차별화됨에 따라 가치비교도구로 활용가능함을 알 수 있었다.

과학기술데이터 신뢰성 평가를 통한 참조표준 확립에 관한 연구

  • 채균식
    • STIMA Bulletin
    • /
    • 통권5호
    • /
    • pp.24-37
    • /
    • 2006
  • 과학기술테이터는 엄격한 평가기준에 의해 신뢰성과 정확성이 보장된 참조표준(standard reference data)값을 지닐 수 있어야 한다. 참조표준은 측정표준을 바탕으로 구하여진 결과 값을 표준화시키는 작업으로서 테잍의 생산조건, 실험환경, 측정방법, 데이터 처리 등이 검토되어 참조데이터(reference data)와 구분된다. 참조표준은 '공인된 수치데이터'로 표현되고 이는 측정결과의 신뢰도를 정량적으로 나타내는 불확도(uncertainty)로 표기된다.본고에서는 참조표준에 대한 의미를 이해하고,평가되지 않은 과학기술 데이터가 어떤 평가 과정을 거쳐 참조표준으로 분류되는지를 알아보기 위해 소재물성분야를 예로 살펴보았다.

  • PDF

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF