• Title/Summary/Keyword: 평가결과 데이터

Search Result 5,693, Processing Time 0.031 seconds

과학기술데이터 신뢰성 평가를 통한 참조표준 확립에 관한 연구

  • Chae, Gyun-Sik
    • STIMA Bulletin
    • /
    • s.5
    • /
    • pp.24-37
    • /
    • 2006
  • 과학기술테이터는 엄격한 평가기준에 의해 신뢰성과 정확성이 보장된 참조표준(standard reference data)값을 지닐 수 있어야 한다. 참조표준은 측정표준을 바탕으로 구하여진 결과 값을 표준화시키는 작업으로서 테잍의 생산조건, 실험환경, 측정방법, 데이터 처리 등이 검토되어 참조데이터(reference data)와 구분된다. 참조표준은 '공인된 수치데이터'로 표현되고 이는 측정결과의 신뢰도를 정량적으로 나타내는 불확도(uncertainty)로 표기된다.본고에서는 참조표준에 대한 의미를 이해하고,평가되지 않은 과학기술 데이터가 어떤 평가 과정을 거쳐 참조표준으로 분류되는지를 알아보기 위해 소재물성분야를 예로 살펴보았다.

  • PDF

Clustering Validity Assessment Using Relative Criteria for finding Optimal Clusters (최적의 군집을 찾기 위한 상대적 군집 평가 방법)

  • 김영옥;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.334-336
    • /
    • 2002
  • 군집 분석은 데이터의 속성을 분석하여 서로 유사한 패턴을 가진 데이터를 묶는 방법이다. 군집 분석은 많은 응용 분야에서 쓰이고 있으나, 수행된 군집 분석 결과가 과연 정확한 결과이고 의미 있는 결과인지를 평가하는데 어려움이 있다. 본 논문에서는 군집이 형성된 데이터를 분석하여 군집 분석 결과를 평가하는 상대적 군집 평가 방법을 제안한다. 본 논문에서는 상대적 군집 평가 방법의 인덱스를 정의하고 형성된 군집 분석 결과에 적용해 최적의 군집, 의미 있는 군집을 찾을 수 있음을 보인다. 또한 실험을 통해 제안한 인덱스의 적합성을 보이며, 제안한 인덱스가 기존의 인덱스에 비해 최적의 군집, 의미 있는 군집을더 잘 찾을 수 있음을 보인다.

  • PDF

A Study on the Classification of Evaluators Using Evaluation Result Data Clustering (평가결과 데이터 군집화를 이용한 평가위원 분류 방법 연구)

  • Kim, Dong Cheol;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.599-601
    • /
    • 2018
  • 국가 R&D에 대한 투자는 지속적으로 늘어나고 있고, 늘어나는 투자만큼 질 좋은 성과의 창출이 사회적으로 기대되고 있다. 이를 위해서는 우수한 연구자의 연구수행을 필요로 하며, 그 전제조건은 공정하고 객관적인 평가로부터 시작된다고 할 수 있다. 하지만 기존의 평가는 특정 평가위원에 의한 평가결과의 왜곡 가능성이 존재한다. 이를 억제하기 위해 기존에는 보편적으로 최고/최저점 제외 방식을 사용하였다. 하지만 왜곡 가능성이 그 이상 존재할 경우에는 왜곡을 막기에 부족하다. 본 연구에서는 평가위원별 평가결과 데이터를 군집화 기법을 활용하여 왜곡 가능성이 존재하는 평가위원을 분류하고, 이를 평가위원 선정 시 반영하여 왜곡 을 억제하는 방안을 모색하였다. 이러한 연구 결과를 바탕으로 평가의 공정성 및 신뢰성 향상 측면에 기여할 수 있을 것으로 기대한다.

Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment (기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가)

  • Lim, Joon-Ho;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

Compared evaluation on Data Table of domestic and international Public Web sites (국내외 공공기관 웹 사이트의 데이터 테이블 비교 평가)

  • Park Ji-Yong
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2006.05a
    • /
    • pp.89-94
    • /
    • 2006
  • 웹은 제작과 사용이 간편하다는 이점으로 인해 사용인구가 폭발적으로 증가하고 있다. 또한 웹은 지역, 성별, 연령에 관계없이 사용할 수 있는 보편적인 특성을 지니고 있다. 이러한 웹의 보편적 특징은 특히 장애인들을 위해서 웹 접근성이라는 용어로 사용되고 있다. 이러한 웹 접근성을 평가하기 위해 국내 정부기관 웹 사이트와 국제기구 웹 사이트를 비교 평가하였다. 특히, 웹 접근성평가는 평가자의 기준에 의해 평가결과가 모호하며 평가결과가 상당부분 왜곡되어 있다는 문제점이 있다. 또한 이러한 문제점은 데이터테이블에서 두드러지게 나타난다. 본 연구에서는 데이터 테이블의 왜곡된 평가에 대한 문제점을 도출하고 그러한 문제점을 수정하여 국내외 웹 사이트들을 비교 평가하였다. 평가결과, 국내외 웹 사이트의 데이터 테이블에 대한 웹 접근성은 많은 격차가 존재하였으며, 웹 접근성 준수 여부는 지침의 기술적 준수뿐만 아니라 웹 사이트 설계 시 화면 구성에 의해서도 결정되어 짐을 제시하였다.

  • PDF

Query Efficiency Evaluation of the Metadata Exchanging Protocol for Metadata Registries (메타데이터 레지스트리를 위한 메타데이터 교환 프로토콜의 질의 효율성 평가)

  • Jeong, Dong-Won
    • Journal of the Korea Society for Simulation
    • /
    • v.14 no.2
    • /
    • pp.73-81
    • /
    • 2005
  • 이 논문에서는 메타데이터 레지스트리간의 메타데이터 교환을 위해 제안된 교환 프로토콜의 장점을 명시적으로 보이기 위한 시뮬레이션 결과에 대하여 기술한다. 기존 접근 방법들은 교환 메커니즘의 높은 복잡도, 지역 메타데이터 관리 시스템으로의 종속성, 새로운 메타데이터 관리 시스템의 추가를 위한 높은 비용 등의 문제점을 지닌다. 이를 해결하기 메타데이터 교환 프로토콜이 제안되었다. 그러나 지금까지의 연구에서는 정성적으로만 그 장점을 보였다. 이 논문의 목적은 정략적 관점에서 제안된 프로토콜의 장점을 기술하고자 함에 있다. 특히 이 논문에서는 질의 효율이 가장 중요한 문제로서 다른 요인에 의한 결과에도 영향을 주기 때문에 질의 효율성 문제에 초점을 둔다. 이를 위해 평가 항목과 평가 모델에 대해 정의한다. 질의 효율성 평가를 위한 요인 중에서 대상 메타데이터의 개수, 각 메타데이터를 구성하는 컴포넌트의 개수 및 각 컴포넌트들을 구성하는 속성들의 개수를 주 파라미터로 이용하였다. 이에 따라 시뮬레이션은 크게 세 가지 유형을 지니게 된다 정량적 평가를 통해 교환 프로토콜이 요구되는 이유와 그 정당성을 명시적으로 보인다.

  • PDF

Data Set Design Method for developing Automatic Video Quality Measurement Technology (비디오 화질 자동 측정 기술 개발을 위한 데이터 셋 구축 방법)

  • Jeong, Se Yoon;Lee, Dae Yeol;Jeong, Yeonsoo;Kim, Tae Hwa;Cho, Seunghyun;Kim, Hui Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.223-224
    • /
    • 2018
  • 기계학습 기반 비디오 화질 자동 측정 기술은 주관적 화질 평가를 대체하기 위한 기술로, 비디오를 입력 신호로 화질 평가 결과를 출력 신호로 하는 기계학습 모델을 통해서 개발하는 기술이다. 학습에 필요한 비디오 데이터 셋은 입력 신호인 비디오 시퀀스와 입력의 출력신호로 학습할 주관적 화질 평가 결과로 구성된다. 이때 데이터 셋의 일부는 기계학습 기반 비디오 화질 자동 측정 기술 개발 과정에서 학습에 사용하고, 남은 일부는 개발 기술의 성능 평가에 사용한다. 일반적으로 기계학습 기반 기술의 성능은 학습 데이터의 양과 질에 비례한다. 그러나, 기계학습 기반 비디오 화질 자동 측정 기술 개발에 필요한 데이터 셋은 주관적 화질 평가 결과를 포함해야 하므로, 데이터 양을 늘리는 것은 쉬운 문제가 아니다. 이에 본 논문에서는 압축 비디오에 대한 화질 자동 측정 기술 개발을 위해 필요한 데이터 셋을 양과 질적 측면에서 효율적으로 구축하는 방법을 제안한다. 양적 측면에서 효율성을 높이기 위해 부호화 복잡도와 평가 난이도 기반으로 시퀀스를 선정 방법을, 질적 측면에서 효율성을 높이기 위해 쌍 비교(Pairwise Comparison)기반의 주관적 화질 평가 방법을 제안한다.

  • PDF

객관적 음질평가 기법 연구

  • 이신열;최낙진;성광고
    • Information and Communications Magazine
    • /
    • v.22 no.10
    • /
    • pp.24-34
    • /
    • 2005
  • 시스템을 설계하고 제작한 후에 그 시스템과 구성 요소가 최종적으로 음질에 미치는 영향을 평가하는 일은 필수적이다. 음질평가 기법은 크게 두 가지가 있다. 첫 번째는 사람의 귀로 듣고 평가하는 주관평가 방법이고, 두 번째는 측정 데이터로부터 객관적으로 성능을 평가하는 방법이다. 주관적 음질평가 방법은 사람이 직접 귀로 듣고 평가하는 방법이기 때문에, 여러 가지 불안정한 요소를 안고 있다. 주관 평가자의 신체적$\cdot$심리적 상태에 따라 평가가 달라질 수 있으며, 개개인에 따라 다른 결과를 내기도 한다. 따라서, 주관평가 결과의 신뢰성을 확보하기 위해서는 통계적인 데이터를 얻고 평가자를 올바르게 훈련시켜야 한다. 그러기 위해서는 시간과 비용이 많이 소비된다. 따라서 측정 데이터로부터의 정교한 계산을 통하여 라우드스피커의 음질을 신뢰할만한 수준으로 평가할 수 있다면 신뢰성을 확보할 수 있을 뿐 아니라 시간 및 비용 절감 효과를 볼 수 있다. 본 연구에서는 측정 데이터로부터 시스템의 음질을 신뢰할만한 수준으로 평가할 수 있는 기법을 새롭게 제안한다. 이것은 ITU-R Recommendation BS. 1387인 PEAQ를 사용하여 라우드스피커의 음질을 평가하는 방법이다.

Analyze GPT sentence generation performance based on Image by training data capacity and number of iterations (학습 데이터 용량 및 반복 학습 횟수에 따른 이미지 기반 GPT 문장생성 및 성능 분석)

  • Dong-Hee Lee;Bong-Jun Choi
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.363-364
    • /
    • 2023
  • 현재 많은 사람이 GPT를 통해 다양한 활동 및 연구를 진행하고 있다. 사람들은 GPT를 통해 문장생성 시 문장에 대한 정확도를 중요하게 생각한다. 하지만 용도에 따라 GPT를 통해 생성하는 문장의 문체와 같은 표현방식이 다르다. 그래서 생성된 문장이 유의미한 문장이라는 것에 판단이 매우 주관적이기 때문에 수치적 평가가 어렵다. 본 논문에서는 자연어처리 모델이 생성한 문장의 유의미함을 판단하기 위해 각 모델을 학습하는 데이터 용량과 반복 학습의 횟수에 따른 결과물을 비교하였다. 본 연구에서는 Fine-Tuning을 통해 총 4개의 GPT 모델을 구축하였다. 각 모델로 생성 문장을 BLEU 평가지표를 통해 평가한 결과 본 연구에 BLEU 모델은 부적합하다는 결과를 도출하였다. 이를 해결하기 위해 본 연구에서는 생성된 모델을 평가하고자 설문지를 만들어 평가를 진행하였다. 그 결과 사람에게 긍정적인 평가를 받는 결과를 얻을 수 있었다.

  • PDF

Methods of Korean Text Data Quality Assessment (한국어 텍스트 데이터의 품질 평가 요소 및 방법)

  • Kim, Jung-Wook;Hong, Cho-hee;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF