• Title/Summary/Keyword: 고품질 데이터

Search Result 492, Processing Time 0.028 seconds

An Integrated Framework for Data Quality Management of Traffic Data Warehouses (고품질 데이터를 지원하는 교통데이터 웨어하우스 구축 기법)

  • Hwang, Jae-Il;Park, Seung-Yong;Nah, Yun-Mook
    • Journal of Korea Spatial Information System Society
    • /
    • v.10 no.4
    • /
    • pp.89-95
    • /
    • 2008
  • In this paper, we propose an integrated techniques for managing data quality in traffic data warehousing environments. We describe how to collect and construct the traffic data warehouses from the operational databases, such as FTMS and ARTIS. We explain how to configure the traffic data warehouses efficiently. Also, we propose a quality management techniques to provide high quality traffic data for various analytical transactions. Proposed techniques can contribute in providing high quality traffic data to the traffic related users and researcher, thus reducing data preprocessing and evaluation cost.

  • PDF

Method for improving video/image data quality for AI learning of unstructured data (비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법)

  • Kim Seung Hee;Dongju Ryu
    • Convergence Security Journal
    • /
    • v.23 no.2
    • /
    • pp.55-66
    • /
    • 2023
  • Recently, there is an increasing movement to increase the value of AI learning data and to secure high-quality data based on previous research on AI learning data in all areas of society. Therefore, quality management is very important in construction projects to secure high-quality data. In this paper, quality management to secure high-quality data when building AI learning data and improvement plans for each construction process are presented. In particular, more than 80% of the data quality of unstructured data built for AI learning is determined during the construction process. In this paper, we performed quality inspection of image/video data. In addition, we identified inspection procedures and problem elements that occurred in the construction phases of acquisition, data cleaning, labeling, and models, and suggested ways to secure high-quality data by solving them. Through this, it is expected that it will be an alternative to overcome the quality deviation of data for research groups and operators participating in the construction of AI learning data.

KoQuality: Curation of High-quality Instruction Data for Korean Language Models (KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션)

  • Yohan Na;Dahye Kim;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.306-311
    • /
    • 2023
  • 최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

  • PDF

An effective transmission in high quality multimedia based emergency telemedicine (응급 원격진료시스템을 위한 고품질 멀티미디어 데이터의 무선망에서의 효율적 전송)

  • Park, Jung-Hoon;Park, Jin-Bae;Yoon, Tae-Sung;Yoo, Sun-Kuk
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2343-2345
    • /
    • 2003
  • 근래에 여러 종류의 다양한 원격응급진료시스템이 개발되어 왔고, 그중 무선원격진료시스템에 있어서는 환자기록데이터나 생체신호, 정지영상과 같은 미미한 데이터만을 보내는 시스템이 주류였다. 이에 무선응급진료시스템에 많은 시도가 이루어지기 시작하였고, 다양한 형태의 시스템이 특정목적에 맞게 구현 되기 시작하였다. 본 논문에서는 고품질 멀티미디어 데이터를 원격응급진료시스템에 적용하여, 고품질 영상데이터와 ECG(Electro Cardiogram), SPO2, BP(Blood Pressure), Body Temperature 데이터를 CDMA 무선망을 이용하여 효과적으로 전송하는 방법을 제안한다. 또한 다양한 시험을 통하여 고품질 환자동영상과 환자데이터를 효과적으로 전송할 수 있음을 확인하였다.

  • PDF

Proposal of diagnosis rule mapping model to support public data quality diagnosis (공공데이터 품질진단 지원을 위한 진단규칙 매핑모델 제안)

  • Jeong, Ha-Na;Kim, Jae-Woong;Lee, Yun-Yeol;Chae, Yi-Geun;Chung, Young-Suk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.127-128
    • /
    • 2022
  • 정부는 공공데이터 개방을 통해 신산업, 일자리 창출 등 경제 활성화를 위한 도구로 활용하는 것을 목표로 한다. 정부는 고품질의 공공데이터 보유를 위하여 품질 개선 활동을 통해 공공데이터 품질 향상을 진행하고 있다. 그러나 공공데이터 품질관리 수준 진단을 진행하는 담당자의 데이터에 대한 전문성과 이해도에 따라 품질진단 결과에 격차가 발생하여 진단 결과의 신뢰성을 보장하기 어렵다. 본 논문은 공공데이터의 원활한 품질진단 지원을 위해 품질진단규칙 매핑 모델을 제안하여 공공데이터 품질진단의 안정성과 신뢰성을 높인다.

  • PDF

A hybrid QoS guarantee scheme for High-Quality Internet Audio Streaming Services (고품질 인터넷 오디오 스트리밍 서비스를 위한 복합적 QoS 보장 기법)

  • 유성일;손주영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.478-480
    • /
    • 2002
  • 인터넷을 기반으로 한 고품질 오디오 스트리밍 서비스를 위하여 오디오 데이터 전송 시 발생되는 품질의 열화를 극복하여 고품질의 오디오 재생이 가능한 QoS 보장기법을 제안한다. 오디오 데이터는 연속성과 시간제약성을 가지고 있기 때문에 전송 시 통신망의 상황에 따라 그 재생품질이 결정된다. 이때 필요한 QoS 보장 기법으로 통신망의 상황에 따라 동적으로 전송률을 가변시키고 ARQ에 의한 재전송 방식과 동적 버퍼 제어기법을 복합적으로 적용하는 기법을 보인다. 클라이언트 내의 오디오 데이터 버퍼를 현재 망 상황에 따라 제어함으로서 재전송에 필요한 시간을 확보하고, 전송률도 함께 연동 조정하여 재전송에 따른 전송률 저하 현상을 방지한다. 동적인 클라이언트 버퍼/전송률 제어에 필요한 파라미터는 현재 통신망에서의 UDP 패킷 에러율과 왕복시간 이다. 실제 인터넷 환경에서 위 복합적 QoS 보장기법을 적용하여 고품질로 재생되는 오디오 스트리밍 서비스의 성능을 확인하였다.

  • PDF

A schema and stepwise methodology for modeling the data quality (단계적 데이터 품질 모델링 방법론과 스키마)

  • 나관상;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.18-120
    • /
    • 2001
  • 고객에게 원하는 정보를 제공하기 위해서는 데이터의 설계, 개발 및 이용에 있어 최적화된 데이터의 모델링 및 구조화가 매우 중요하며, 이를 통해 사용자에게 적기에 고품질의 데이터를 제공하는 것이 무한 경쟁시대에서 생존을 위한 핵심 요소이다. 특히, 우리는 인터넷의 출현으로 오프라인 기업에서 오라인 기업으로 급속한 전환과 기업간, 기업과 고객간, 기업과 정부간 보다 넓게는 전세계의 국가를 하나로 엮는 정보유통 시대에 살고 있다. 인터넷 상거래의 활성하와 전자정부 구현 등에서 기업 생존의 핵심 요소는 방대한 양의 데이터를 어떻게 공유하고 유통시키며, 양질의 데이터를 구축 하느냐 이다. 본 고에서는 기존 시스템의 컨버젼이나 마이그레이션 또는 이질적 시스템 통합과정에서 그리고 데이터베이스 설계과정에서 데이터의 품질을 향상시키기 위해 필요한 데이터 품질문제를 알아보고, 체계적으로 데이터 품질을 추출 및 표현하기 위한 방법론을 제안하며, 이를 개선 발전시키기 위한 연구방향을 소개한다.

  • PDF

The Development Process of Quality Evaluation Indicators for Game Graphical Data (게임 그래픽 데이터의 품질평가지표 개발 프로세스)

  • Yoon, Seon-Jeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.07a
    • /
    • pp.113-114
    • /
    • 2012
  • 게임이 기획, 그래픽, 프로그램의 복합적 기능을 가진 콘텐츠이지만 특별히 수준 높은 그래픽 데이터는 이용자의 만족도, 몰입 등에 긍정적인 영향을 미치는 중요한 영역이다. 그러나 아직 국내외에 게임 그래픽 데이터의 품질을 객관적으로 평가할 수 있는 기준이 마련되어 있지 않다. 이에 따라 본 논문에서는 게임 그래픽 데이터의 품질 평가를 위한 지표를 개발하는 프로세스를 제안한다. 제안된 프로세스는 그래픽 데이터의 품질 평가 영역 추출을 위한 방법과 세부 평가 지표 마련을 위한 평가 항목 추출방법들로 구성된다. 본 연구 결과는 고품질 게임 개발을 위한 품질평가 지표 개발에 적용될 것이며 관련 분야의 품질평가 모델 개발의 참조 모델이 될 것이다. 향후 본 연구는 국내외 게임 그래픽 데이터의 품질평가 표준안 설계 개발로 진행될 예정이다.

  • PDF

A Study on Data Integration in a Warehouse Environment (웨어하우스 환경하에서 데이터 통합에 관한 연구)

  • Lee, Hyun-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1643-1646
    • /
    • 2003
  • 데이터 웨어하우스 시스템은 사용자에게 다양하고 고품질의 정보 서비스를 제공하며, 의사 결정을 지언하는데 빠른 질의 처리 요구에 적합한 시스템이다. 고품질의 정보 서비스를 제공하기 위해서는 축적된 많은 정보가 요구되며, 이들 데이터들에 대한 분석을 수행함으로써 경영자의 의사 결정에 최적의 정보를 추출하여 제공해주는 시스템이다. 이러한 의사 결정을 위한 기존의 관계형 데이터베이스 환경하에서는 많은 시간적인 낭비 요소가 존재한다. 이에 본 논문에서는 데이터 통합을 보다 향상시킬 수 있는 전략을 제시하고 기존에 알려진 방법들과 이에 대한 비친 분석을 통하여 향상된 곁과에 대해 살펴본다.

  • PDF

A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus (공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구)

  • Park, Chanjun;Lim, Heuiseok
    • Journal of Digital Convergence
    • /
    • v.18 no.6
    • /
    • pp.271-277
    • /
    • 2020
  • Machine translation refers to software that translates a source language into a target language, and has been actively researching Neural Machine Translation through rule-based and statistical-based machine translation. One of the important factors in the Neural Machine Translation is to extract high quality parallel corpus, which has not been easy to find high quality parallel corpus of Korean language pairs. Recently, the AI HUB of the National Information Society Agency(NIA) unveiled a high-quality 1.6 million sentences Korean-English parallel corpus. This paper attempts to verify the quality of each data through performance comparison with the data published by AI Hub and OpenSubtitles, the most popular Korean-English parallel corpus. As test data, objectivity was secured by using test set published by IWSLT, official test set for Korean-English machine translation. Experimental results show better performance than the existing papers tested with the same test set, and this shows the importance of high quality data.