• 제목/요약/키워드: 고품질 데이터

검색결과 494건 처리시간 0.027초

고품질 데이터를 지원하는 교통데이터 웨어하우스 구축 기법 (An Integrated Framework for Data Quality Management of Traffic Data Warehouses)

  • 황재일;박승용;나연묵
    • 한국공간정보시스템학회 논문지
    • /
    • 제10권4호
    • /
    • pp.89-95
    • /
    • 2008
  • 본 논문에서는 교통데이터 웨어 하우스에서 데이터 품질 관리를 위한 통합기법을 제안한다. 고속도로 교통관리시스템(FTMS)과 우회도로 교통정보시스템(ARTIS) 으로부터 대용량 교통데이터를 수집하여 데이터 웨어하우스를 구축하기 위한 방안을 기술하고, 다양한 분석을 위한 고품질 교통데이터를 제공하기 위한 통합 데이터 품질관리 기법을 제안하고 구현 평가한다. 제안된 통합 데이터 품질관리 기법을 활용하면 연구자들에게 검증된 고품질 교통데이터를 제공할 수 있고, 데이터처리와 평가를 위한 별도의 비용을 절감할 수 있을 것으로 기대된다.

  • PDF

비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법 (Method for improving video/image data quality for AI learning of unstructured data)

  • 김승희;류동주
    • 융합보안논문지
    • /
    • 제23권2호
    • /
    • pp.55-66
    • /
    • 2023
  • 최근 전세계적으로 사회 모든 분야에서 인공지능 학습용 데이터에 관한 선행연구를 기반으로, 인공지능 학습용 데이터의 가치를 높이고 고품질 데이터를 확보하고자 하는 움직임이 늘고 있다. 따라서, 고품질 데이터를 확보하기 위한 구축사업에서는 품질관리가 매우 중요하다. 이에, 본 논문에서는 인공지능 학습용 데이터를 구축할 시 고품질데이터 확보를 위한 품질관리와 그에 따른 구축공정별 개선방안을 제시하였다. 특히, 인공지능 학습을 위해 구축되는 비정형데이터는 데이터 품질의 80% 이상이 구축과정에서 결정된다. 본 논문에서는 비정형데이터 이미지/영상데이터에 대한 품질검사를 통해 구축단계에서의 획득, data cleaning, labeling 모델에서 발생된 검사절차 및 문제 요소를 해결함으로써 고품질 데이터 확보 방안을 제시하였으며, 제시한 방안을 토대로 인공지능 학습용 데이터 구축에 참여하는 연구단체와 사업자들에게 데이터의 품질편차를 극복하기 위한 대안이 될 것으로 기대된다.

KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션 (KoQuality: Curation of High-quality Instruction Data for Korean Language Models)

  • 나요한;김다혜;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.306-311
    • /
    • 2023
  • 최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

  • PDF

응급 원격진료시스템을 위한 고품질 멀티미디어 데이터의 무선망에서의 효율적 전송 (An effective transmission in high quality multimedia based emergency telemedicine)

  • 박정훈;박진배;윤태성;유선국
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 하계학술대회 논문집 D
    • /
    • pp.2343-2345
    • /
    • 2003
  • 근래에 여러 종류의 다양한 원격응급진료시스템이 개발되어 왔고, 그중 무선원격진료시스템에 있어서는 환자기록데이터나 생체신호, 정지영상과 같은 미미한 데이터만을 보내는 시스템이 주류였다. 이에 무선응급진료시스템에 많은 시도가 이루어지기 시작하였고, 다양한 형태의 시스템이 특정목적에 맞게 구현 되기 시작하였다. 본 논문에서는 고품질 멀티미디어 데이터를 원격응급진료시스템에 적용하여, 고품질 영상데이터와 ECG(Electro Cardiogram), SPO2, BP(Blood Pressure), Body Temperature 데이터를 CDMA 무선망을 이용하여 효과적으로 전송하는 방법을 제안한다. 또한 다양한 시험을 통하여 고품질 환자동영상과 환자데이터를 효과적으로 전송할 수 있음을 확인하였다.

  • PDF

공공데이터 품질진단 지원을 위한 진단규칙 매핑모델 제안 (Proposal of diagnosis rule mapping model to support public data quality diagnosis)

  • 정하나;김재웅;이윤열;채의근;정영석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.127-128
    • /
    • 2022
  • 정부는 공공데이터 개방을 통해 신산업, 일자리 창출 등 경제 활성화를 위한 도구로 활용하는 것을 목표로 한다. 정부는 고품질의 공공데이터 보유를 위하여 품질 개선 활동을 통해 공공데이터 품질 향상을 진행하고 있다. 그러나 공공데이터 품질관리 수준 진단을 진행하는 담당자의 데이터에 대한 전문성과 이해도에 따라 품질진단 결과에 격차가 발생하여 진단 결과의 신뢰성을 보장하기 어렵다. 본 논문은 공공데이터의 원활한 품질진단 지원을 위해 품질진단규칙 매핑 모델을 제안하여 공공데이터 품질진단의 안정성과 신뢰성을 높인다.

  • PDF

고품질 인터넷 오디오 스트리밍 서비스를 위한 복합적 QoS 보장 기법 (A hybrid QoS guarantee scheme for High-Quality Internet Audio Streaming Services)

  • 유성일;손주영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.478-480
    • /
    • 2002
  • 인터넷을 기반으로 한 고품질 오디오 스트리밍 서비스를 위하여 오디오 데이터 전송 시 발생되는 품질의 열화를 극복하여 고품질의 오디오 재생이 가능한 QoS 보장기법을 제안한다. 오디오 데이터는 연속성과 시간제약성을 가지고 있기 때문에 전송 시 통신망의 상황에 따라 그 재생품질이 결정된다. 이때 필요한 QoS 보장 기법으로 통신망의 상황에 따라 동적으로 전송률을 가변시키고 ARQ에 의한 재전송 방식과 동적 버퍼 제어기법을 복합적으로 적용하는 기법을 보인다. 클라이언트 내의 오디오 데이터 버퍼를 현재 망 상황에 따라 제어함으로서 재전송에 필요한 시간을 확보하고, 전송률도 함께 연동 조정하여 재전송에 따른 전송률 저하 현상을 방지한다. 동적인 클라이언트 버퍼/전송률 제어에 필요한 파라미터는 현재 통신망에서의 UDP 패킷 에러율과 왕복시간 이다. 실제 인터넷 환경에서 위 복합적 QoS 보장기법을 적용하여 고품질로 재생되는 오디오 스트리밍 서비스의 성능을 확인하였다.

  • PDF

단계적 데이터 품질 모델링 방법론과 스키마 (A schema and stepwise methodology for modeling the data quality)

  • 나관상;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.18-120
    • /
    • 2001
  • 고객에게 원하는 정보를 제공하기 위해서는 데이터의 설계, 개발 및 이용에 있어 최적화된 데이터의 모델링 및 구조화가 매우 중요하며, 이를 통해 사용자에게 적기에 고품질의 데이터를 제공하는 것이 무한 경쟁시대에서 생존을 위한 핵심 요소이다. 특히, 우리는 인터넷의 출현으로 오프라인 기업에서 오라인 기업으로 급속한 전환과 기업간, 기업과 고객간, 기업과 정부간 보다 넓게는 전세계의 국가를 하나로 엮는 정보유통 시대에 살고 있다. 인터넷 상거래의 활성하와 전자정부 구현 등에서 기업 생존의 핵심 요소는 방대한 양의 데이터를 어떻게 공유하고 유통시키며, 양질의 데이터를 구축 하느냐 이다. 본 고에서는 기존 시스템의 컨버젼이나 마이그레이션 또는 이질적 시스템 통합과정에서 그리고 데이터베이스 설계과정에서 데이터의 품질을 향상시키기 위해 필요한 데이터 품질문제를 알아보고, 체계적으로 데이터 품질을 추출 및 표현하기 위한 방법론을 제안하며, 이를 개선 발전시키기 위한 연구방향을 소개한다.

  • PDF

게임 그래픽 데이터의 품질평가지표 개발 프로세스 (The Development Process of Quality Evaluation Indicators for Game Graphical Data)

  • 윤선정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.113-114
    • /
    • 2012
  • 게임이 기획, 그래픽, 프로그램의 복합적 기능을 가진 콘텐츠이지만 특별히 수준 높은 그래픽 데이터는 이용자의 만족도, 몰입 등에 긍정적인 영향을 미치는 중요한 영역이다. 그러나 아직 국내외에 게임 그래픽 데이터의 품질을 객관적으로 평가할 수 있는 기준이 마련되어 있지 않다. 이에 따라 본 논문에서는 게임 그래픽 데이터의 품질 평가를 위한 지표를 개발하는 프로세스를 제안한다. 제안된 프로세스는 그래픽 데이터의 품질 평가 영역 추출을 위한 방법과 세부 평가 지표 마련을 위한 평가 항목 추출방법들로 구성된다. 본 연구 결과는 고품질 게임 개발을 위한 품질평가 지표 개발에 적용될 것이며 관련 분야의 품질평가 모델 개발의 참조 모델이 될 것이다. 향후 본 연구는 국내외 게임 그래픽 데이터의 품질평가 표준안 설계 개발로 진행될 예정이다.

  • PDF

웨어하우스 환경하에서 데이터 통합에 관한 연구 (A Study on Data Integration in a Warehouse Environment)

  • 이현창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1643-1646
    • /
    • 2003
  • 데이터 웨어하우스 시스템은 사용자에게 다양하고 고품질의 정보 서비스를 제공하며, 의사 결정을 지언하는데 빠른 질의 처리 요구에 적합한 시스템이다. 고품질의 정보 서비스를 제공하기 위해서는 축적된 많은 정보가 요구되며, 이들 데이터들에 대한 분석을 수행함으로써 경영자의 의사 결정에 최적의 정보를 추출하여 제공해주는 시스템이다. 이러한 의사 결정을 위한 기존의 관계형 데이터베이스 환경하에서는 많은 시간적인 낭비 요소가 존재한다. 이에 본 논문에서는 데이터 통합을 보다 향상시킬 수 있는 전략을 제시하고 기존에 알려진 방법들과 이에 대한 비친 분석을 통하여 향상된 곁과에 대해 살펴본다.

  • PDF

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 (A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus)

  • 박찬준;임희석
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.271-277
    • /
    • 2020
  • 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.