• 제목/요약/키워드: 데이터셋 정제

Search Result 43, Processing Time 0.033 seconds

시차 정제를 위한 분리형 중앙-최댓값 필터 (Separable Median-Max Filter for Disparity Refinement)

  • 최철호;하지석;문병인
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.712-714
    • /
    • 2022
  • 스테레오 정합을 통해 산출되는 초기 시차 영상의 정합 정확도는 고주파 및 잡음 성분에 의해 감소될 수 있다. 또한, 폐색 및 질감이 없는 영역에서 잘못된 정합 결과가 산출됨으로 인해 정합 정확도가 감소될 수 있다. 정합 정확도를 향상시키기 위해 시차 정제에 관한 선행 연구들이 수행되었지만 정제 과정을 통한 정합 정확도 성능과 처리 속도간 트레이드-오프가 존재한다. 이에 본 논문에서는 종래 시차 정제 방법 대비 향상된 처리 속도와 함께 높은 시차 정제 성능을 갖는 분리형 중앙-최댓값 필터를 제안한다. 제안하는 방법의 정제 성능 및 평균 처리 시간을 객관적으로 평가하기 위해 KITTI 2015 stereo benchmark 데이터셋을 사용하였다. 제안하는 방법의 평균 오차율은 비폐색 및 폐색 조건에서 종래 방법 대비 각각 최소 25.61% 및 23.68% 감소되었다. 또한, 제안하는 방법의 처리 속도는 종래 방법 대비 최소 13.29% 향상되었다. 따라서 제안하는 방법은 빠른 처리 속도 및 높은 정확도 성능을 요구하는 스테레오 비전 시스템에 활용될 수 있다.

Web Radiology_CDM기반 기계학습을 위한 인공지능 학습 플랫폼 구축 (Construction of Artificial Intelligence Training Platform for Machine Learning Based on Web Radiology_CDM)

  • 노시형;김승진;김지언;이충섭;김태훈;김경원;김태규;윤권하;정창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.487-489
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문에서는 익명화된 데이터를 정제하여 인공지능 연구에 사용할 수 있는 표준화된 데이터 셋을 만들고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기 위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 전체 인공지능 연구프로세스를 보이고 이에 따라 학습을 위한 데이터셋 생성과 인공지능 학습학습용 플랫폼에서 수행되는 수행 과정을 결과로 보인다 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

표 기계독해 언어 모형의 의미 검증을 위한 테스트 데이터셋 (Test Dataset for validating the meaning of Table Machine Reading Language Model)

  • 유재민;조상현;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.164-167
    • /
    • 2022
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어 모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 F1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 F1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

다중 개체 집단의 공진화적 학습에 의한 바이오 데이터의 패턴 마이닝 (Pattern Mining of Biological Data by Co-evolutionary Learning with Multi-populations)

  • 김수진;정제균;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.46-48
    • /
    • 2006
  • 현재 각 분야에서 다양한 실험 데이터가 산출되면서 이종(heterogeneous) 데이터간의 상관관계 분석에 대한 중요성이 더욱 부각되고 있다. 특히, 대규모 실험에 의해 급속하게 증가하고 있는 대량의 바이오 데이터에서 이런 문제를 해결하기 위한 새로운 데이터 마이닝 방법이 요구된다. 본 논문은 특성이 다른 두 데이터 셋에서 서로 상관관계가 있는 부분 패턴을 파악할 수 있는 새로운 알고리즘을 제안한다. 제안한 알고리즘은 다중 개체 집단을 유지하면서 상호간 공진화하는 확률적 진화컴퓨팅 방법에 기반하고, 전체의 탐색 포인트들을 분해하여 최적해를 찾는 점에서 장점을 가지고 있다. 실험 결과, 본 논문에서는 효모 유전자에 대한 발현 데이터와 모티프 데이터의 이종 데이터에 적용해 보았으며, 이러한 데이터에 있어서 주요 상관관계가 있는 패턴들을 추출한 결과를 제시한다.

  • PDF

임베디드 기기에 저장된 사용자 로그 데이터 자동 분석 프로세스 (Process of Automatic User Log Data Analysis Stored in Embedded Device)

  • 김봉준;김성숙;김종철;박기진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.303-307
    • /
    • 2008
  • 임베디드 기기의 사용 이력을 정확히 파악하는 방식으로는 기기 내부에 자동으로 저장된 로그 데이터를 분석하는 방법이 있으며, 저장된 로그 데이터를 분석하기 위해서는 데이터 정제 및 변환 과정이 필요한데, 이 과정에서 임베디드 기기에 저장된 방대한 양의 로그 데이터로 인해 많은 시간과 인력이 소요되고 있다. 이에 본 논문에서는 임베디드 기기의 로그 데이터를 데이터베이스로 관리하고 이로부터 사용 이력 분석 데이터 셋을 입력, 출력, 기능부분으로 나누어 추출하는 일련의 프로세스를 설계하였고 또한 이 과정이 자동화가 되도록 구현하였으며, 이를 통해 임베디드 기기의 로그 데이터를 분석할 때 시간과 인력을 절약할 수 있다는 가능성을 확인하였다.

  • PDF

항공 및 위성영상을 활용한 토지피복 관련 인공지능 학습 데이터 구축 및 알고리즘 적용 연구 (A Study of Establishment and application Algorithm of Artificial Intelligence Training Data on Land use/cover Using Aerial Photograph and Satellite Images)

  • 이성혁;이명진
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.871-884
    • /
    • 2021
  • 본 연구의 목적은 항공 및 위성영상을 활용한 토지피복 관련 인공지능 학습 데이터를 구축, 검증 및 알고리즘 적용의 효율화 방안을 연구하였다. 이를 위하여 토지피복 8개 항목에 대하여 고해상도의 항공영상 및 Sentinel-2 인공위성에서 얻은 이미지를 사용하여 0.51 m 및 10 m Multi-resolution 데이터셋을 구축하였다. 또한, 학습 데이터의 구성은 Fine data (총 17,000개) 와 Coarse data (총 33,000개)를 동시 구축 및 정밀한 변화 탐지 및 대규모 학습 데이터셋 구축이라는 2가지 목적을 달성하였다. 학습 데이터의 정확도를 위한 검수는 정제 데이터, 어노테이션 및 샘플링으로 3단계로 진행하였다. 최종적으로 검수가 완료된 학습데이터를 Semantic Segmentation 알고리즘 중 U-Net, DeeplabV3+에 적용하여, 결과를 분석하였다. 분석결과 항공영상 기반의 토지피복 평균 정확도는 U- Net 77.8%, Deeplab V3+ 76.3% 및 위성영상 기반의 토지피복에 대한 평균 정확도는 U-Net 91.4%, Deeplab V3+ 85.8%이다. 본 연구를 통하여 구축된 고해상도 항공영상 및 위성영상을 이용한 토지피복 인공지능 학습 데이터셋은 토지피복 변화 및 분류에 도움이 되는 참조자료로 활용이 가능하다. 향후 우리나라 전체를 대상으로 인공지능 학습 데이터셋 구축 시, 토지피복을 연구하는 다양한 인공지능 분야에 활용될 것으로 기대된다.

GAN 기반 데이터 증강을 통한 폐기물 객체 인식 모델 설계 (Bulky waste object recognition model design through GAN-based data augmentation)

  • 김형주;박찬;박정현;김진아;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1336-1338
    • /
    • 2022
  • 폐기물 관리는 전 세계적으로 환경, 사회, 경제 문제를 일으키고 있다. 이러한 문제를 예방하고자 폐기물을 효율적으로 관리하기 위해, 인공지능을 통한 연구를 제안하고 있다. 따라서 본 논문에서는 GAN 기반 데이터 증강을 통한 폐기물 객체 인식모델을 제안한다. Open Images Dataset V6와 AI Hub의 공공 데이터 셋을 융합하여 폐기물 품목에 해당하는 이미지들을 정제하고 라벨링한다. 이때, 실제 배출환경에서 발생할 수 있는 장애물로 인한 일부분만 노출된 폐기물, 부분 파손, 눕혀져 배출, 다양한 색상 등의 인식저해요소를 모델 학습에 반영할 수 있도록 일반적인 데이터 증강과 GAN을 통한 데이터 증강을 병합 사용한다. 이후 YOLOv4 기반 폐기물 이미지 인식 모델 학습을 진행하고, 학습된 이미지 인식 모델에 대한 검증 및 평가를 mAP, F1-Score로 진행한다. 이를 통해 향후 스마트폰 애플리케이션과 융합하여 효율적인 폐기물 관리 체계를 구축할 수 있을 것이다.

  • PDF

Automatic Classification of Department Types and Analysis of Co-Authorship Network: Focusing on Korean Journals in the Computer Field

  • Byungkyu Kim;Beom-Jong You;Min-Woo Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.53-63
    • /
    • 2023
  • 과학기술 문헌을 활용한 계량정보분석에서 학과정보의 활용은 매우 유용하다. 본 논문에서는 국내 과학기술 분야 학술지 논문에 출현하는 대학기관 소속 저자의 학과정보 선별, 데이터 정제와 학과유형 분류 처리 과정을 통해 학과정보 데이터셋을 구축하고 학습데이터와 검증데이터로 이용하여 딥러닝 기반의 자동분류 모델을 구현하였다. 또한 학과정보 데이터셋과 국내 학술지 저자소속 정보를 활용하여 컴퓨터 분야의 공저 구성 현황과 네트워크를 분석하였다. 연구결과, 자동분류 모델은 한글 학과정보 기준 98.6% 정확률을 보였으며 컴퓨터 분야 연구자들의 공저 패턴과 기관유형, 지역, 기관, 학과유형 측면별 공저 네트워크의 속성과 중심성이 자세히 파악되고 맵으로 시각화되었다.

국토 교통 공공데이터 기반 블랙아이스 발생 구간 예측 모델 (Black Ice Formation Prediction Model Based on Public Data in Land, Infrastructure and Transport Domain)

  • 나정호;윤성호;오효정
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권7호
    • /
    • pp.257-262
    • /
    • 2021
  • 매년 동절기 블랙아이스(Black Ice)로 인한 사고는 빈번하게 발생하고 있으며, 치사율은 다른 교통사고에 비해 매우 높다. 따라서 블랙아이스 발생 구간을 사전에 예측하기 위한 체계화된 방법이 필요하다. 이에 본 논문에서는 이질(heterogeneous)·다형(diverse)의 데이터를 활용한 블랙아이스 발생 구간 예측 모델을 제안한다. 이를 위해 국토 교통 공공데이터와 기상 공공데이터 42종의 12,574,630건을 수집하여, 결측값을 처리하고 정규화하는 등의 전처리 과정을 수행한 뒤 최종 약 60만여 건의 정제 데이터셋을 구축하였다. 수집된 요인들의 상관관계를 분석하여 블랙아이스 예측에 유효한 영향을 주는 21개 요인을 선별, 다양한 학습모델을 조합하는 방법을 통해 블랙아이스 발생 예측 모델을 구현하였다. 이를 통해 개발된 예측 모델은 최종적으로 노선별 블랙아이스 위험지수 도출에 사용되어 블랙아이스 발생 경고 서비스를 위한 사전 연구로 활용될 것이다.

협동적 필터링에서 고품질 예측을 위한 효과적인 추천 알고리즘 (Effective Recommendation Algorithms for Higher Quality Prediction in Collaborative Filtering)

  • 김택헌;박석인;양성봉
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1116-1120
    • /
    • 2010
  • 본 논문에서 우리는 추천 시스템을 위한 두 개의 정제된 이웃선정 알고리즘을 제시하고, 또한 아이템의 속성정보가 어떻게 고품질의 예측을 위해 사용될 수 있는지를 보인다. 정제된 이웃선정 알고리즘은 가상 이웃과 대체 이웃을 각각 사용하여 이행적 유사도를 기반으로 한 이웃선정 방법을 적용한다. 실험 결과는 본 논문에서 제안한 알고리즘을 적용한 추천 시스템이 다른 시스템에 비해 보다 우수한 성능을 가짐을 보여준다. 이러한 제안 시스템은 예측 품질의 저하 없이 대규모 데이터셋 문제 및 초기 참여자 문제를 극복할 수 있게 한다.