• 제목/요약/키워드: outlier discrimination

검색결과 6건 처리시간 0.017초

이관 기록물 분류 자동화를 위한 목록 기반 이상치 판별 학습데이터 구축 (Building the Outlier Candidate Discrimination Training Data based on Inventory for Automatic Classification of Transferred Records)

  • 정지혜;이젬마;왕호성;오효정
    • 한국기록관리학회지
    • /
    • 제22권1호
    • /
    • pp.43-59
    • /
    • 2022
  • 전자적으로 생산된 공공기록물은 생산과 동시에 편철되고 보존기간이 부여되며 일정기간이 지나면 영구기록물관리기관으로 이관되어 보존된다. 이관 시 기록물관리 담당자가 기록물 분류정보를 확인하고 품질을 일정 수준으로 유지토록 해야 하지만, 이관된 기록물의 분류는 기록물 정리/기술 업무로 편성되어 있고, 대부분의 정리/기술 업무는 수작업에 의존하고 있어 당해 연도에 처리해야 할 기록물 수량을 맞추기 어려운 실정이다. 이에 본 연구는 이관 기록물 분류 업무의 효율화와 일관된 기준을 유지하기 위한 방안을 제안하고자 한다. 이를 위해 먼저 국가기록원에서 수행하고 있는 현행의 기록분류 업무 프로세스를 분석하고 개선 요구사항을 수렴하여 분류 업무의 수작업을 최소화하기 위한 방안으로 이관된 기록물의 편철 정보, 즉 목록에 기반한 분류 이상치 후보를 판별하는 과정을 도출·체계화하였다. 나아가 제안한 이상치 판별 프로세스를 실제 국가기록원으로 이관된 기록물을 대상으로 적용하고, 그 결과를 규격화하여 추후 기계학습에 활용 가능한 학습데이터 형식으로 구축하였다. 본 연구의 궁극적인 목적은 지능형 전자기록 관리 환경 구축을 위한 사전 단계로, 기록관리 업무 내 기계학습 기법이 적용 가능한 문제 유형을 선별하고 자동화하는 방안을 모색하고자 한다.

가변 분해능을 가진 2차원 히스토그램을 이용한 강건한 광류검출 (Robust Optical Flow Detection Using 2D Histogram with Variable Resolution)

  • 전재춘
    • 한국측량학회지
    • /
    • 제23권1호
    • /
    • pp.49-57
    • /
    • 2005
  • 두 영상에서 정확한 광류를 얻고자 할 경우, 잘못 정합된 광류의 수가 전체의 80%이상일 경우에도, 정합이 잘된 광류만을 빠르고 안정적으로 추출하는 방법을 제안하였다. 제안한 방법은 다음과 같은 단계로 구성된 그룹화 알고리즘이다. 1)광류의 방향과 길이성분으로 구성된 2차원 히스토그램을 구성한 후, 2)2차원 히스토그램에서 광류수가 높은 그룹들부터 내림차 순으로 정리한 후 각 그룹에서 광류수가 적은 그룹은 제거한다. 또, 3)선택된 그룹들의 광류수가 20% 이상일때는 히스토그램의 분해율를 증가 시키고, 10% 이하일 경우에는 히스토그램의 분해율을 감소시켜서 위 과정을 반복한다. 선택된 그룹들의 광류수가 10%에서 20%사이에 올 때까지 이 반복을 계속한다. 제안한 알고리즘을 잘못된 광류가 많이 포함된 다양한 종류의 영상에 대해서 적용한 결과 강건하게 정합이 되어 잘못된 광류를 제거할 수 있었다. 이 논문은 이에 대한 실험결과를 포함하였다.

가변 분해능을 가진 2차원 히스토그램을 이용한 강건한 광류인식 (Robust Optical Flow Detection Using 2D histogram with Variable Resolution)

  • 전재춘;김형석
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.51-64
    • /
    • 2005
  • 두 영상에서 정확한 광류를 얻고자 할 경우, 잘못 정합된 광류의 수가 전체의 $80\%$이상일 경우에도, 정합이 잘된 광류만을 빠르고 안정적으로 추출하는 방법을 제안하였다. 제안한 방법은 다음과 같은 단계로 구성된 그룹화 알고리즘이다. 1)광류의 방향과 길이성분으로 구성된 2차원 히스토그램을 구성한 후, 2)2차원 히스토그램에서 광류수가 높은 그룹들부터 내림차 순으로 정리한 후 각 그룹에서 광류수가 적은 그룹은 제거한다. 또, 3)선택된 그룹들의 광류수가 $20\%$ 이상일때는 히스토그램의 분해율를 증가 시키고, $10\%$ 이하일 경우에는 히스토그램의 분해율을 감소시켜서 위 과정을 반복한다. 선택된 그룹들의 광류수가 $10\%$에서 $20\%$사이에 올 때 까지 이 반복을 계속한다. 제안한 알고리즘을 잘못된 광류가 많이 포함된 다양한 종류의 영상에 대해서 적용한 결과 강건하게 정합이 되어 잘못된 광류를 제거할 수 있었다. 이 논문은 이에 대한 실험결과를 포함하였다.

경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구 (A study on the difference and calibration of empirical influence function and sample influence function)

  • 강현석;김홍기
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.527-540
    • /
    • 2020
  • 이상치에 대한 적절한 선별과 배제없이 모든 데이터를 종합적으로 분석하게 되는 경우 데이터 분석을 통해 얻은 결과의 신뢰성과 해석의 일반성에 치명적인 위협을 받을 수 있다. 따라서 데이터의 분석 과정에서 이러한 이상치를 판별하고, 이상치가 통계량, 통계적 모형에 어떠한 영향을 주는 지에 대한 분석은 매우 중요한 일이라 할 수 있다. Hampel이 영향함수를 활용하여 이상치를 판별할 수 있는 방법을 소개한 이후, 이상치를 판별하기 위한 방법론으로 영향함수가 폭넓게 활용되어 왔다. 영향함수에는 경험적 영향함수와 표본영향함수가 있으며, 경험적 영향함수를 활용해 표본영향함수를 근사 추론하여 하나의 관측값이 제거되었을 때 통계량에 미치는 영향을 예측하는 방법론이 주로 활용되었다. 본 연구에서는 표본평균, 표본분산, 표본표준편차의 표본영향함수 유도를 통해 경험적 영향함수와 표본영향함수의 차이를 살펴 본다. 또한 경험적 영향함수로 표본영향함수를 근사하는 과정에서 발생하는 오차를 줄이기 위해 경험적 영향함수의 보정으로 표본영향함수를 근사 추론하는 방법을 제안하고, 모의실험을 통해 제안한 추론 방법의 타당성을 확인한다.

인간 지식을 이용한 경험적 의사결정트리의 설계 (Design of Heuristic Decision Tree (HDT) Using Human Knowledge)

  • 윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.525-531
    • /
    • 2009
  • 데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다. 하지만 환경 및 데이터의 특성을 고려하지 못하여, 의미 있는 데이터도 함께 분석에서 제외 될 수 있는 문제점을 가지고 있다. 본 논문은 인간의 경험적 지식을 수집된 데이터와 비교하여 가중치로 변환하고, 의사결정트리(Decision Tree)의 생성에 이용한다. 생성된 트리는 인간의 지식이 반영되어 기존의 분석 방법보다 신뢰성이 높다고 할 수 있으며, 실험을 통하여 제안하는 방법의 유효성을 확인하였다.

Comparative Analysis of Anomaly Detection Models using AE and Suggestion of Criteria for Determining Outliers

  • Kang, Gun-Ha;Sohn, Jung-Mo;Sim, Gun-Wu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 연구에선 제조 공정에서의 양/불량 판정을 위한 오토인코더(AE) 기반의 이상 탐지 방법들의 비교 분석과 우수한 성능을 보인 이상치 판별 기준을 제시한다. 제조 현장의 특성상 불량 데이터의 수는 적고, 불량의 형태가 다양하다. 이러한 특성은 정상과 비정상 데이터를 모두 활용하는 인공지능 기반 양/불량 판정 모델의 성능을 저하시키고, 성능 향상을 위한 비정상 데이터의 추가 확보에 시간과 비용을 발생시킨다. 이러한 문제를 해결하기 위해서 정상 데이터만을 이용해 이상 탐지를 수행하는 AE, VAE 등 AE 기반의 모델에 관한 연구들이 진행되고 있다. 본 연구에서는 Convolutional AE, VAE, Dilated VAE 모델을 기반으로 잔차 이미지에 대한 통계치와 MSE, 정보 엔트로피를 이상치 판별 기준으로 선정하여 각 모델의 성능을 비교 분석했다. 특히 Convolutional AE 모델에 대해서 범위 값을 적용했을 때, AUC PRC 0.9570, F1 Score 0.8812, AUC ROC 0.9548, 정확도 87.60%의 가장 우수한 성능을 보였다. 이는 기존의 이상치 판별 기준으로 자주 사용되었던 MSE에 비해 정확도 기준 약 20%P(Percentage Point)의 성능 향상을 보이며, 이상치 판별 기준에 따른 모델 성능 향상이 가능함을 확인하였다.