• 제목/요약/키워드: 심볼릭 표현법

검색결과 3건 처리시간 0.015초

반도체공정 이상탐지 및 클러스터링을 위한 심볼릭 표현법의 적용 (Application of Symbolic Representation Method for Fault Detection and Clustering in Semiconductor Fabrication Processes)

  • 노웅기;홍상진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권11호
    • /
    • pp.806-818
    • /
    • 2009
  • 반도체(semiconductor) 기술은 1950년대에 집적 회로(integrated circuit, IC)가 발명된 이후 오늘날까지 급속한 발전을 거듭하고 있다. 하나의 완전한 반도체를 제조하기 위해서는 매우 다양하고 긴 공정을 거쳐야 한다. 반도체 제조 생산성을 높이기 위하여 공정들이 종료되기 전에 미리 이상(fault)을 발견하기 위한 이상탐지 및 분류(fault detection and classification, FDC)에 대한 많은 연구가 진행되고 있다. 이를 위하여 다양한 반도체 장비에 갖가지 종류의 센서를 부착하여 일정한 시간 간격으로 원하는 값을 측정한다. 이러한 측정 값은 실수 값들의 연속이므로 시계열(time-series) 데이터의 일종이다. 본 논문에서는 반도체 공정에서의 이상탐지 및 클러스터링을 수행하는 알고리즘을 제안한다. 제안된 알고리즘은 시계열 데이터를 심볼릭 표현법(symbolic representation)으로 변환하여 이상을 탐지하는 기존의 알고리즘을 수정한 것이다. 본 논문의 공헌은 일반적인 시계열 데이터에 대한 기존의 이상탐지 알고리즘을 수정하여 반도체 공정 데이터에 대해서도 활용할 수 있음을 보일 뿐만 아니라, 이상탐지 및 클러스터링의 정확성을 높이는 실험 결과를 제시하는 것이다. 실험 결과, 본 논문에서 제안한 알고리즘은 긍정 오류(false positive) 및 부정 오류(false negative)를 모두 발생하지 않았다.

구간형 자료의 주성분 분석에 관한 연구 (On principal component analysis for interval-valued data)

  • 최수진;강기훈
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.61-74
    • /
    • 2020
  • 심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

구간형 데이터 검정법을 이용한 유전자 탐색에 관한 연구 (A Study on Gene Search Using Test for Interval Data)

  • 이성건
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2805-2812
    • /
    • 2018
  • 본 연구는 생명정보학(bio-informatics) 분야 중, 특정 병에 관련된 유전자 위치를 찾고자 DNA 시퀀싱(DNA sequencing) 방법을 이용한 메틸화(methylation) 데이터의 분석에 관한 것이다. 반복적인 시퀀싱 과정을 통해 도출되는 메틸화 여부 자료를 비율로 표현한 메틸화 점수는 0과 1사이의 값을 가지게 된다. 이러한 데이터에 집단별 메틸화 점수의 차이를 검토하기 위해 t-검정을 단순히 적용하는 것은 정규분포의 가정에 위배된다. 또한 메틸화 점수 생성과정에서 시퀀싱의 반복수에 따라 결과가 달라 질 수 있으므로 이러한 오차를 고려해서 분석할 수 있는 방법도 필요하다. 이에 본 논문에서는 메틸화 데이터를 하나의 숫자 데이터가 아닌 불확실성을 포함하는 구간형(interval) 데이터로 변환하여 분석하는 심볼릭 데이터 분석(symbolic data analysis) 및 구간형 K-S 검정법을 적용하였다. 또한 구간형 데이터로 변환하는 과정에서 정규분포를 이용하지 않고 베타분포를 이용하여 메틸화 점수의 특성을 반영하여 분석할 수 있게 하였다. 자료분석을 위하여 174명의 실제 암환자 및 정상인들의 DNA 시퀀싱 데이터를 이용하여 제안한 방법의 성질을 살펴보았다. t-검정은 위치모수에 관한 검정만 가능한 반면, 구간형 K-S 통계량은 구간자료에 대해 위치모수뿐만 아니라 분포함수의 이질성에 검정할 수 있으므로 t-검정이 놓칠 수 있는 유의미한 유전자 위치를 찾아낼 수 있음을 확인하였다.