• 제목/요약/키워드: 자료-자료간 거리

검색결과 508건 처리시간 0.031초

조건부 확률에 기반한 범주형 자료의 거리 측정 (A distance metric of nominal attribute based on conditional probability)

  • 이재호;우종하;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

제한수역에서의 항행선박 항과거리에 관한 연구(I) (A Study on the Ship's Domain in the Restricted Water(I))

  • 정재용;박영수;박진수
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2006년도 추계학술대회 논문집(제2권)
    • /
    • pp.5-7
    • /
    • 2006
  • 항행하는 선박은 자기선박 주변을 하나의 영역으로 생각하여 그 영역안에 타선박의 허가하지 않는 자기만의 영역을 가지고 있다. 지금까지 우리나라에서는 선박간의 항과거리를 일본의 자료를 이용하여 해상교통 환경평가의 하나인 해상교통혼잡도를 평가하고 있다. 이 일본의 자료는 30년전의 자료이며 선박의 고속화${\cdot}$대형화로 인하여 선박간 항과거리는 선박의 통항형태, 항로의 종류, 선박의 크기에 따라 상이할 것으로 사료된다. 하지만, 상기의 모든 요소를 다 가미하여 일반화한 연구는 찾아보기 힘들며 상당한 자료를 이용하여야 하므로 분석하는데 시간이 많이 걸릴 것으로 판단된다. 이 연구에서는 해상교통량이 대단히 높은 중국 상해항을 입출항하는 선박간의 항행거리를 기초로 선박간의 최소 항과거리를 모델화함으로써 우리나라 실정에 맞는 해상교통혼잡도 평가에 이용하고자 하며, 선박운항자들의 항행에 최소 항과거리를 제공함으로써 안전항행에 도움을 주고자 한다.

  • PDF

다차원척도법을 이용한 어린이도서관 별치 자료에 대한 인지 거리 연구 (A Study on the Cognition Distance of Separately Shelved Items by Multi-dimensional Scaling Analysis in Children's Libraries)

  • 김효윤;조재인
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.51-71
    • /
    • 2017
  • 연구는 초등학교 저학년과 고학년, 학부모로 구성된 어린이 도서관 이용자들 200여명이 인지하는 별치 자료간 희망 인지 거리를 다차원척도법(Multi-Dimensional Scaling: MDS)과 K-means 군집분석을 활용해 비교 분석하고 이들의 인지 거리가 실제 어린이 도서관에 어떻게 투영되어 있는지 몇 가지 사례를 통하여 검토해 보았다. 다차원척도법은 분석 대상의 유사성이나 속성 등을 평가하여 공간상에 투영시키는 기법으로 마케팅에서 주로 시장 진단을 위해 활용되지만, 제품이나 시설에 대한 이용자의 인지적 거리를 분석하여 이상적인 물리적 배치 방안을 제시하는 데에도 적용할 수 있다. 분석 결과, 별치 자료간 인지 거리에 있어 초등학교 저학년과 고학년 그리고 학부모 집단간에 각각 차이가 나타났으며, 특히 유 아동자료와 컴퓨터자료 그리고 유아자료와 아동자료간의 인지 거리에 있어 큰 차이가 존재하는 것으로 분석되었다. 한편, Y구의 3개 어린이도서관을 대상으로 분석된 인지 거리 체계가 어떻게 투영되어 있는지 확인해 본 결과, 특정 집단의 인지 체계에 완벽히 부합하는 공간 구조를 지닌 도서관은 존재하지 않았으나, 공통적으로 유 아동자료와 컴퓨터자료, 그리고 유아자료와 아동자료가 분리 배치되어 있다는 점에서 학부모와 초등학생들의 인지 거리가 부분적으로 투영되어 있는 것으로 검토되었다.

자료별 분류분석(DDA)에 의한 특징추출 (Datawise Discriminant Analysis For Feature Extraction)

  • 박명수;최진영
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.90-95
    • /
    • 2009
  • 본 논문은 선형차원감소(Linear Dimensionality Reduction)을 위해 널리 이용되고 있는 특징추출 알고리듬인 선형판별분석(Linear Discriminant Analysis)의 문제점을 해결할 수 있는 새로운 특징추출 알고리듬을 제안한다. 선형판별분석에 포함되는 평균-자료 간 거리 및 평균-평균 간의 거리에 기반한 분산행렬은 역행렬 연산, 계수의 제한 등으로 인하여 계산상의 문제와 추출되는 특징의 수가 제한되는 한계를 가지고 있다. 또한 자료의 집단이 단일 모드의 정규 분포로부터 얻어진 것으로 가정되며 그렇지 않은 경우에 대해서는 적절한 결과를 얻을 수 없다. 본 논문에서는 자료-자료 간의 거리에 기반하고 적절하게 가중치가 추가된 새로운 행렬을 정의하였으며. 이에 기반하여 특징을 추출하는 방법을 제안하였다. 그럼으로써 앞서 선형판별분석의 여러 문제를 해결하고자 시도하였다. 제안된 방법의 성능을 실험을 통해 확인하였다.

역거리법의 최적 거리 지수 (Optimal distance exponent of inverse distance method)

  • 유주환
    • 한국수자원학회논문집
    • /
    • 제51권5호
    • /
    • pp.451-459
    • /
    • 2018
  • 역거리법에 포함된 지수 값을 제곱으로 고정하지 않고 변수로 취급하여 강수량 자료를 바탕으로 지수 값의 최적치를 산출하였다. 이를 위해서 한강 상류부, 한강 하류부, 금강 상류부, 낙동강 중류부 등 4개 Group으로 나누고 각 Group 내 7개 관측소에 대하여 총 52개의 Case를 분석하였다. 각 Group에서 기준 관측소 1개와 주변관측소 4개를 조합한 Case별로 거리 지수 값의 최적치를 구하였다. 이 최적치를 산출하기 위해서 황금비 분할조사법을 적용하였고 강수 자료는 10년(2004~2013년) 간의 시우량 자료를 사용하였다. 이와 같이 구한 최적치를 최근 3년(2014~2016년) 간에 대하여 검증하였다. 본 연구에서 구한 최적의 거리 지수 값은 4개 Group에서 평균적으로 각각 3.280, 1.839, 2.181, 2.005로 나타났고 전체 평균하면 2.326이었다. 그리고 최적의 지수 값을 적용한 역거리법은 지수 값을 제곱으로 한 기존 역거리법과 비교하여 우수함을 보였다.

시각적 군집분석에 대한 전략 (Strategy for Visual Clustering)

  • 허문열
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.177-190
    • /
    • 2001
  • 전통적으로 많이 사용하는 군집분석의 방법들은 개체간의 거리를 고려하여 이들을 분류해 내는 것이며, 따라서 거리 측정 방법에 따라 여러 형태의 군집분석 방법이 나타나게 된다. 어떤 방법을 적용하던 간에 그 결과는 고정된 수치로써 나타난다. 다차원 자료의 구조파악이 몇 개의 수치로 나타나게 되면 어쩔 수 없이 정보의 손실이 발생하게 된다. 이를 보완하기 위해 시각적 매체를 동원하여 다차원 자료의 구조를 파악하는 연구가 있었으며, 이를 시각적 군집분석이라고 명명하고 있다. 본 연구에서는 시각적 군집분석에 대한 기본적 개념과 이를 위한 통계 도형의 활용, 구현방법 등에 대해 살펴보기로 한다.

  • PDF

글로벌 기후 관측자료 품질관리 기법 개발 (Development of quality control techniques for global climate observations)

  • 이재승;김선호;배덕효
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.104-104
    • /
    • 2019
  • 기후 관측자료의 경우 관측, 가공, 전송 중에 오류가 발생할 수 있으며, 특히 글로벌 기후자료는 다양한 조건을 가지고 있는 자료를 수집하였기 때문에 일반적으로 해당 국가 관측자료보다 품질이 낮다. 본 연구에서는 글로벌 기후 관측자료의 품질을 개선할 수 있는 품질관리 기법을 개발하고 국내 지역에 적용해보고자 한다. 연구대상지역으로 국내 대표도시 7 곳을 선정하였으며, 글로벌 기후자료는 NCDC (National Climatic Data Center)의 일 단위 GSOD (Global Surface Summary of the Day) 자료를 수집하였다. 품질관리는 강수와 기온에 대해서 실시하였으며 과정은 크게 이상치 검사, 이상치 및 결측치 보정, 연, 월 단위 기후 자료 산정으로 구분된다. 이상치 검사는 중복성 검사, 내적일치성 검사, 기후범위 검사, 공간동질성 검사를 기반으로 구성되어 있다. 이상치 및 결측치 보정은 인접 관측소의 자료를 보간하여 수행하였으며, 보간기법은 4 방향 역거리 가중법을 활용하였다. 연, 월 단위 자료 산정은 자료의 결측률을 고려하여 일 단위 자료를 연, 월 단위 자료로 변환하는 과정이다. 이상치 검사 결과 대부분의 이상치는 기후범위와 공간동질성 검사에서 발견되는 것으로 나타났으며, 중복성 및 내적일치성 검사는 이상치 검출 효과가 적은 것으로 나타났다. 결측치 및 이상치 보간 결과 추정된 자료와 관측값 간의 상관관계가 있는 것으로 나타나 활용성이 있었다. 본 연구는 글로벌 자료의 품질관리 기법을 제시하였다는 점에서 활용성이 있으며, 향후 품질관리 기법의 검증에 관한 연구를 수행할 필요가 있다.

  • PDF

베리오그램을 이용한 중력과 자력 자료의 선형성 및 상관거리 비교 분석 (A Comparative Analysis of Linearity and Range of Gravity and Magnetic Data Using Variogram)

  • 박계순;박노욱
    • 한국지구과학회지
    • /
    • 제31권2호
    • /
    • pp.119-128
    • /
    • 2010
  • 자료가 부족한 지역에서의 타당성 높은 공간 자료 해석을 위해서는 추정의 기본 자료인 공간 분포 특성에 대한 올바른 분석이 선행되어야 한다. 공간 추정과 관련해서 자료에 내재된 공간적 특성 척도로 이용 가능한 베리오그램은 자료의 공백을 보완하는 여러 추정 기법의 기초 자료로 그 이용 영역이 제한되어 있는 경향이 있었다. 이에 보다 신뢰성 있는 자료 추정을 위해서는 베리오그램 값이 갖는 의미에 대한 보다 심도 있는 분석이 필요하다. 이 연구에서는 베리오그램 값이 공간 분포 상에서 갖는 의미에 대하여 고찰하고, 베리오그램 분석을 통해 얻을 수 있는 자료의 공간 분포 특성에 대해 연구하였다. 베리오그램은 방향과 분리거리에 따른 자료간의 상관관계 정보를 제공하며, 거리에 따른 상관관계의 변화 정도에 대한 특성을 알려줄 수 있다. 이를 이용하여 베리오그램의 문턱값과 상관거리를 분석하고, 자기상관 값을 이용한 유사거리 개념을 도입하여 선형성 분석의 가능성을 검증하였으며, 화산칼데라 지역에서 획득된 중력 자료 및 자력 자료의 공간 분포 특성을 비교 분석하였다. 분석 결과, 자료의 분포 폭과 변동 폭에 따라 나타나는 중력 자료와 자력 자료의 상이한 특성 패턴을 확인할 수 있었으며, 화산칼데라 지역에서 중력 및 자력의 선형성 방향이 지형의 선형성 방향과 유사하게 나타나고 있어 중력 및 자력 이상체의 지표 연장성이 좋은 것으로 나타났다.

진해만의 태풍 내습시의 정박지 이용현황 및 정박지 지정에 관한 연구(I)

  • 박영수;박진수;정재용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2006년도 추계학술대회 논문집(제2권)
    • /
    • pp.9-11
    • /
    • 2006
  • 우리나라에는 매년 평균 $2{\sim}3$회의 태풍이 내습하고 있다. 이러한 태풍의 내습시 우리나라 남해 근방의 항만에 정박증인 선박과 항행중인 선박의 대부분을 진해만으로 피항을 하고 있는 실정이다. 이러한 진해만 피항시 정박하고 있는 많은 선박들 사이로 정박지를 찾아 헤메는 선박들로 인하여 위험한 상황을 초래하고 있다. 이러한 정박지 선정을 레이더를 통하여 진해만 정박지를 사전에 결정할 수 있으면 좋으리라 판단된다. 이 연구는 현재 정박지에서 선박간의 최소거리를 진해만 태풍 내습시의 자료를 이용하여 모델화하고 이 모델을 통하여 선박간의 최소 정박지 거리제공으로 선박항자에게 신속하고 정확한 정박지 선정에 도움이 되고자 한다. 또한 VTS center에서 정박지를 사전에 지정하는데 도움이 되는 시스템을 구축하는 기초자료로 이용하고자 한다.

  • PDF

다중 이슈 프로세서를 위한 최악 실행시간 분석 기법 (A Worst Case Execution Timing Analysis Technique for Multiple-Issue Processors)

  • 임성수;한정희;김지홍;민상렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권10호
    • /
    • pp.848-860
    • /
    • 2000
  • 본 논문에서는 한 번에 여러 개의 명령어를 이슈할 수 있는 다중 이슈 프로세서(in-order, multiple-issue processors)에 대해 최악 실행시간을 분석하는 기법을 제시한다. 명령어들의 이슈 형태를 분석하기 위해서 명령어들 사이의 의존성 간계를 표현하는 IDG(Instruction Dependence Graph)라고 하는 자료구조를 사용한다. 이 자료구조로부터 각 명령어들의 이슈간 거리 범위를 구하고, 프로그램의 계층적인 분석 과정에서 점차로 더 정확한 이슈간 거리 범위로 갱신한다. 프로그램의 최악 실행시간은 최종적으로 얻어진 프로그램 전체에 대한 IDG를 분석하여 얻은 명령어들의 이슈간 거리 범위로부터 계산한다. 제안하는 기법을 구현한 시간 분석기를 사용하여 실험한 결과, 논문에서 사용한 다중 이슈 프로세서 모델에 대해서 정확하게 다중 이슈 형태를 분석할 수 있었다.

  • PDF