• 제목/요약/키워드: 심볼릭 자료

검색결과 8건 처리시간 0.023초

혼합형태 심볼릭 데이터의 군집분석방법 (A Divisive Clustering for Mixed Feature-Type Symbolic Data)

  • 김재직
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1147-1161
    • /
    • 2015
  • 오늘날 데이터는 p-차원의 공간에서 점들로써 표현되는 전통적인 형태를 벗어나 시그널(signal), 함수, 이미지(image), 모양(shape) 등과 같은 다양한 형태의 자료들이 데이터로써 고려되고 분석되고있다. 그러한 종류의 새로운 종류의 데이터 중 하나로 심볼릭 데이터(symbolic data)를 고려할 수 있다. 심볼릭 데이터는 구간(interval), 히스토그램(histogram), 목록(list), 통계표, 분포, 또는 모형 등과 같은 다양한 형태들을 가질 수 있다. 지금까지의 연구가 주로 심볼릭 데이터의 각각의 형태별 자료를 고려했다면, 본 연구에서는 이를 확장하여 수집된 히스토그램과 멀티모달의 혼합된 형태로 이루어진 자료에 대한 계층 분할적 군집분석방법을 소개하고 이를 업종별 산업재해자료의 분석을 위해 이용한다.

자바를 활용한 수치계산에서의 심볼릭 연산 알고리즘

  • 김철수;김익찬;양준영
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제13권2호
    • /
    • pp.535-547
    • /
    • 2002
  • 본 논문은 교육현장에서 자바(Java)를 이용한 수치계산 애플릿(Applet)을 개발할 경우 수식을 인식하여 그 결과를 실행하고 보여주는 심볼릭 연산을 구현하기 위한 알고리즘 개발과 다양한 입력식을 처리하기 위한 효율적인 자료구조를 제안한다. 구현된 패키지내의 클래스는 변수와 상수, 다양한 연산자를 처리하기에 적합하며 분석된 정보를 통해 사칙연산의 처리, 연산자 우선순위의 처리, 심볼릭 연산, 다항식, 방정식, 함수의 그래프 작성, 간단한 미적분 처리를 하는 알고리즘을 제안한다.

  • PDF

악성간암환자의 유전체자료 심볼릭 나무구조 모형연구 (Symbolic tree based model for HCC using SNP data)

  • 이태림
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1095-1106
    • /
    • 2014
  • 본 연구에서는 악성간암환자의 생존기간에 영향을 주는 인자를 찾기 위하여 반응변수를 악성간암 환자의 생존을 임상변수의 정보와 SNP유전인자를 통합한 자료를 대상으로 이해하기 쉬운 나무구조 생존모형과 심볼릭자료분석을 실시하여 영향을 주는 유의한 인자 뿐 아니라 그 임계치를 구하여 임상적으로 유용한 결과를 찾아 임상에 적용하는 것이 목적이다. 악성간암환자의 임상자료를 계량화하여 통계적 예후진단 모형을 구함으로써 임상변수 간 숨겨진 변수간의 관계를 규명하고 생존기간 군에 따른 예측 분류모형을 구하여 현시적으로 진단후 예후에 영향을 주는 중요 임상변수와 유전체변수 그 임계치를 구하여 임상에서의 치료계획에 중요한 근거를 제시했다. 심볼릭데이터 분석 결과 정상, 만성 간염, 간염, 악성간염 등의 4개 군으로 구성된 1840명의 대상자를 분석 5 유전체의 20개 SNP가 밝혀진 바 있다. 즉 IL10-ht2가 악성간암의 발병에 매위 강한 관련이 있고 TGFB L10P-Prosms가 만성 간염 환자 중 악성간암 발생 위험을 줄여주는 유전체로 밝혀졌다. SNP변수와 질병군의 컴셉트 변수에 따라 상관정도를 원의 반지름 길이로 상대적으로 나타내 줌으로써 가장 판별력 있는 심볼릭변수를 상대적으로 비교할 수 있었다. 임상자료와 유전체자료를 통합하여 심볼릭 나무구조 생존모형을 구하여 생존기간을 군으로 한 나무구조모형을 유의한 변수와 기준치와 함께 구할 수 있었다.

서울 아파트 매매가 자료의 심볼릭 데이터를 이용한 군집분석 (Cluster analysis for Seoul apartment price using symbolic data)

  • 김재직
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1239-1247
    • /
    • 2015
  • 이 논문에서는 아파트 매매가 활발히 일어나는 서울시내 64개 행정동들에 대해 아파트 전용면적별 실거래 매매가를 기준으로 군집분석을 실시하였다. 군집분석에 있어서 각 행정동의 실거래가에 대한 정보를 최대한 이용하기 위해 실거래가의 평균 뿐만 아니라 그 분포까지 고려할 수 있도록 전통적인 형태의 데이터를 히스토그램 형태의 데이터로 변환하여 분석을 하였다. 히스토그램 데이터는 심볼릭 데이터의 한 종류이고, 심볼릭 데이터는 기본적으로 구간, 목록, 히스토그램, 분포, 모형 등과 같이 데이터 자체가 내부적인 변동을 갖는 모든 형태의 데이터를 포함한다. 이러한 각 행정동들의 내부적인 매매가의 변동을 고려한 군집분석의 결과 강남구, 서초구, 송파구와 그에 인접한 행정동들이 상대적으로 다른 지역보다 매매가도 높았고 실거래가의 분포도 훨씬 더 넓은 것으로 조사되었다. 전반적으로 도심에 대한 접근성이 좋고 교육환경이 우수한 지역과 강북의 뉴타운 지역이 상대적으로 주변지역보다 더 높고 넓은 매매가 분포를 보이는 것으로 분석되었다.

구간형 자료의 주성분 분석에 관한 연구 (On principal component analysis for interval-valued data)

  • 최수진;강기훈
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.61-74
    • /
    • 2020
  • 심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현 (Time series representation for clustering using unbalanced Haar wavelet transformation)

  • 이세훈;백창룡
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.707-719
    • /
    • 2018
  • 시계열 데이터의 분류와 군집화를 효율적으로 수행하기 위해 다양한 시계열 표현 방법들이 제안되었다. 본 연구는 Lin 등 (2007)이 제안한 국소 평균 근사를 이용하여 시계열의 차원을 축소한 후 심볼릭 자료로 이산화하는 symbolic aggregate approximation (SAX) 방법의 개선에 대해서 연구하였다. SAX는 국소 평균 근사를 할 때 등간격으로 임의의 개수의 세그먼트로 나누어 평균을 계산하여 세그먼트의 개수에 그 성능이 크게 좌우된다. 따라서 본 논문은 불균형 Haar 웨이블릿 변환을 통해 국소 평균 수준을 등간격이 아니라 자료의 특성을 반영하여 자료 의존적으로 선택하게 함으로써 시계열의 차원을 효과적으로 축소함과 동시에 정보의 손실을 줄이는 방법에 대해서 제안한다. 제안한 방법은 실증 자료 분석을 통해 SAX 방법을 개선시킴을 확인하였다.

동적 분기 커버리지를 위한 테스트 데이터 자동 생성 (Automated Test Data Generation for Dynamic Branch Coverage)

  • 정인상
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권7호
    • /
    • pp.451-460
    • /
    • 2013
  • 높은 테스트 커버리지 달성을 위해 심볼릭 실행, 자료 흐름 분석 및 제약 해결 기법 등을 이용하여 테스트 데이터 생성을 하는 것이 일반적이다. 최근에 그와 같은 정교한 수단 없이도 높은 커버리지를 효과적으로 달성 할 수 있는 방법이 제안되었다. 그러나 이 방법도 실행 중에 다른 메모리 로케이션들이 바인딩되는 분기 조건을 갖는 프로그램에 대해서는 높은 커버리지를 가져오는 테스트 데이터 생성이 어려웠다. 특히 플래그 조건을 가지는 프로그램에 대해서는 특정 분기들이 실행되지 않아 높은 커버리지를 달성하지 못하는 경우가 발생한다. 이 논문에서는 이 문제를 다루기 위하여 기존 커버리지 기준을 개선한 동적 분기 커버리지 기준들과 동적 분기에 기반 한 테스트 데이터 생성 전략을 제안한다. 실험을 통하여 플래그 조건이 있는 프로그램들에 대해서도 제안된 방법이 기존의 방법에 비해 효과적으로 커버리지를 달성함을 보인다. 요약은 무슨 연구를 어떻게 수행하였는지, 주된 연구결과와 그 중요성에 관해 간결하게 기술하여야 한다.

구간형 데이터 검정법을 이용한 유전자 탐색에 관한 연구 (A Study on Gene Search Using Test for Interval Data)

  • 이성건
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2805-2812
    • /
    • 2018
  • 본 연구는 생명정보학(bio-informatics) 분야 중, 특정 병에 관련된 유전자 위치를 찾고자 DNA 시퀀싱(DNA sequencing) 방법을 이용한 메틸화(methylation) 데이터의 분석에 관한 것이다. 반복적인 시퀀싱 과정을 통해 도출되는 메틸화 여부 자료를 비율로 표현한 메틸화 점수는 0과 1사이의 값을 가지게 된다. 이러한 데이터에 집단별 메틸화 점수의 차이를 검토하기 위해 t-검정을 단순히 적용하는 것은 정규분포의 가정에 위배된다. 또한 메틸화 점수 생성과정에서 시퀀싱의 반복수에 따라 결과가 달라 질 수 있으므로 이러한 오차를 고려해서 분석할 수 있는 방법도 필요하다. 이에 본 논문에서는 메틸화 데이터를 하나의 숫자 데이터가 아닌 불확실성을 포함하는 구간형(interval) 데이터로 변환하여 분석하는 심볼릭 데이터 분석(symbolic data analysis) 및 구간형 K-S 검정법을 적용하였다. 또한 구간형 데이터로 변환하는 과정에서 정규분포를 이용하지 않고 베타분포를 이용하여 메틸화 점수의 특성을 반영하여 분석할 수 있게 하였다. 자료분석을 위하여 174명의 실제 암환자 및 정상인들의 DNA 시퀀싱 데이터를 이용하여 제안한 방법의 성질을 살펴보았다. t-검정은 위치모수에 관한 검정만 가능한 반면, 구간형 K-S 통계량은 구간자료에 대해 위치모수뿐만 아니라 분포함수의 이질성에 검정할 수 있으므로 t-검정이 놓칠 수 있는 유의미한 유전자 위치를 찾아낼 수 있음을 확인하였다.