• 제목/요약/키워드: 이산화 방법

검색결과 446건 처리시간 0.032초

분류학습을 위한 연속 애트리뷰트의 이산화 방법에 관한 연구 (Discretization of Continuous-Valued Attributes for Classification Learning)

  • 이창환
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1541-1549
    • /
    • 1997
  • 대부분의 기계학습 방법들은 이산형의 데이타를 학습에 사용되는 데이타의 형식으로 요구하고 있다. 따라서 연속형 데이타의 경우는 기계학습 방법들을 적용하기 전에 그 데이타를 이산형으로 바꾸어 주는 과정이 필요하다. 이러한 이산화 과정은 그 중요성에 비하여 상대적으로 관련 연구가 미비한 수준이다. 따라서 이 논문은 정보이론을 사용하여 연속형 자료를 이산형의 형태로 변환시키는 새로운 방법을 제안하였다. 각 애트리뷰트의 값들이 목적 애트리뷰트에 제공하는 정보의 량을 엔트로피 함수의 일종인 Hellinger 변량을 이용하여 계산하였으며, 각 애트리뷰트마다 제공하는 정보의 손실을 최소화할 수 있는 이산화 경계선을 계산하였다. 본 논문이 제안한 방법의 성능을 ID3 와 신경망 알고리즘을 사용하여 기존의 이산화 방법들과 비교하였으며 거의 대부분 우수한 정확성을 보였다.

  • PDF

격자, 난류모형 및 이산화 방법이 유동해석 결과에 미치는 영향 (Effect of Grid, Turbulence Modeling and Discretization on the Solution of CFD)

  • 박동우;윤현식
    • 해양환경안전학회지
    • /
    • 제20권4호
    • /
    • pp.419-425
    • /
    • 2014
  • 본 연구는 격자수, 첫 번째 격자까지의 거리($Y_P+$), 난류모델 그리고 이산화 방법에 따른 해의 변화량을 조사하였다. 대상선박은 KVLCC이며, 격자구성과 유동해석은 상용코드인 Gridgen V15와 FLUENT를 사용하였다. 검토는 2가지 파트로 나누어서 수행하였다. 첫 번째 파트는 격자수, 난류모델 그리고 이산화 방법의 조합에 따른 해의 영향성을 평가하였다. 두 번째 파트는 적합한 $Y_P+$ 선정에 초점을 두었다. 격자수와 이산화 방법이 동일한 경우 마찰저항은 난류모델에 따라 약 1 % 내에서 차이를 보였으나, 압력저항은 약 9 %의 큰 차이를 보였다. $Y_P+$와 이산화 방법이 동일한 경우 $Y_P+$를 30과 50으로 설정하였을 때 마찰저항은 난류모델에 따라 약 1 % 내에서 차이를 보였으나, 100에서는 약 3 % 차이를 보였다. 반면, 압력저항은 $Y_P+$값에 무관하게 난류모델에 따라 약 10 % 차이를 보였다. 난류모델과 이산화 방법이 동일한 경우 격자 수 변화 따라 마찰저항, 압력저항 그리고 전 저항 모두 큰 차이를 보이지 않았다. 난류모델과 이산화 방법이 동일한 경우 $Y_P+$의 변화에 따라 마찰저항은 5~8 %의 큰 차이를 보였고, 압력저항은 큰 차이를 보이지 않았다.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of continuous-valued attributes considering data distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

Fermi-Dirac 분포를 고려한 Poisson 방정식의 이산화 방법 (The discretization method of Poisson equation by considering Fermi-Dirac distribution)

  • 윤석성;이은구;김철성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.907-910
    • /
    • 1999
  • 본 논문에서는 고 농도로 불순물이 주입된 영역에서 전자 및 정공 농도를 정교하게 구현하기 위해 Fermi-Dirac 분포함수를 고려한 포아송 방정식의 이산화 방법을 제안하였다. Fermi-Dirac 분포를 근사시키기 위해서 Least-Squares 및 점근선 근사법을 사용하였으며 Galerkin 방법을 근간으로 한 유한 요소법을 이용하여 포아송 방정식을 이산화하였다. 구현한 모델을 검증하기 위해 전력 BJT 시료를 제작하여 자체 개발된 소자 시뮬레이터인 BANDIS를 이용하여 모의 실험을 수행한 결과, 상업용 2차원 소자 시뮬레이터인 MEDICI에 비해 최대 4%이내의 상대 오차를 보였다.

  • PDF

멀티레이트 이산화를 이용한 디지털 제어기 설계 (The Digital Controller Design using Multirate Discretization)

  • 박종우;곽칠성
    • 한국정보통신학회논문지
    • /
    • 제6권1호
    • /
    • pp.1-5
    • /
    • 2002
  • 디지털 제어시스템을 설계하려면, 먼저 아날로그 시스템을 설계한 후, 이산화하여 디지털 시스템을 설계한다. 본 논문에서는 최적 디지털 제어기의 선계에 샘플치 제어이론을 적용한다. 특히, 아날로그 제어기들의 멀티레이트 이산화에 Η$_2$최적화를 이용한다. 멀티레이트 구조상 인과성 제약을 갖는 멀티레이트 Η$_2$최적화를 통해 해를 얻는다. 설계 예제를 통해, 기존 이산화 방법과 비교하여, 멀티레이트 설계방법의 우수성을 확인한다.

Taylor Series를 이용한 입력 시간지연 비선형 시스템 일반적인 이산화 (Taylor Series Based Discretization for Nonlinear Input-delay Systems)

  • 박유진;임대영;정길도
    • 전자공학회논문지SC
    • /
    • 제49권2호
    • /
    • pp.17-25
    • /
    • 2012
  • 본 논문에서는 입력에 시간지연이 있는 연속 비선형 시스템의 일반적인 이산화를 위해 높은 차수의 샘플링 보관법을 제안한다. 제안한 방법은 테일러 시리즈 확장, 샘플링 이론과 보관법의 조합을 기초로 한다. 새로운 이산화 방법의 수학적인 구조에 대해 세부적으로 유도하였으며, 제안한 이산화 방법에 대한 성능을 2차 시스템에 대한 시뮬레이션을 통해 검증하였다.

R명령어들의 속도 평가

  • 이진아;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.301-305
    • /
    • 2003
  • 최근에 R은 여러 분야에서 많이 사용되고 있다. 특히 모의실험(simulation)이나 통계학 관련 연구에 많이 사용되고 있다. 모의실험을 하는 경우에는 많은 반복으로 인해 R 프로그램의 수행 속도가 매우 중요하다. 또한 데이터마이닝 분야에서도 R을 많이 사용하고 있다. 우리는 데이터 마이닝에서 데이터의 전처리 과정 중 Fayyad & Irani 방법을 사용하여 연속형 변수를 이산화하는 실험을 하였으며, 이를 위해 R을 사용하였다. 이 프로그램은 재귀 함수를 이용하고 이런 과정에서 빈도표 작성, information계산, 빈도표의 분할, 정지 규칙 등의 여러 함수를 사용하게 되어있다. 우리가 작성한 R 로드를 사용하여 UCI DB의 Iono 자료를 (속성이 35개, 사례수가 약 1000개정도) 이산화 하였을 때 7초 이상의 상당한 시간이 소요된다. 반면에 JAVA로 만들어진 Weka에서 똑같은 Fayyad & Irani 방법을 수행했을 때 위와 같은 큰 자료를 이산화하는 속도가 매우 빨라 수행시간은 거의 무시할 만하였다. 이런 차이점을 보고 R 프로그램의 수행 속도를 늘이는 방법을 찾게 되었다. 이 본 발표에서는 R 코드 중 시간이 많이 소요되는 것들을 몇 가지 선정하고 이들을 더 효율적으로 만들 수 있는 코드를 작성하여 이들 코드의 수행속도를 비교하였다. 또한 몇 가지 명령에 대해서는SAS와도 비교하였다.

  • PDF

시계열 분류를 위한 PIPs 탐지와 Persist 이산화 기법들을 결합한 시계열 표현 (Time Series Representation Combining PIPs Detection and Persist Discretization Techniques for Time Series Classification)

  • 박상호;이주홍
    • 한국콘텐츠학회논문지
    • /
    • 제10권9호
    • /
    • pp.97-106
    • /
    • 2010
  • 시계열 데이터를 효율적이고 효과적으로 처리하기 위해 다양한 시계열 표현 방법들이 제안되었다. SAX(Symbolic Aggregate approXimation)는 단편화와 이산화 기법들을 결합한 시계열 표현 방법으로, 시계열 분류 문제에 성공적으로 적용되었다. 그러나 SAX는 시계열의 움직임을 평활하여 시계열의 중요한 동적 패턴들을 정확히 표현하기 위해 세그먼트 수를 크게 해야 한다. 본 논문은 PIPs (Perceptually Important Points)탐지 기법과 Persist 이산화 방법을 결합한 시계열 표현 방법을 제안한다. 제안된 방법은 시계열의 중요한 변곡점들을 나타내는 PIP 들을 탐지하여 고차원 시계열의 동적 움직임을 저차원 공간에서 표현한다. 그리고 시계열의 자기 전이와 주변 확률 분포를 KL 다이버전스에 적용하여 최적의 이산화 영역들을 결정한다. 제안된 방법은 시계열의 차원 축소과정에서 정보 손실을 최소화하여 시계열 분류의 성능을 향상시킨다.

정상상태에서 Fermi 분포를 고려한 드리프트-확산 방정식의 이산화 알고리즘 (The Discretization Method of the Stationary Drift-Diffusion Equation with the Fermi-Dirac Statistics)

  • 이은구;강성수;이동렬;노영준;김철성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.157-160
    • /
    • 2001
  • 소자 내부의 전위와 전자 및 정공 의사 페르미 준위에 따른 반송자의 정확한 농도를 얻기 위해 Fermi-Dirac통계를 구현하는 방법을 제시하였다. 또한 Fermi-Dirac통계를 고려하여 반도체 방정식을 이산화하는 방법을 제안한다. 제안된 방법을 검증하기 위해 전력 바이폴라 접합 트랜지스터를 제작하였으며 모의 실험 결과 컬렉터-에미터 전압 대 컬렉터 전류는 현재 업계에서 상용화된 소자의 실측치와 비교하여 최대 15%이내의 상대오차를 보였다.

  • PDF