• 제목/요약/키워드: 정규 상호정보량

검색결과 15건 처리시간 0.028초

상호정보량의 정규화에 대한 연구 (A Study on Relative Mutual Information Coefficients)

  • 이재윤
    • 한국문헌정보학회지
    • /
    • 제37권4호
    • /
    • pp.178-198
    • /
    • 2003
  • 상호정보량은 용어간 유사도 산출을 비롯한 다양한 분야에서 연관성 척도로 사용되어왔다. 그러나 값의 범위가 일정하지 않으며 지나치게 저빈도인 경우를 선호하는 경향이 제한점으로 지적되고 있다. 이런 점을 보완하기 위해서 상호정보량을 정규화하는 상대적 상호정보량 계수를 제안하였다. 제안된 계수의 특성을 알아본 다음, 세 실험집단을 대상으로 전역적(global) 질의확장 검색을 수행한 결과 검색 성능을 향상시킬 수 있었다.

조건부 상호정보를 이용한 분류분석에서의 변수선택 (Efficient variable selection method using conditional mutual information)

  • 안치경;김동욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1079-1094
    • /
    • 2014
  • 상호정보 (mutual information)를 이용한 변수 선택법은 반응변수와 설명변수간의 선형적인 연관성뿐만 아니라 비선형적인 연관성을 감지하며, 설명변수 사이의 연관성도 고려하는 좋은 변수선택 방법이다. 하지만 고차원 자료에서 상호정보를 추정하기가 쉽지 않아 이에 대한 연구가 필요하다. Cai 등 (2009)은 조건부 상호정보를 이용한 전진선택법과 가지치기법을 이용하여 이러한 문제를 해결하였으며, 마이크로어레이 자료와 같은 고차원 자료에서 조건부 상호정보를 이용한 변수 선택법으로 선택된 변수들로 구성된 SVM의 분류 성능이 SVM-RFE 및 기존의 필터링 방법으로 선택된 변수들로 구성된 SVM의 분류 성능보다 뛰어남을 보였다. 하지만 조건부 상호정보를 추정할 때 사용된 Parzen window 방법은 변수의 수가 많아질수록 변수 선택 시간이 길어지는 단점으로 인해 이에 대한 보완이 필요하다. 본 논문에서는 조건부 상호정보 계산 시 필요한 설명변수의 분포를 다변량 정규분포로 가정함으로써 변수선택을 위한 계산시간을 단축시키며 동시에 변수선택의 성능을 향상시키고자 한다. 반면, 설명변수의 분포를 다변량 정규분포로 가정한다는 것은 강한 제약이 될 수 있으므로 이를 완화시킨 Edgeworth 근사를 이용한 조건부 상호정보 기반의 변수 선택법을 제안한다. 실증분석을 통해 본 논문에서 제안한 방법의 효율성을 살펴보았으며, 기존의 조건부 상호정보 기반 변수 선택법에 비해 계산 속도나 분류 성능 면에서 우수함을 보였다.

Elastic Net를 이용한 시간 지연 추정 알고리즘 (Time delay estimation algorithm using Elastic Net)

  • 임준석; 이근화
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.364-369
    • /
    • 2023
  • 두 개 수신기에 들어오는 신호 간의 시간 지연 추정 기술은 수중 음향 뿐만 아니라 실내 음향 및 로보틱스에 이르기까지 다양한 분야에서 응용되고 있는 기술이다. 시간 지연 추정 기술에는 수신기 사이 상호 상관으로부터 시간 지연량을 추정하는 방법이 한 기술 부류이고, 수신기 사이의 시간 지연을 파라메트릭 모델링을 하여 그 파라미터를 시스템 인식의 방법으로 추정하는 기술 부류가 있다. 두 부류 중 후자의 경우 시스템의 파라미터 중에서 지연과 직접 관련 있는 파라미터는 전체 중 극히 일부라는 특성이 있다. 이 특성을 이용하여 Lasso 정규화 같은 방법으로 추정 정확도를 높이기도 한다. 그러나 Lasso 정규화의 경우 필요한 정보가 소실되는 경우가 발생한다. 본 논문에서는 이를 보완하기 위해서 Lasso 정규화에 Ridge 정규화를 덧붙인 Elastic Net을 사용한 방법을 제안한다. 제안한 방법을 기존의 일반 상호 상관(Generalized Cross Correlation, GCC) 방법 및 Lasso 정규화를 사용한 방법과 비교하여, 백색 가우시안 신호원 및 유색 신호원에서도 추정 오차가 매우 적음을 보인다.

점진적 샘플링과 정규 상호정보량을 이용한 온라인 기계학습 공조기 급기온도 예측 모델 개발 (Development of Online Machine Learning Model for AHU Supply Air Temperature Prediction using Progressive Sampling and Normalized Mutual Information)

  • 추한경;신한솔;안기언;라선중;박철수
    • 대한건축학회논문집:구조계
    • /
    • 제34권6호
    • /
    • pp.63-69
    • /
    • 2018
  • The machine learning model can capture the dynamics of building systems with less inputs than the first principle based simulation model. The training data for developing a machine learning model are usually selected in a heuristic manner. In this study, the authors developed a machine learning model which can describe supply air temperature from an AHU in a real office building. For rational reduction of the training data, the progressive sampling method was used. It is found that even though the progressive sampling requires far less training data (n=60) than the offline regular sampling (n=1,799), the MBEs of both models are similar (2.6% vs. 5.4%). In addition, for the update of the machine learning model, the normalized mutual information (NMI) was applied. If the NMI between the simulation output and the measured data is less than 0.2, the model has to be updated. By the use of the NMI, the model can perform better prediction ($5.4%{\rightarrow}1.3%$).

비정규 충격성 잡음 환경에서 부호 순위 통계량에 바탕을 둔 직접수열 대역확산 부호 획득기법 (DS/SS Code Acquisition Scheme Based on Signed-Rank Statistic in Non-Gaussian Impulsive Noise Environments)

  • 김상훈;안상호;이영윤;유승수;윤석호
    • 한국통신학회논문지
    • /
    • 제33권2C호
    • /
    • pp.200-207
    • /
    • 2008
  • 본 논문에서는 수신된 신호 표본의 실제 간 대신 신호 표본의 부호와 (sign) 순위를 (rank) 사용하기에, 비정규 충격성 잡음 (non-Gaussian impulsive noise) 분산의 (dispersion) 정보를 필요로 하지 않는 새로운 부호 획득을 위한 검파기를 제안하였다. 제안한 검파기의 평균 부호 획득 성능을 $^{[1]}$의 검파기와 비교하였다. 모의실험을 통해 제안한 기법의 성능을 살펴보면, 비정규 충격성 잡음 분산의 편차에도 (deviation) 강인한 성능을 지니며, 비정규 충격성 잡음의 정확한 분산 정보를 이용한 $^{[1]}$의 기법과 대등한 성능을 지니고 있음을 알 수 있다.

고정점 알고리즘의 독립성분분석과 적응분할의 상호정보 추정에 의한 입력변수선택 (Input Variable Selection by Using Fixed-Point ICA and Adaptive Partition Mutual Information Estimation)

  • 조용현
    • 한국지능시스템학회논문지
    • /
    • 제16권5호
    • /
    • pp.525-530
    • /
    • 2006
  • 본 논문에서는 고정점 알고리즘의 독립성분분석과 적응분할의 상호정보 추정을 조합한 입력변수선택 기법을 제안하였다. 여기서 고정점 알고리즘의 독립성분분석은 할선법에 기반을 둔 방법으로 입력변수 간의 독립성을 빠르게 찾기 위함이고, 적응분할의 상호정보 추정은 입력변수의 확률밀도함수 계산에서 동일한 량의 샘플분할을 가능하게 하여 변수상호간의 종속성을 좀 더 정확하게 구하기 위함이다. 제안된 기법을 인위적으로 제시된 각 500개의 샘플을 가지는 7개의 신호와 특정지역을 대상으로 측정된 각 55개의 샘플을 가진 24개의 환경오염신호를 대상으로 실험한 결과, 빠르고 정확한 변수의 선택이 이루어짐을 확인하였다. 또한 할선법의 고정점 알고리즘 독립성분분석을 수행하지 않을 때와 정규분할의 상호정보 추정 때보다 각각 우수한 선택성능이 있음을 확인하였다.

반복 복호의 계산량 감소를 위한 간단한 복호 중단 판정 알고리즘 (A Simple Stopping Criterion for the MIN-SUM Iterative Decoding Algorithm on SCCC and Turbo code)

  • 허준;정규혁
    • 대한전자공학회논문지TC
    • /
    • 제41권4호
    • /
    • pp.11-16
    • /
    • 2004
  • 본 논문에서는 min-sum 반복복호를 위한 효과적인 반복복호 중단 알고리즘을 제안한다. 이전까지 소개된 반복복호 중단 알고리즘이 상호정보량을 바탕으로 중단시점을 판단하는데 비하여 제안된 알고리즘은 트렐리스 상에서 복호된 결과가 유효한 시퀀스인가를 판단하여 복호중단 시점을 결정한다. 제안된 반복톡호 알고리즘을 3GPP 터보부호와 직렬결합 길쌈부호에 적용하여 반복복호의 계산량과 필요한 메모리의 양이 크게 줄어드는 것을 나타내었다.

언어의 공기관계 분석을 위한 임의화검증의 응용 (Applying Randomization Tests to Collocation Analyses in Large Corpora)

  • 양경숙;김희영
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.583-595
    • /
    • 2005
  • 언어의 공기관계를 파악하는 데는 여러 가지 연관성 통계량들이 이용된다. 그러나 일부 통계량을 제외한 나머지 통계량들은 분포가 알려져 있지 않아 정작 통계량 값을 구하고도 명확한 설명을 하지 못하는 경우가 있다. 따라서 언어의 공기관계 분석을 위해서 정규근사나 t통계량을 이용하여 가설검증을 하는 경우가 많다. 그러나 공기관계에 있는 어휘빈도가 전체 빈도에서 차지하는 백분율이 매우 작기 때문에 정규근사에는 무리가 있어 보인다. 따라서 본 논문은 여러 논문에서 자주 언급되는 연관성 통계량의 특성을 임의화검증(randomization test)을 통해 고찰함으로써 계량언어학의 연어분석에서 데이터의 특성을 고려하여 보다 정확하게 언어의 공기관계를 이해할 수 있도록 도모하고자한다.

블럭이 존재하는 $2{\times}2$ 요인모형의 검정력 분석 (Power analysis for $2{\times}2$ factorial in randomized complete block design)

  • 최영훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.245-253
    • /
    • 2011
  • 블럭이 존재하는 $2{\times}2$ 요인모형의 주 효과 및 상호작용효과를 검정하기 위한 순위변환 통계량의 검정력은 블럭크기, 효과들의 구성방법 및 지수분포, 이중지수분포, 정규분포, 균일 분포를 포함한 모든 모집단 분포하에서 모수적 통계량의 검정력보다 월등한 우위를 보인다. 이는 블럭이 추가된 요인 모형은 블럭과 요인의 상호작용들이 오차항을 증가시켜 모수적 통계량의 검정력을 감소시키는 보수적 성향을 보이나, 순위변환 통계량의 검정력은 상대적 우위를 유지함에 기인한다고 유추할 수 있다. 일반적으로 블럭크기가 작고, 효과크기가 클수록 순위변환 통계량의 검정력은 모수적 통계량의 검정력보다 상당히 큰 격차의 상대적 우위를 보임을 알 수 있다.

4 × 4 라틴방격모형 내 2 × 2 요인모형의 검정력 연구 (Power study for 2 × 2 factorial design in 4 × 4 latin square design)

  • 최영훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1195-1205
    • /
    • 2014
  • 반복이 존재하는 $4{\times}4$ 라틴방격모형 내 $2{\times}2$ 요인모형의 주효과 및 상호작용효과를 검정하기 위한 순위변환 통계량의 검정력은 단일모형에 비하여 효과크기 및 반복크기가 커질수록 빠르게 증가한다. 일반적으로 다양한 효과구성 및 모든 오차항 분포와 상관없이 검정하고자 하는 요인 이외의 효과가 존재하는 요인 수가 적고 효과크기가 작을수록 순위변환 통계량의 검정력은 뛰어나다. 특히 오차항이 지수분포 및 이중지수분포일 때 순위변환 통계량의 검정력은 모수적 통계량의 검정력보다 상대적으로 높은 비교우위를 보이며, 정규분포 및 균일분포에서는 전반적으로 별다른 차이가 없다. 이는 두개의 주효과, 한개의 상호작용효과 및 두개의 블럭효과 등의 다섯 가지 효과가 동시에 존재하는 다인자로 구성된 라틴방격과 요인모형의 결합형태의 특이성으로 인한 결과이다.