• 제목/요약/키워드: 빈도값

검색결과 1,267건 처리시간 0.044초

적응적 순위 기반 재인덱싱 기법에서의 동일 빈도 값에 대한 우선순위 방법 (Priority Method on Same Co-occurrence Count in Adaptive Rank-based Reindexing Scheme)

  • 유강수;유희진;장의선
    • 한국통신학회논문지
    • /
    • 제30권12C호
    • /
    • pp.1167-1174
    • /
    • 2005
  • 본 논문은 인덱스 영상의 무손실 압축을 위한 적응적 순위 기반 재인덱싱 기법에서 동일 빈도 값에 대한 우선 순위 결정 방법을 제안한다. 발생빈도행렬에서 동일 빈도 값에 대한 우선순위 결정은 발생빈도행렬의 임의의 행에서 물리적으로 처음 위치한 빈도 값, 주대각선 주위에 위치한 빈도 값, 민도 값이 큰 원소의 주위에 위치한 빈도값을 사용한다. 실험 결과, 제안 방법은 기존의 Zeng과 Pinho의 방법보다 1.71 비트까지 절감 효율을 보였다.

대량의 연관규칙에서 의미있는 패턴 추출 기법

  • 이진용;문현정;우용태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.13-15
    • /
    • 2001
  • 본 논문에서는 연관규칙 탐사에서 발견된 대량의 패턴 중에서 의미있는 패턴을 효과적으로 추출하기 위한 텍스트마이닝 기법을 제시하였다. Agrawal 등이 제안한 R-interesting 값을 수용하여 의미있는 패턴을 추출하기 위한 방법이다 대량의 연관규칙중에서 특정 분야에서 추출된 패턴의 빈도수와 다른 분야의 빈도수의 비율에 따른 $\chi$$^2$값의 A셀에 대한 기여도와 R 값을 비교한 결과 빈도수가 같더라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮게 나타났다. 또한 특정 분야에만 나타나는 패턴에 대해서 빈도수에 따른 기여도와 R 값은 빈도수가 높을수록 기여도는 높아지고 R 값은 변화가 없었다. 이 결과를 이용하여 R 값이 같은 경우 빈도수가 높은 순으로 의미있는 패턴을 추출할 수 있었다.

  • PDF

우리나라 기상자료를 이용한 통계학적 가능최대강수량 빈도계수 산정 (Estimation of the frequency coefficient for statistical probable maximum precipitation (PMP) using the weather data in Korea)

  • 서미루;이주형;김교범;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.169-169
    • /
    • 2021
  • 통계학적 가능최대강수량방법은 가능최대강수량(Probable Maximum Precipitation, PMP) 측정 방법 중 하나로 WMO에서 통계학적인 PMP 추정 방법으로 Hershfield가 제안한 공식을 제시했다. Hershfield는 95,000개의 자료를 분석하였으며, 기본적으로 통계학적 PMP 추정방법의 빈도계수는 km = 15로 제안하였다. 그러나 강우 지속기간 및 연최대 시계열의 평균에 따라 값이 변하게 되며, Hershfield(1965)는 지속시간과 연최대 시계열의 평균에 따른 빈도계수가 5 ~ 20 사이의 값을 갖는다고 제안한 바 있다. Hershfield의 빈도계수는 미국 지역의 2,645개의 관측소의 95,000개의 강우 자료 이용했기 때문에 우리나라의 적용하였을 때 신뢰성에 문제가 있을수 있으며, 우리나라에서는 통계학적 방법보다는 수문기상학적 PMP 추정 방법을 주로 사용하고 있다. 따라서 본 연구에서는 우리나라의 기상 자료중에서 가장 많은 양을 가지는 지점 10개를 선정하여 빈도계수를 산정하였다. 빈도계수를 산정하기 위해서는 시계열로 구성된 강우 자료를 사용해야하며, 본 연구에서는 기상 자료의 이상치 검정을 진행하였으며, 경향성의 경우 정상성을 가지는 것으로 가정하였다. 확률 분포형은 극치분포인 GEV분포, Gumbel분포, Log-Gumbel분포, Weibull분포를 비교하여 가장 적절한 분포형을 선정하여 진행하였다. 최종적으로 얻은 빈도계수를 이용하여 구한 PMP값과 기존 Hershfield가 제시한 빈도계수 값 km = 15를 이용한 PMP값을 비교하여 차이를 분석하였으며, 그 적용성을 평가하였다.

  • PDF

한국어 음소결합확률 계산기 개발연구 (A Study of Development for Korean Phonotactic Probability Calculator)

  • 이찬종;이현복;최훈영
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.239-244
    • /
    • 2009
  • 본 연구는 현대 한국어 단어의 말소리가 결합하는 음소결합확률 (Phonotactic Probability)을 예측하는 계산기 엔진 개발에 관한 연구이다. 한국어 음소결합확률계산기 (이하, KPPC)는 첫째로, 한국어의 주어진 단어에서의 음소와 그 음소의 음소결합의 빈도를 예측하여 말소리가 단어내의 특정위치에서 특정 분절음이 나타나는 빈도 값, 두 음소간의 결합의 빈도값, 그리고 세 음소간의 결합의 빈도 출현률을 예측하여 계산한다. 둘째로 한국어의 주어진 단어에서 말소리 하나만 다르면서 실제로 존재할 수 있는 근접밀도 (neighborhood density)의 값을 계산한다. University of Kansas에서 개발된 음소결합계산기는 영어 20,000단어의 D/B를 대상으로 위치별 분절음빈도와 두 음소간의 음소결합률 빈도를 컴퓨터가 읽을 수 있는 발음기호를 통해서만 가능하다. 본 연구에서는 분절음빈도와 두 음소간의 빈도뿐만 아니라 세 음소간의 결합률 빈도와 근접밀도율을 예측할 수 있고 입력할 때 발음기호뿐만 아니라 단어를 입력하면 확률값을 얻을 수 있다. 이 엔진은 67,284단어의 한국어 표준발음을 D/B로 구축하여 고빈도 음소결합확률, 저빈도 음소결합확률, 고빈도 근접밀도, 저빈도 근접밀도의 값을 예측할 수 있다.

위치기반 상대빈도차 기반의 바이러스 염기서열 시그너쳐 추출 기법 (A Nucleotide Sequence Signature Extraction Method based on Position-Specific Relative Base Frequency Differences)

  • 황경순;이혜리;이건명;이찬희;윤형우;김성수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.167-170
    • /
    • 2007
  • 동일한 집단에 속하는 개체를 다른 집단에 속하는 개체로부터 구별할 수 있는 염기의 특징을 해당 집단의 시그너쳐라고 한다. 학습 데이터는 두 집단에 속하는 염기서열들이고, 염기서열에 대한 시그너쳐는 개체를 다른 집단과 구별할 수 있는 위치의 염기들로 구성된 서열이다. 제안한 방법에서는 각 집단에 대해서 위치별로 염기의 발생빈도를 계산하고, 가장 발생빈도가 높은 염기를 결정한 다음, 다른 집단의 대응 위치에서 해당 염기의 빈도를 계산하여, 빈도차이가 지정한 분류임계값 이상이면, 해당 위치의 염기를 시그너쳐를 구성하는 특징으로 간주한다. 시그너쳐를 대한 임의의 염기서열에 대한 부합정도는 시그너쳐에 속하는 염기의 학습집단에서의 상대빈도값을 가중치로 하여 계산한다. 임의의 염기서열이 특정 집단에 속하는지 판단하기 위해서는 해당 집단의 시그너쳐에 대한 부합정도를 계산하게 되는데, 부합정도가 얼마이상이 되어야 해당 집단에 속하는 것으로 간주할지 기준이 되는 임계값을 엄밀도 임계값이라고 한다. 엄밀도 임계값은 학습 데이터 집합에 대해서 주어진 시그너쳐에 대한 엄밀도 임계값이 민감도와 특이도를 최대로 하는 것을 선택한다. 제안한 방법을 구현한 바이오인포매틱스 도구를 개발하여, 한국형 HIV-1 바이러스 시그너쳐 추출에 적용하여 분류특성이 우수한 시그너쳐를 추출할 수 있음을 확인하였다.

  • PDF

다중 임계값 결정기법 (Multilevel Threshold Selection Method)

  • 서석태;이인근;권순학
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.283-286
    • /
    • 2007
  • 임계값을 이용한 영상 분할은 대표적인 영상 분할 기법으로 Otsu의 임계값 결정법, Fuzzy 엔트로피를 이용한 H&W의 기법 및 Clustering을 이용한 Kwon의 기법 등 많은 방법이 있다. 대부분의 임계값 결정 기법은 영상에서 얻어진 빈도수 히스토그램의 분석을 통해서 임계값을 결정한다. 특히 Otsu의 임계값 결정 기법은 빈도수 히스토그램의 분산을 최대화하는 방법으로 임계값을 결정하는 빈도수 히스토그램에 기반한 대표적 기법이다. 하지만 영상 기술이 발전함에 따라서 하나의 임계값으로부터 영상을 이진화 하는 기법은 효용성이 떨어지고 있다. 따라서 다중의 임계값을 결정하는 효과적인 방법이 필요하다. 본 논문에서는 그레이 레벨간의 관계성을 파악하고 이러한 관계성으로부터 다중의 임계값을 결정하는 기법을 제안한다. 제안된 기법의 효용성은 모의실험에서 다중 임계값을 사용한 분할영상을 통해서 보인다.

  • PDF

Bayesian 혼합분포를 활용한 최심신적설량 빈도분석 (Frequency Analysis of Snow depth Using Bayesian mixture distribution)

  • 김호준;오랑치맥 솜야;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.136-136
    • /
    • 2020
  • 홍수와 가뭄은 우리나라에 대표적인 수재해로서 관련 연구도 활발히 진행되고 있다. 반면 겨울철에 발생하는 적설의 경우 발생빈도와 피해가 상대적으로 적었으며 관련 연구 또한 미비한 실정이다. 우리나라 일부 남부지방은 강우와 다르게 연중 눈이 내리지 않는 경우가 존재하며, 자료 중 '0'값을 가지게 된다. 이로 인해 최적분포형 선정 및 매개변수 추정에 어려움이 있으며, 특히 '0'값으로 인해 단일 확률분포를 이용한 빈도해석은 한계가 있다. 본 연구에서는 연중 눈이 내리지 않는 무적설량을 고려하기 위하여 두 가지 이상의 확률분포함수를 결합한 혼합분포함수를 개발하였다. Bayesian 기법을 이용하여 무강우의 기준이 되는 값(δ)을 매개변수로 고려하여 추정하였으며, 이에 따른 적설발생 평균확률(P을 Mixing Ratio로 고려하여 혼합분포함수를 제시하였다. 본 연구에서는 기상청 산하 관측소 중 20년 이상의 지점을 선정하여 최심신적설량을 활용하였으며, 빈도별 확률적설심을 산정하였다. 적합한 확률분포형 선정을 위해 먼저 Bayesian 기법으로 매개변수와 우도함수를 산정한 후 각 분포형의 BIC(bayesian information criterion)값을 비교하였다. 선정된 최적분포형에 대해 빈도분석을 실시하여 최심신적설량을 제시하였다. 추가적으로 무강우를 기존 기준인 '0'으로 고정하여 본 연구에서 제시한 결과 값과 비교하였다.

  • PDF

낙동강 댐유역의 갈수유량 비교연구 (A Comparative Study in the Low Water Flow in the Nakdong River Dam Basin)

  • 이효진;안승섭;박기범
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.337-337
    • /
    • 2021
  • 본 연구에서는 낙동강수계 도시의 주요 용수공급원인 댐유역의 연강수량과 연유입량자료를 수집 후 "NDIC-FAT" 가뭄빈도해석 프로그램(한국수자원공사 국가가뭄정보분석센터(NDIC), 2020)을 활용한 가뭄빈도분석을 시행하여 과거 동일기간과 비교하여 현재의 강수량 또는 유입량의 재현기간 및 크기를 산정하고, 수집된 연구대상 유역의 연강수량과 연유입량자료에 대한 상관식을 개발하여 가뭄빈도에 따른 연유입량 값을 가뭄빈도해석프로그램의 분석결과와 비교하여 본 연구에서 제안된 상관식의 활용성을 검토하였다. 가뭄빈도분석 결과 강수량에 따른 확률분포형은 6개의 유역중 2개소(남강댐, 합천댐)에서 AIC값에서 Normal 분포형이 가장 낮았고 나머지 4개소(안동댐, 영천댐, 운문댐, 임하댐) 유역은 AIC값에서 Gumbel 분포형이 가장 낮게 나타나 본 연구에 적용하였다. 연유입량에 따른 확률분포형 검정은 남강댐, 안동댐, 영천댐, 운문댐, 임하댐, 합천댐 유역 6개소 모두 AIC값에서 2변수 Log-Normal 분포형이 가장 적합한 것으로 평가되었다. 연구대상 유역의 연강수량과 연유입량자료를 이용하여 연유입량에 대한 상관식을 개발하여 비교한 결과 영천댐유역을 제외한 5개 유역의 일치율이 높게 나타났다.

  • PDF

CMIP6 SSP 시나리오를 기반으로 통계학적 가능최대 강수량 (Statistical Probable Maximum Precipitation based on CMIP6 SSP Scenario)

  • 서미루;김성훈;권지혜;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.169-169
    • /
    • 2022
  • 최근 기후변화와 도시화로 인해 집중호우, 홍수 등 극한 강우의 빈도와 규모가 증가하고 있는 추세이다. 또한, 극한 강우의 빈도가 증가함으로 가능최대강수량(Probable Maximum Precipitation, PMP)에 관한 관심도 증가하고 있다. 가능최대강수량의 경우 대규모 수공 구조물, 댐의 설계나 가능최대홍수량(Probable Maximum Flood, PMF) 산정에 사용 되며, 세계 기상 기구(World Meteorological Organiztion, WMO)는 가능최대강수량 산정 방법으로 수문기상학적 방법, 통계학적 방법, 포락 곡선 방법을 제안하고 있으며, 통계학적 가능최대강수량 산정방법으로는 Hershfield가 제안한 방법을 제시하고 있다. Hershfield가 제안한 방법의 경우 빈도계수를 사용하며, Hershfield(1961)는 빈도계수의 값을 15로 제안하였으나, 1965년에 빈도계수는 강우 지속시간과 평균에 따라 5~20 값을 갖는 노모그래프를 제안하였다. 본 연구에서는 빈도계수 산정 방법, 노모그래프를 이용한 빈도계수의 값 2가지를 산정한 후 국내 가능최대강수량 보고서와 비교하여 통계학적 가능최대강수량 산정 방법을 결정한 후, 결정된 빈도계수 산정 방법을 SSP시나리오에 이용하여 미래의 통계학적 가능최대강수량을 산정하여 가능최대강수량의 변화를 분석하고자 한다.

  • PDF

그레이 레벨의 공간적 상관관계 기반 이진화 (Binarization Based on the Spatial Correlation of Gray Levles)

  • 서석태;손세호;이인근;정혜천;권순학
    • 한국지능시스템학회논문지
    • /
    • 제17권4호
    • /
    • pp.466-471
    • /
    • 2007
  • Otsu의 임계값 결정법을 포함한 기존의 임계값 결정 기법은 그레이 레벨 빈도수 히스토그램 정보를 이용하여 임계값을 결정한다. 그러나 빈도수 히스토그램은 입력 영상에서 그레이 레벨 빈도수 정보만을 재구성한 것이므로, 입력 영상의 그레이 레벨의 분포 및 그레이 레벨간의 관계성을 포함하지 않는다. 따라서 임계값 결정에 있어서 영상의 정보를 충분히 반영하지 못하여 때때로 부적절한 임계값을 제시한다. 본 논문에서는 빈도수 정보뿐만 아니라 그레이 레벨간의 상관관계함수를 정의하고, 정의된 상관관계함수를 이용하여 공간적 상관관계 정보 추출 및 추출된 정보로부터 임계값을 결정하는 기법을 제안한다. 제안된 기법의 타당성을 빈도수 히스토그램에 기반한 Otsu의 임계값 결정법과의 비교 실험을 통하여 보인다.