• Title/Summary/Keyword: 과추정

Search Result 6,051, Processing Time 0.033 seconds

Out of Vocabulary Word Extractor based on a Syllable n-gram (음절 n-gram 기반의 미등록 어휘 추정기 구현)

  • Shin, Junsoo;Hong, Chohee
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.139-141
    • /
    • 2013
  • 다양한 콘텐츠가 생성됨에 따라 신조어 및 미등록어도 다양한 형태로 나타나고 있다. 이러한 신조어 및 미등록어는 텍스트 처리 단계에서 오분석 되어 성능 저하의 원인이 된다. 본 논문은 이러한 문제를 해결하기 위해서 대량의 문서로부터 신조어 및 미등록 어휘를 추정하는 방법에 대해서 제안한다. 제안 방법은 대량의 문서로부터 음절 n-gram을 추출한 뒤, 각 n-gram에서 n을 한음절 축소 및 확장 시켜, (n+1)gram, (n-1)gram을 추가적으로 추출한다. 추출된 음절 n-gram을 기준으로 (n+1)gram, (n-1)gram과의 빈도 차이를 계산하여 빈도차가 급격하게 발생하는 구간을 신조어 및 미등록 어휘로 추정한다. 실험결과 신조어 뿐만 아니라 트위터, 미투데이 등과 같은 도메인에 종속적인 미등록 어휘도 추출되는 것을 확인할 수 있었다.

  • PDF

Update-Risk based TTL Estimaiton in Web Caching (웹 캐슁에서 갱신 위험도 기반 TTL 추정 방식)

  • 이정준;황규영;이병석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.46-48
    • /
    • 2001
  • 웹 캐슁은 캐쉬 액새스턱 통해 웹 서버와 네트워크의 부하를 감소시켜 웹 응용을 가속화하는 중요한 기술이다. 전통적인 데이타 캐슁과 마찬가지로, 웹 캐슁은 캐쉬 일관성 유지라는 문제를 안고 있다. 그러나, 기존의 캐슁과는 달리 웹 캐슁에서는 웹 서버 데이타 갱신을 지연하여 반영하는 약 일관성이 허용된다. 이러한 조건은 TTL(time-to-live, 캐쉬 서버가 캐쉬된 데이타 아이템이 유효하다고 기대하는 시간)이 일관성 유지를 위해 사용되는 것을 허용한다. 이것은 효과적인 TTL 추정방법의 개발이 필요하도록 하였다. 그러나, 현재가지 소개된 두 가지 추정 방법(고정 TTL방법과 휴리스틱 방법)은 직관적 해석이 어렵고, 이론적인 추정근거가 빈약하다. 본 논문에서는 이러한 단점을 보완하기 위하여 확률적 분석에 기 반하여 정형적이고, 직관적인 의미를 갖는 위험도 기반 TTL 설정 방법을 제안한다. 이 방법에서는 위험도를 TTL 이내에 원본 데이타가 갱신될 확률로 정의하고, 갱신분포를 포아송 과정으로 가정한 후, 주어진 위험도를 TTL 식을 유도한다. 위험도 기반 TTL 설정 방법은 기존방법과 비교하여 위험도란 개념을 통하여 보다 직관적이고, 확률적 유도를 통하여 TTL 설정방법은 기존방법과 비교하여 위험도란 개념을 통하여 보다 직관적이고, 확률은 유도를 통하여 TTL 설정에 대한 이론적인 근거를 제공한다.

  • PDF

APPROXIMATE ESTIMATION OF THE SURVIVAL RAT IN FISH POPULATION UTILIZING THE LENGTH COMPOSITION (체장조성으로서 생잔율를 추정하는 방법 - I)

  • SHIN Sang Taek
    • Korean Journal of Fisheries and Aquatic Sciences
    • /
    • v.9 no.2
    • /
    • pp.143-150
    • /
    • 1976
  • A trial has been made to find out a new method of calculating the survival rate of a fish Population utilizing the length composition data and the characteristics of the frequency curve of the length which usually is normal distribution curve. In this paper, a stochastic method is introduced and applied to calculate the survival rate of yellow croaker caught by Korean trawlers in the Yellow Sea and the East China Sea in 1971. The results are as follows : Mean of survival rate 0.46089 Variance 0.03073 Standard deviation 0.17529 95 percent confidence interval 0.36040-0.56138.

  • PDF

Development of Ingrowth Estimation Equations for Pinus densiflora in Korea Derived from National Forest Inventory Data (국가산림자원조사 자료를 이용한 소나무의 진계생장 추정식 개발)

  • Moon, Ga Hyun;Yim, Jong Su;Shin, Man Yong
    • Journal of Korean Society of Forest Science
    • /
    • v.107 no.4
    • /
    • pp.402-411
    • /
    • 2018
  • This study was conducted to develop ingrowth estimation equations on Pinus densiflora found in Gangwon Province and in the center of Korean Peninsula, based on the National Forest Inventory (NFI)'s permanent sampling plot data. For this study, identical sampling plots in $5^{th}$ and $6^{th}$ NFI data were collected in order to identify ingrowth amounts for the last 5 years. Following two-stage approaches in developing the ingrowth estimation equations, the logistic regression model was used in the first stage to estimate the ingrowth probability. In the second stage, regression analysis on sampling plots with ingrowth occurrence was used to estimate the ingrowth amount. A candidate model was finally selected as an optimal model after a verification based on three evaluation statistics which include mean difference (MD), standard deviation of difference (SDD) and standard error of difference (SED). In results, a logistic regression model based on the number of sampling plot which did not result in ingrowth (model VI), was selected for an ingrowth probability estimation equation and exponential function including the species composition (SC) variable was optimal for an ingrowth estimation equation (model VII). The ingrowth estimation equations developed in this study also evaluated the estimation ability in various forest stand conditions, and no particular issue in fitness or applicability was observed.

우리나라의 탈세규모(脫稅規模) 추정(推定) : 소득세(所得稅)와 부가가치세(附加價値稅)

  • Yu, Il-Ho
    • KDI Journal of Economic Policy
    • /
    • v.16 no.1
    • /
    • pp.195-216
    • /
    • 1994
  • 탈세(脫稅)의 규모추정(規模推定)을 위해서는 우선 과세표준의 누락정도를 추정해야 한다. 본 연구에서는 1987년과 1988년 도시가계조사 테이프를 이용하여 소득(所得)-지출추계방법(支出推計方法)에 의해 탈루소득(脫漏所得)이 전체소득(全體所得)에서 차지하는 비중을 추정하였다. 그 결과 1987, 1988년 두 해의 탈루소득(脫漏所得)의 규모는 전체 GNP의 약 15%인 것으로 추정되었다. 다시 이렇게 추정된 탈루소득비율(脫漏所得比率)을 이용하여 소득세(所得稅)의 탈세규모(脫稅規模)를 추정하였으며, 그 규모가 전체소득세(全體所得稅)에서 차지하는 비중은 1987년에 10~11.3%, 1988년에는 8.7~9.8%에 달하는 것으로 추정된다. 한편 부가가치세(附加價値稅)의 과세표준인 민간소비지출(民間消費支出)의 탈루규모(脫漏規模)는 전체탈루소득(全體脫漏所得)과 거시민간소비함수(巨視民間消費函數)에 추정된 민간소비(民間消費)의 대(對)GNP탄력성을 이용하여 추정한 결과, 1987, 1988년 모두 10.5%인 것으로 추정되었다. 이에 따라 1987, 1988년의 부가가치세(附加價値稅)의 탈세규모(脫稅規模)는 10.5~16.5%에 달했던 것으로 추정된다.

  • PDF

A Comparative Study of Small Area Estimation Methods (소지역 추정법에 관한 비교연구)

  • Park, Jong-Tae;Lee, Sang-Eun
    • Journal of the Korean Data and Information Science Society
    • /
    • v.12 no.2
    • /
    • pp.47-55
    • /
    • 2001
  • Usually estimating the means is used for statistical inference. However depending the purpose of survey, sometimes totals will give the better and more meaningful in statistical inference than the means. Here in this study, we dealt with the unemployment population of small areas with using 4 different small area estimation methods: Direct, Synthetic, Composite, Bayes estimation. For all the estimates considered in this study, the average of absolute bias and men square error were obtained in the Monte Carlo Study which was simulated using data from 1998 Economic Active Population Survey in Korea.

  • PDF

A Study on the Estimation of Confidence Intervals for Discrete Distribution

  • Kim, Dae-Hak;Oh, Kwang-Sik;Lee, Sang-Bok
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2003.10a
    • /
    • pp.1-11
    • /
    • 2003
  • 일반적으로 모수에 대한 신뢰구간 추정량이 점 추정량보다 훨씬 더 선호되고 있으며 많이 알려져 있다. 그러나 이산형 분포의 경우에는 주로 대 표본 근사 이론에 입각한 근사 신뢰구간이 많이 사용되고 있다. 본 논문에서는 여러 가지 이산형 분포 가운데에서 가장 많이 활용되고 있는 이항분포와 포아송 분포의 모수에 대한 다양한 신뢰구간 추정량들을 소개하고 대 표본 근사 이론에 의한 신뢰구간뿐만 아니라 소 표본의 경우에도 유용하게 이용될 수 있는 신뢰구간 등을 살펴보고 이들 신뢰구간들을 비교하였다.

  • PDF

확률 프런티어 함수를 이용한 은행산업 효율성 추정

  • 김진성;김정우;이회경
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.371-374
    • /
    • 2001
  • 본 연구는 확률 프런티어(stochastic frontier) 분석방법을 사용, 1995년부터 1999년까지 한국, 미국, 일본의 136개 상업은행을 대상으로 효율성을 추정하였다. 분석결과에 의하면, 국내 은행의 효율성은 미국, 일본에 비하여 큰 차이가 나지 않았으나 금융위기 이후 급격히 떨어졌으며, 이후 다시 효율성이 향상된 모습을 보이고 있다. 반면 같은 기간에 국내 은행만을 대상으로 추정한 결과는 효율성의 큰 변동을 감지하지 못하고 있다. 이는 지역경제 전반에 걸친 충격이 있을 경우 국제비교를 하는 것이 타당함을 시사하고 있다.

  • PDF

Simulating the Average Run Length for CUSUM Schemes Using Variance Reduction Technique

  • Choi, Moon-Soo;Jun, Chi-Hyuck
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1992.04b
    • /
    • pp.371-380
    • /
    • 1992
  • 본 논문에서는 어떤 공정이 일반적인 확률분포를 따른다는 가정하에, 시뮬레이션에 의한 CUSUM챠트의 ARL을 추정하는 방법에 관하여 기술하였다. 추정치에 대한 분산을 최소화하기 위하여 TOTAL HAZARD방법을 적용하였으며, 지수분포를 따르는 공정에 대하여 HAZARD 및 CYCLE추정치와 분산감소법을 적용하지 않았을 경우의 추정치와 비교분석하였다.

  • PDF

SOLAS를 이용한 결측자료의 다중대치법

  • Kim, Hyeon-Jeong;Mun, Seung-Ho;Sin, Jae-Gyeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2003.05a
    • /
    • pp.145-158
    • /
    • 2003
  • 불완전 데이터 즉, 결측값을 가지는 데이터를 분석할 경우 결측데이터에 대해서 어떠한 처리를 해야할 필요가 있다. 결측데이터에 대한 처리로서 주로 이용되어온 방법으로는 결측값을 포함한 관측값(case)을 제외하는 방법이었다. 이후 여러 방법들이 제안되어 EM알고리즘이나 회귀알고리즘에 의한 추정을 바탕으로 결측값에 대한 추정을 해서 그 추정값으로 결측값을 대치하는 방법을 사용할 수 있게되었다. 본 논문에서는 복수 개의 데이터세트를 생성해서 대치하는 다중대입 소프트인 SOLAS를 소개한다.

  • PDF