• 제목/요약/키워드: statistics based method

검색결과 2,157건 처리시간 0.027초

온톨로지 기반의 자연어 검색 시스템 설계 및 구현 (Design and Implementation of Ontology-Based Natural Language Search System)

  • 강래구;임동일;정채영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.875-878
    • /
    • 2007
  • 지금까지의 상품 검색 방법으로는 찾고자하는 정보를 검색할 때 주로 단어의 빈도수나 어휘 정보를 이용하는 키워드 기반의 검색이 주로 쓰이고 있었다. 키워드 기반의 검색에서는 사용자의 질의와 관련이 없는 문서들까지도 같은 결과로 나타내 주고 이로 인해 사용자는 제시된 결과를 한번 더 수동적으로 검색해야하는 부담을 않게 되었다. 이러한 문제점을 해결하기 위해 온톨로지가 대두되었다. 본 논문에서는 온톨로지를 이용한 상품 검색 시스템을 직접 구축하여 분류별 검색을 통해 얼마나 정확한 검색을 하는지 실험하였다. 실험을 위해 전국적으로 On/Off라인 할인점을 운영 중에 있는 A할인점의 상품 데이터 약 40,000여개를 데이터베이스로 구축하였고 User Interface 개발환경은 JSP와 PowerBuilder9.0을 사용하여 검색 시스템을 개발하여 실험하였다. 그 결과 본 논문에서 제안하고 설계한 상품 도메인 온톨로지를 이용한 검색 방법이 기존의 키워드 기반의 검색 방법보다 우수한 결과를 나타내고 있음을 입증하였다.

  • PDF

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

Noisy Speech Recognition Based on Noise-Adapted HMMs Using Speech Feature Compensation

  • Chung, Yong-Joo
    • 융합신호처리학회논문지
    • /
    • 제15권2호
    • /
    • pp.37-41
    • /
    • 2014
  • The vector Taylor series (VTS) based method usually employs clean speech Hidden Markov Models (HMMs) when compensating speech feature vectors or adapting the parameters of trained HMMs. It is well-known that noisy speech HMMs trained by the Multi-condition TRaining (MTR) and the Multi-Model-based Speech Recognition framework (MMSR) method perform better than the clean speech HMM in noisy speech recognition. In this paper, we propose a method to use the noise-adapted HMMs in the VTS-based speech feature compensation method. We derived a novel mathematical relation between the train and the test noisy speech feature vector in the log-spectrum domain and the VTS is used to estimate the statistics of the test noisy speech. An iterative EM algorithm is used to estimate train noisy speech from the test noisy speech along with noise parameters. The proposed method was applied to the noise-adapted HMMs trained by the MTR and MMSR and could reduce the relative word error rate significantly in the noisy speech recognition experiments on the Aurora 2 database.

Discretization Method Based on Quantiles for Variable Selection Using Mutual Information

  • CHa, Woon-Ock;Huh, Moon-Yul
    • Communications for Statistical Applications and Methods
    • /
    • 제12권3호
    • /
    • pp.659-672
    • /
    • 2005
  • This paper evaluates discretization of continuous variables to select relevant variables for supervised learning using mutual information. Three discretization methods, MDL, Histogram and 4-Intervals are considered. The process of discretization and variable subset selection is evaluated according to the classification accuracies with the 6 real data sets of UCI databases. Results show that 4-Interval discretization method based on quantiles, is robust and efficient for variable selection process. We also visually evaluate the appropriateness of the selected subset of variables.

푸리에 전개에 기초한 로그밀도추정 (Log-density estimation based on a Fourier expansion)

  • 구자용;이기원;박현숙
    • 응용통계연구
    • /
    • 제10권1호
    • /
    • pp.137-149
    • /
    • 1997
  • 본 논문에서는 푸리에 전개에 기초한 로그밀도추정법을 제안하였다. 삼각함수로 구성된 기저함수들은 베이즈정보 규준량에 근거하여 단계적 추가 및 삭제를 이용하여 결정하였고, 모수의 추정에는 최대가능성 방법을 이용하였다. 기존 자료의 분석 및 모의실험을 통하여 제안된 방법의 성능을 예시하였다.

  • PDF

국내 산업설비의 폐기율 추정 (Estimation of Retirement Rate on Domestic Industrial Property)

  • 오현승;김종수;조진형
    • 산업경영시스템학회지
    • /
    • 제25권4호
    • /
    • pp.79-85
    • /
    • 2002
  • In general, estimates of average service lives and of mortality functions are less well-based than most types of economic statistics published by statistical offices. Therefore, hypotheses about service lives of tangible assets and their distribution are most difficult aspects to tackle. In this paper, estimates of service lives based on directly observed data on domestic industrial property and retirement rates are presented.

Tree-based Navigation Pattern Analysis

  • Choi, Hyun-Jip
    • Communications for Statistical Applications and Methods
    • /
    • 제8권1호
    • /
    • pp.271-279
    • /
    • 2001
  • Sequential pattern discovery is one of main interests in web usage mining. the technique of sequential pattern discovery attempts to find inter-session patterns such that the presence of a set of items is followed by another item in a time-ordered set of server sessions. In this paper, a tree-based sequential pattern finding method is proposed in order to discover navigation patterns in server sessions. At each learning process, the suggested method learns about the navigation patterns per server session and summarized into the modified Rymon's tree.

  • PDF

Minimum Hellinger Distance Bsed Goodness-of-fit Tests in Normal Models: Empirical Approach

  • Dong Bin Jeong
    • Communications for Statistical Applications and Methods
    • /
    • 제6권3호
    • /
    • pp.967-976
    • /
    • 1999
  • In this paper we study the Hellinger distance based goodness-of-fit tests that are analogs of likelihood ratio tests. The minimum Hellinger distance estimator (MHDE) in normal models provides an excellent robust alternative to the usual maximum likelihood estimator. Our simulation results show that the Hellinger deviance test (Simpson 1989) based goodness-of-fit test is robust when data contain outliers. The proposed hellinger deviance test(Simpson 1989) is a more direcct method for obtaining robust inferences than an automated outlier screen method used before the likelihood ratio test data analysis.

  • PDF

보험사 언더라이팅 기준 설정을 위한 스코어링 기법에 관한 연구 (A Study on the Scoring Method for the Insurance Underwriting Using Generalized Linear Model)

  • 이창수;권혁성;김동광
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.489-498
    • /
    • 2009
  • 언더라이팅은 보험자가 청약자에 대한 인수여부를 결정하는 보험계약 운영의 초기단계로서, 그 기준의 정교성 여부에 따라 회사에 안정적인 수익을 가져올 수도 있고 예기치 못한 큰 손실을 야기할 수도 있다. 일반적으로, 각 청약자의 위험요소를 파악, 평가하여 위험정도를 평가할 수 있는 점수를 이용하는 스코어링 시스템을 언더라이팅 기준으로 이용하는데, 점수를 산출하기 위한 방법은 각 위험요소별 점수 기준을 설정하고 위험요소별 점수를 합산하는 형태가 보편적이다. 최근 위험율차 이익의 중요성이 강조됨에 따라 기존의 방법에 비해 보다 효과적인 언더라이팅 기법이 요구되고 있다. 본 연구에서는 일반화 선형모형을 이용하여 보다 합리적으로 보험 계약자에 대한 위험도를 추정하는 방법을 제시하였다. 실증분석을 통해 위험집단의 위험도를 평가하고 점수화하는 구체적인 언더라이팅 모형을 설계하였고, 제시된 언더라이팅 모형의 적용효과를 반영하여 언더라이팅 기준을 설정하는 방법에 대해서도 설명하였다.

Application of Crossover Analysis-logistic Regression in the Assessment of Gene- environmental Interactions for Colorectal Cancer

  • Wu, Ya-Zhou;Yang, Huan;Zhang, Ling;Zhang, Yan-Qi;Liu, Ling;Yi, Dong;Cao, Jia
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제13권5호
    • /
    • pp.2031-2037
    • /
    • 2012
  • Background: Analysis of gene-gene and gene-environment interactions for complex multifactorial human disease faces challenges regarding statistical methodology. One major difficulty is partly due to the limitations of parametric-statistical methods for detection of gene effects that are dependent solely or partially on interactions with other genes or environmental exposures. Based on our previous case-control study in Chongqing of China, we have found increased risk of colorectal cancer exists in individuals carrying a novel homozygous TT at locus rs1329149 and known homozygous AA at locus rs671. Methods: In this study, we proposed statistical method-crossover analysis in combination with logistic regression model, to further analyze our data and focus on assessing gene-environmental interactions for colorectal cancer. Results: The results of the crossover analysis showed that there are possible multiplicative interactions between loci rs671 and rs1329149 with alcohol consumption. Multifactorial logistic regression analysis also validated that loci rs671 and rs1329149 both exhibited a multiplicative interaction with alcohol consumption. Moreover, we also found additive interactions between any pair of two factors (among the four risk factors: gene loci rs671, rs1329149, age and alcohol consumption) through the crossover analysis, which was not evident on logistic regression. Conclusions: In conclusion, the method based on crossover analysis-logistic regression is successful in assessing additive and multiplicative gene-environment interactions, and in revealing synergistic effects of gene loci rs671 and rs1329149 with alcohol consumption in the pathogenesis and development of colorectal cancer.