• Title/Summary/Keyword: 확률적 유사도

Search Result 410, Processing Time 0.023 seconds

Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents (텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습)

  • 신형주;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.265-267
    • /
    • 2000
  • 본 논문에서는 텍스트 문서의 주제어를 추출하고 문서를 주제별로 분류하기 위해 확률적 그래프 모델을 사용하는 방법을 제안하였다. 텍스트 문서 데이터를 문서와 단어의 쌍으로(dyadic)표현하여 확률적 생성 모델을 학습하였다. 확률적 그래프 모델의 학습에는 정의된 likelihood를 최대화하기 위한 EM(Expected Maximization)알고리즘을 사용하였다. TREC-8 AdHoc 텍스트 에이터에 대하여 학습된 확률 그래프 모델의 성능을 실험적으로 평가하였다. 이로부터 찾아 낸 문서에 대한 주제어가 사람이 제시한 주제어와 유사한 지와, 사람이 각 주제에 대해 분류한 문서가 이 확률모델로부터의 분류와 유사한 지를 실험적으로 검토하였다.

  • PDF

Improvement of Relevance Feedback for Image Retrieval (영상 검색을 위한 적합성 피드백의 개선)

  • Yoon, Su-Jung;Park, Dong-Kwon;Won, Chee-Sun
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.39 no.4
    • /
    • pp.28-37
    • /
    • 2002
  • In this paper, we present an image retrieval method for improving retrieval performance by fusion of probabilistic method and query point movement. In the proposed algorithm, the similarity for probabilistic method and the similarity for query point movement are fused in the computation of the similarity between a query image and database image. The probabilistic method used in this paper is suitable for handling negative examples. On the other hand, query point movement deals with the statistical property of positive examples. Combining these two methods, our goal is to overcome their shortcoming. Experimental results show that the proposed method yields better performances over the probabilistic method and query point movement, respectively.

A music similarity function based on probabilistic linear discriminant analysis for cover song identification (커버곡 검색을 위한 확률적 선형 판별 분석 기반 음악 유사도)

  • Jin Soo, Seo;Junghyun, Kim;Hyemi, Kim
    • The Journal of the Acoustical Society of Korea
    • /
    • v.41 no.6
    • /
    • pp.662-667
    • /
    • 2022
  • Computing music similarity is an indispensable component in developing music search service. This paper focuses on learning a music similarity function in order to boost cover song identification performance. By using the probabilistic linear discriminant analysis, we construct a latent music space where the distances between cover song pairs reduces while the distances between the non-cover song pairs increases. We derive a music similarity function by testing hypothesis, whether two songs share the same latent variable or not, using the probabilistic models with the assumption that observed music features are generated from the learned latent music space. Experimental results performed on two cover music datasets show that the proposed music similarity improves the cover song identification performance.

Analysis of Probability Density Function of Deposition Spot in Open Channel Flow (하천에서 유사의 침전 위치에 대한 확률밀도함수 분석)

  • Oh, Jungsun;Choi, Sung-Uk
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.50-50
    • /
    • 2016
  • 하천에서 유사 및 오염물질의 이동을 예측하기 위하여 초점을 두는 것에는 두 가지 요소가 있다. 입자의 농도로 나타낼 수 있는 양의 개념과 입자의 위치로 나타낼 수 있는 공간의 개념이 그것이다. 유사 입자와 같이 그 비중이 물보다 큰 경우, 흐름 내에서 침전과 부상의 메커니즘을 반복하게 되는데 최종적으로 바닥에 침적하는 위치는 하상변동, 서식처 등 하천관리의 다양한 측면에서 매우 중요하다. 유사 입자가 바닥에 침적하는 위치를 예측하는 데에는 난류와 지형 같은 많은 불확실한 요소가 내포되어 있어, 같은 크기의 유사 입자라 하여도 하나의 exact point로 도달하지 않는다. 이러한 불확실한 요소를 고려하여 침전 위치를 산정하는 방법에 대한 연구가 필요하다. 따라서 본 연구에서는 침전 위치를 확률밀도함수로 나타내어 분석하고자 한다. 입자의 침전 위치를 확률밀도함수로 나타내기 위하여 입자 기반의 추적 모형을 사용하여 위치 데이터를 얻었으며, 이를 실험데이터와 비교하여 검증 후 확률밀도함수로 나타내었다. 그 결과 입자의 침적 위치에 대한 확률밀도함수는 로그정규분포를 띠고 있음을 확인하였으며, 확률밀도함수를 나타내는 매개변수를 물리 기반 회귀모형식으로 일반화 하여 나타낼 수 있었다.

  • PDF

Occluded Object Tracking in Moving Camera Environment (이동 카메라 환경에서 가려짐 있는 객체의 추적)

  • Choi Cheol-Min;Kwak Soo-Yeong;Ahn Jung-Ho;Byun Hye-Ran
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.337-339
    • /
    • 2006
  • 이동 카메라 환경에서의 객체 추적은 배경과 객체의 동시 이동으로 인친 배경 모델링과 같은 고정 카메라 환경에서의 접근방법으로는 해결이 어려운 문제이다. 또한 다중 객체의 추적에서는 객체간 가려짐이 발생하는 상황에 대한 안정적 기법이 필수적으로 요구된다. 본 연구에서는 커널에 기반한 객체의 표현과 Mean shift 알고리즘을 통해 여러 명의 사람을 실시간으로 추적하고, 객체간의 공간 정보와 확률적 유사도에 기반한 객체간의 가려짐의 발생과 가려짐 후의 복원에 대한 방법을 제안하였다.

  • PDF

A study on the ordering of PIM family similarity measures without marginal probability (주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.2
    • /
    • pp.367-376
    • /
    • 2015
  • Today, big data has become a hot keyword in that big data may be defined as collection of data sets so huge and complex that it becomes difficult to process by traditional methods. Clustering method is to identify the information in a big database by assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. The similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we computed upper and lower limits for probability interestingness measure based similarity measures without marginal probability such as Yule I and II, Michael, Digby, Baulieu, and Dispersion measure. And we compared these measures by real data and simulated experiment. By Warrens (2008), Coefficients with the same quantities in the numerator and denominator, that are bounded, and are close to each other in the ordering, are likely to be more similar. Thus, results on bounds provide means of classifying various measures. Also, knowing which coefficients are similar provides insight into the stability of a given algorithm.

A Probabilistic Modeling of Feature Distribution Between Corresponding minutiae in Fingerprint Matching (동일 특징점의 확률분포 모델링을 이용한 지문정합)

  • 전성욱;이응봉;류춘우;김학일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.613-615
    • /
    • 2002
  • 특징점 기반의 지문 정합 시스템은 동일 특징점의 검색을 통하여, 주어진 두 지문의 동일 여부를 결정하는 것을 목적으로 하고 있다. 정합과정의 검색 단계에서 동일 특징점으로 결정된 두 특징점간 거리 및 각도차의 분포를 확률적으로 모델링함으로써, 검색된 동일 특징점의 신뢰도를 높이고자 하였으며 전체적으로 지문 정합시스템의 성능향상을 목적으로 한다. 본 논문에서는 확률기법을 사용한 동일 특징점 유사도 산출 방법과 이를 통한 지문의 동일여부 결정방법을 제시하였으며 구현결과, EER의 경우 2.64%에서 0.78%로 70%의 감소효과를 얻을 수 있었다.

  • PDF

Bounds of PIM-based similarity measures with partially marginal proportion (부분적 주변 비율에 의한 확률적 흥미도 측도 기반 유사성 측도의 상한 및 하한의 설정)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.4
    • /
    • pp.857-864
    • /
    • 2015
  • By Wikipedia, data mining is the computational process of discovering patterns in huge data sets involving methods at the intersection of association rule, decision tree, clustering, artificial intelligence, machine learning. Clustering or cluster analysis is the task of grouping a set of objects in such a way that objects in the same group are more similar to each other than to those in other groups. The similarity measures being used in the clustering may be classified into various types depending on the characteristics of data. In this paper, we computed bounds for similarity measures based on the probabilistic interestingness measure with partially marginal probability such as Peirce I, Peirce II, Cole I, Cole II, Loevinger, Park I, and Park II measure. We confirmed the absolute value of Loevinger measure wasthe upper limit of the absolute value of any other existing measures. Ordering of other measures is determined by the size of concurrence proportion, non-simultaneous occurrence proportion, and mismatch proportion.

Extended Information Entropy via Correlation for Autonomous Attribute Reduction of BigData (빅 데이터의 자율 속성 감축을 위한 확장된 정보 엔트로피 기반 상관척도)

  • Park, In-Kyu
    • Journal of Korea Game Society
    • /
    • v.18 no.1
    • /
    • pp.105-114
    • /
    • 2018
  • Various data analysis methods used for customer type analysis are very important for game companies to understand their type and characteristics in an attempt to plan customized content for our customers and to provide more convenient services. In this paper, we propose a k-mode cluster analysis algorithm that uses information uncertainty by extending information entropy to reduce information loss. Therefore, the measurement of the similarity of attributes is considered in two aspects. One is to measure the uncertainty between each attribute on the center of each partition and the other is to measure the uncertainty about the probability distribution of the uncertainty of each property. In particular, the uncertainty in attributes is taken into account in the non-probabilistic and probabilistic scales because the entropy of the attribute is transformed into probabilistic information to measure the uncertainty. The accuracy of the algorithm is observable to the result of cluster analysis based on the optimal initial value through extensive performance analysis and various indexes.

Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model (확률적 정보 검색 모델에서의 유사 적합성 피드백 실험)

  • Cho, Bong-Hyun;Lee, Chang-Kee;An, Joo-Hui;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF