• Title/Summary/Keyword: Similarity search

검색결과 535건 처리시간 0.023초

웹 검색 환경에서 범주의 동적인 분류 (Dynamic Classification of Categories in Web Search Environment)

  • 최범기;이주홍;박선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권7호
    • /
    • pp.646-654
    • /
    • 2006
  • 분류검색 방법은 색인검색 방법과 함께 중요한 요소로서 웹 검색 엔진에서 지원되고 있다. 사용자가 분류나 색인검색 방법 중 하나를 이용하여 원하는 검색결과를 찾지 못하면 다른 검색방법을 이용하여 찾을 수 있도록 대부분의 검색엔진에서는 두 가지 방법 모두 지원하고 있다. 색인검색 방법에서는 검색결과의 재현율이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾아내는 것이 어렵다는 단점이 있다. 분류검색 방법은 찾고자 하는 문서의 해당 분류가 애매모호하거나 명확하게 알지 못할 때에는 문서를 찾지 못하는 경우가 빈번히 발생한다. 즉, 검색결과의 정확도는 높으나 재현율이 떨어지는 단점이 있다. 본 논문은 이러한 문제점을 해결하기 위해서 분류와 검색어간의 관계를 퍼지논리를 이용하여 정량적으로 계산하고 이를 바탕으로 범주간의 함의관계를 유도함으로써 동적인 범주체계를 구성하는 새로운 방법을 제시한다. 이 방법의 장점은 범주간의 합의관계를 유사한 하위범주로 간주함으로써 분류검색 결과의 재현율을 높일 수 있다는 것이다.

Phytosociological Study and Spatial autocorrelation on the Forest Vegetation of Mt. Yeonae at Gijang-gun

  • Choi, Byoung-Ki;Huh, Man Kyu
    • 한국환경과학회지
    • /
    • 제22권11호
    • /
    • pp.1373-1381
    • /
    • 2013
  • Mt. Yeonae is at Gijang-gun in Busan and is surrounded by farming lands on three sides. The search for the species composition and dynamics of local communities were studied at Mt. Yeonae of how spatial similarity decays with geographic distance. The index values of Z$\ddot{u}$rich-Montpellier School's phytosociology at the 12 plots was compared to a distribution of similarly using 20 m quadrates at 12 sites. The specific communities were five including Pinus densiflora - Quercus variabilis community. Six species were significant similarity between neighboring sites by using the spatial autocorrelation coefficient, Moran's I. If Mt. Yeonae was destroyed by an artificial action, some spatial correlated species such as P. densiflora and Q. variabilis will be collapsed because of no maintaining the effective population sizes.

노드정보를 이용한 문서검색의 성능에 관한 연구 (A Study on the Performance of Structured Document Retrieval Using Node Information)

  • 윤소영
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.103-120
    • /
    • 2007
  • 노드는 문서를 구성하는 작은 크기의 의미 있는 정보 단위이다. 정보검색에 문서의 구조정보를 이용함과 더불어 문서보다 작은 검색단위에 대한 연구가 활발히 이루어지고 있다. 이 연구에서는 노드정보를 이용한 검색실험을 위해 벡터공간모델 검색기법을 사용하여 다양한 유사도 산출방식을 적용한 실험과 구조정보를 활용한 확장 실험을 수행하였다. 실험결과 문서의 유사도를 산출하는 방식에 따른 검색성능의 차이는 거의 나타나지 않았으며, 구조정보를 적용하는 확장 노드검색이 가장 좋은 성능을 나타냈다.

Functional Analysis of ESTs from the Flower Bud of Korean Ginseng

  • Yang, Deok-Chun;In, Jun-Gyo;Kim, Moo-Sung;Jeon, Jong-Seong
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2003년도 춘계 학술발표대회
    • /
    • pp.124-124
    • /
    • 2003
  • In order to study gene expression in a reproductive organ, we constructed a cDNA library of immature flower buds in Korean ginseng and generated expressed sequence tags (ESTs) of 3,360 clones randomly selected. The ESTs could be clustered into 1,844 non-redundant groups. Similarity search of the non-redundant ESTs against public non-redundant databases of both protein and DNA indicated that 1,254 groups show similarity to genes of known function. These ESTs clones were divided into sixteen categories depending upon gene function. The most abundant transcripts were unknown protein (72), chlorophyll a/b-binding protein (48), and stylar glycoprotein. There are no useful informations of gene expression during the development of flower bud in Korean ginseng. These results could help to understand the development of flower bud in Korean ginseng.

  • PDF

Integrating Spatial Proximity with Manifold Learning for Hyperspectral Data

  • Kim, Won-Kook;Crawford, Melba M.;Lee, Sang-Hoon
    • 대한원격탐사학회지
    • /
    • 제26권6호
    • /
    • pp.693-703
    • /
    • 2010
  • High spectral resolution of hyperspectral data enables analysis of complex natural phenomena that is reflected on the data nonlinearly. Although many manifold learning methods have been developed for such problems, most methods do not consider the spatial correlation between samples that is inherent and useful in remote sensing data. We propose a manifold learning method which directly combines the spatial proximity and the spectral similarity through kernel PCA framework. A gain factor caused by spatial proximity is first modelled with a heat kernel, and is added to the original similarity computed from the spectral values of a pair of samples. Parameters are tuned with intelligent grid search (IGS) method for the derived manifold coordinates to achieve optimal classification accuracies. Of particular interest is its performance with small training size, because labelled samples are usually scarce due to its high acquisition cost. The proposed spatial kernel PCA (KPCA) is compared with PCA in terms of classification accuracy with the nearest-neighbourhood classification method.

Deep Learning and Color Histogram based Fire and Smoke Detection Research

  • Lee, Yeunghak;Shim, Jaechang
    • International journal of advanced smart convergence
    • /
    • 제8권2호
    • /
    • pp.116-125
    • /
    • 2019
  • The fire should extinguish as soon as possible because it causes economic loss and loses precious life. In this study, we propose a new atypical fire and smoke detection algorithm using deep learning and color histogram of fire and smoke. First, input frame images obtain from the ONVIF surveillance camera mounted in factory search motion candidate frame by motion detection algorithm and mean square error (MSE). Second deep learning (Faster R-CNN) is used to extract the fire and smoke candidate area of motion frame. Third, we apply a novel algorithm to detect the fire and smoke using color histogram algorithm with local area motion, similarity, and MSE. In this study, we developed a novel fire and smoke detection algorithm applied the local motion and color histogram method. Experimental results show that the surveillance camera with the proposed algorithm showed good fire and smoke detection results with very few false positives.

문장유사도 측정 기법을 통한 스팸 필터링 시스템 구현 (Implementation of a Spam Message Filtering System using Sentence Similarity Measurements)

  • 우수빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.57-64
    • /
    • 2017
  • 문자 메시지는 휴대폰을 사용하는 사람들에게 중요한 의사소통의 방법 중 하나이다. 또한 친구맺기 방식이 필요 없이 사용이 가능하기 때문에 이를 악용한 불법 광고 스팸메시지가 기승을 부리고 있다. 최근 스팸 필터링을 위해 기계 학습을 이용한 시스템들이 등장 하였지만 많은 계산을 필요로 하는 단점이 있다. 본 논문에서는 검색할 쿼리를 입력할 때 부정확한 쿼리를 입력하더라도 저장된 데이터베이스와 비교하여 가장 비슷한 단어를 차수 개념을 적용하여 유추하는 집합 기반 POI(Point of Interest) 검색 알고리즘을 이용하여 스팸 필터링 시스템을 구현하였다. 이 알고리즘을 적용하면 서버 컴퓨팅 없이 문자의 조합만을 이용해 쿼리를 유추할 수 있기 때문에 스팸 필터링에 적용하여 입력된 문자메시지가 교묘하게 변형되더라도 스팸이라고 필터링이 가능하다. 또한 문장 유사도 측정 기법을 활용하여 스팸 필터링 성능을 향상시켰으며, 스팸 필터링에 취약한 특정 유형도 걸러내기 위해 특정 전처리 과정을 지원함으로써 대부분의 스팸메세지를 필터링 가능하도록 하였다. 기존 집합기반 POI 검색 알고리즘과 이를 확장 시킨 문장 유사도 측정 기법, 특정 전처리 과정을 추가한 시스템으로 필터링 시스템의 성능평가를 진행하였다. 그 결과 본 논문에서 구현한 시스템이 기존 집합기반 POI 알고리즘과 비교하여 향상된 스팸 필터링 성능을 보여주는 것을 확인하였다. 또한 이동통신사 3사에서 필터링에 취약한 유형이 본 논문에서 구현한 시스템으로 높은 성능으로 필터링이 가능하다는 것을 확인하였다.

구형 피라미드 기법 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 기법 (Spherical Pyramid-Technique : An Efficient Indexing Technique for Similarity Search in High-Dimensional Data)

  • 이동호;정진완;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1270-1281
    • /
    • 1999
  • 피라미드 기법 1 은 d-차원의 공간을 2d개의 피라미드들로 분할하는 특별한 공간 분할 방식을 이용하여 고차원 데이타를 효율적으로 색인할 수 있는 새로운 색인 방법으로 제안되었다. 피라미드 기법은 고차원 사각형 형태의 영역 질의에는 효율적이나, 유사성 검색에 많이 사용되는 고차원 구형태의 영역 질의에는 비효율적인 면이 존재한다. 본 논문에서는 고차원 데이타를 많이 사용하는 유사성 검색에 효율적인 새로운 색인 기법으로 구형 피라미드 기법을 제안한다. 구형 피라미드 기법은 먼저 d-차원의 공간을 2d개의 구형 피라미드로 분할하고, 각 단일 구형 피라미드를 다시 구형태의 조각으로 분할하는 특별한 공간 분할 방법에 기반하고 있다. 이러한 공간 분할 방식은 피라미드 기법과 마찬가지로 d-차원 공간을 1-차원 공간으로 변환할 수 있다. 따라서, 변환된 1-차원 데이타를 다루기 위하여 B+-트리를 사용할 수 있다. 본 논문에서는 이렇게 분할된 공간에서 고차원 구형태의 영역 질의를 효율적으로 처리할 수 있는 알고리즘을 제안한다. 마지막으로, 인위적 데이타와 실제 데이타를 사용한 다양한 실험을 통하여 구형 피라미드 기법이 구형태의 영역 질의를 처리하는데 있어서 기존의 피라미드 기법보다 효율적임을 보인다.Abstract The Pyramid-Technique 1 was proposed as a new indexing method for high- dimensional data spaces using a special partitioning strategy that divides d-dimensional space into 2d pyramids. It is efficient for hypercube range query, but is not efficient for hypersphere range query which is frequently used in similarity search. In this paper, we propose the Spherical Pyramid-Technique, an efficient indexing method for similarity search in high-dimensional space. The Spherical Pyramid-Technique is based on a special partitioning strategy, which is to divide the d-dimensional data space first into 2d spherical pyramids, and then cut the single spherical pyramid into several spherical slices. This partition provides a transformation of d-dimensional space into 1-dimensional space as the Pyramid-Technique does. Thus, we are able to use a B+-tree to manage the transformed 1-dimensional data. We also propose the algorithm of processing hypersphere range query on the space partitioned by this partitioning strategy. Finally, we show that the Spherical Pyramid-Technique clearly outperforms the Pyramid-Technique in processing hypersphere range queries through various experiments using synthetic and real data.

Layout Analysis for Calculation of Web Page Similarity as Image

  • Mitsuhashi, Noriaki;Yamaguchi, Toru;Takama, Yasufumi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.142-145
    • /
    • 2003
  • When we search information on the Web using search engines, they only analyze the text information collected from the source files of Web pages. However, there is a limit to analyze the layout of a Web page only from its source file, although Web page design is the most important factor for a user to estimate a page. In particular it often happens on the Web that the pages of similar design ofter similar information. We propose a method to analyze layout for comparing the design of pages by treating the displayed page as image.

  • PDF

AN APPROXIMATE GREEDY ALGORITHM FOR TAGSNP SELECTION USING LINKAGE DISEQUILIBRIUM CRITERIA

  • Wang, Ying;Feng, Enmin;Wang, Ruisheng
    • Journal of applied mathematics & informatics
    • /
    • 제26권3_4호
    • /
    • pp.493-500
    • /
    • 2008
  • In this paper, we first construct a mathematical model for tagSNP selection based on LD measure $r^2$, then aiming at this kind of model, we develop an efficient algorithm, which is called approximate greedy algorithm. This algorithm is able to make up the disadvantage of the greedy algorithm for tagSNP selection. The key improvement of our approximate algorithm over greedy algorithm lies in that it adds local replacement(or local search) into the greedy search, tagSNP is replaced with the other SNP having greater similarity degree with it, and the local replacement is performed several times for a tagSNP so that it can improve the tagSNP set of the local precinct, thereby improve tagSNP set of whole precinct. The computational results prove that our approximate greedy algorithm can always find more efficient solutions than greedy algorithm, and improve the tagSNP set of whole precinct indeed.

  • PDF