• Title/Summary/Keyword: 랜덤 검색

Search Result 44, Processing Time 0.036 seconds

Medical Image Retrieval using Bag-of-Feature and Random Forest Classifier (Bag-of-Feature 특징과 랜덤 포리스트를 이용한 의료영상 검색 기법)

  • Son, JungEun;Kwak, JunYoung;Ko, ByoungChul;Nam, JaeYeal
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.601-603
    • /
    • 2012
  • 본 논문에서는 의료영상의 특성을 반영하여 영상의 그래디언트 방향 값을 특징으로 하는 Oriented Center Symmetric Local Binary Patterns (OCS-LBP) 특징을 개발하고 추출된 특징 값에 대해 차원을 줄이고 의미 있는 특징 단위로 재 생성하기 위해 Bag-of-Feature (BoF)를 적용하였다. 검색을 위해서는 기존의 영상 검색 방법과는 다르게, 학습 영상을 이용하여 랜덤 포리스트 (Random Forest)를 사전에 학습시켜 데이터베이스 영상을 N 개의 클래스로 자동 분류 시키고, 질의로 입력된 영상을 같은 방법으로 랜덤 포리스트에 적용하여 상위 확률 값을 갖는 2 개의 클래스에서만 K-nearest neighbor 방법으로 유사 영상을 검색결과로 제시하는 새로운 영상검색 방법을 제시하였다. 실험결과에서 본 논문의 우수성을 증명하기 위해 일반적인 유사성 측정 방법과 랜덤 포리스트를 이용한 방법의 검색 성능 및 시간을 비교하였고, 검색 성능과 시간 면에서 상대적으로 매우 우수한 성능을 보여줌을 증명하였다.

Fast Computation of All-pairs 2-step Radom Walk on Large Graphs (큰 그래프에서의 모든 쌍에 대한 빠른 2 단계 랜덤 워크 계산 방법)

  • Park, Sung-Chan;Lee, Sang-Goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.125-127
    • /
    • 2012
  • 현재 이종 그래프에 대한 연구가 활발히 진행되고 있다. 특히 추천 및 검색 분야에서 이종 그래프를 활용하여 성능을 높이는 성과가 두드러진다. 이종 그래프는 다양한 정보를 갖고 있으며, 특히 2단계 랜덤 워크 확률은 여러 유용한 정보를 가지고 있다. "어떤 사용자가 많이 본 영화를 많이 본 사용자", "어떤 사용자의 이웃이 많이 구입한 상품" 등이 그예이다. 하지만 이러한 정보를 실시간에 계산하기는 어려우며, 미리 계산해두는 것도 시간이 많이 든다. 이에 따라, 본 연구에서는 모든 출발 노드-도착 노드 쌍에 대한 2단계 랜덤 워크를 빠르게 미리 계산하는 알고리듬을 제시한다. 동일한 이웃 노드를 다수 가진 두 노드에서 출발하는 랜덤 워크 확률 값은 서로 비슷하다는 사실을 이용하여, 이전 계산 결과를 활용하여 근접 노드 목록에 대한 임의 접근 횟수를 줄인다. 더불어 본 알고리듬과 관련된 현안을 몇 가지 소개한다.

A Design of Efficient Keyword Search Protocol Over Encrypted Document (암호화 문서상에서 효율적인 키워드 검색 프로토콜 설계)

  • Byun, Jin-Wook
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.46 no.1
    • /
    • pp.46-55
    • /
    • 2009
  • We study the problem of searching documents containing each of several keywords (conjunctive keyword search) over encrypted documents. A conjunctive keyword search protocol consists of three entities: a data supplier, a storage system such as database, and a user of storage system. A data supplier uploads encrypted documents on a storage system, and then a user of the storage system searches documents containing each of several keywords. Recently, many schemes on conjunctive keyword search have been suggested in various settings. However, the schemes require high computation cost for the data supplier or user storage. Moreover, up to now, their securities have been proved in the random oracle model. In this paper, we propose efficient conjunctive keyword search schemes over encrypted documents, for which security is proved without using random oracles. The storage of a user and the computational and communication costs of a data supplier in the proposed schemes are constant. The security of the scheme relies only on the hardness of the Decisional Bilinear Diffie-Hellman (DBDH) problem.

Prototype of Information Retrieval Agents Using Artificial Life Technologies (인공생명 기법을 이용한 정보검색 에이전트의 원형)

  • 김학균;조성배
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1997.10a
    • /
    • pp.391-394
    • /
    • 1997
  • 인터넷의 웹은 여러 곳에 분산되어 있을 뿐만 아니라 끊임없이 동적으로 변화하는 특성이 있기 때문에, 보통의 인덱스를 통한 정보검색 방법에는 한계가 있다. 이러한 웹의 특성을 적절히 살리면서 원하는 정보를 신속하게 검색하기 위하여, 본 논문에서는 여러 개의 에이전트가 인공생명 기법에 의해 조직되어 정보를 검색하는 온라인 에이전트를 소개한다. 이것은 각각의 에이전트에 의하여 검색된 문서가 얼마나 질의에 가까운가에 따라서 해당 에이전트를 만이 살아 남아 문서를 가져오도록 함으로써, 불필요한 문서를 검색하지 않게 되어 단위 시간에 원하는 문서를 많이 얻어올 수 있는 장점이 있다. 실제 웹 환경에서 실험한 결과 종래의 폭우선 검색이나 랜덤검색에 비하여 좋은 결과를 내는 것을 볼 수 있었다.

  • PDF

Named Entity Recognition for Patent Documents Based on Conditional Random Fields (조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식)

  • Lee, Tae Seok;Shin, Su Mi;Kang, Seung Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.9
    • /
    • pp.419-424
    • /
    • 2016
  • Named entity recognition is required to improve the retrieval accuracy of patent documents or similar patents in the claims and patent descriptions. In this paper, we proposed an automatic named entity recognition for patents by using a conditional random field that is one of the best methods in machine learning research. Named entity recognition system has been constructed from the training set of tagged corpus with 660,000 words and 70,000 words are used as a test set for evaluation. The experiment shows that the accuracy is 93.6% and the Kappa coefficient is 0.67 between manual tagging and automatic tagging system. This figure is better than the Kappa coefficient 0.6 for manually tagged results and it shows that automatic named entity tagging system can be used as a practical tagging for patent documents in replacement of a manual tagging.

A Plagiarism Detection System for Newspaper Articles by using Web Search (웹 검색을 활용한 기사 표절 탐지 시스템)

  • Cho, Jung-Hyun;Kim, Yu-Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF

A Deterministic Fusion Method for Multiple Lists of Documents from Heterogeneous Search Engines (이질적 검색기와 컬렉션으로부터 검색된 복수 문서 리스트의 효율적인 용합 방법)

  • Lee, Min-Ho;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.13-19
    • /
    • 1999
  • 본 논문은 분산, 독립적인 다수의 문서 컬렉션으로부터의 검색결과를 병합하는 컬렉션 융합(collection fusion)문제에 대한 효과적인 랭킹방법을 제시한다. 일반적인 컬렉션 융합 문제란 분산되어 있는 다수의 문서 컬렉션에서 독립적이고 능동적인 검색기들의 검색결과를 효과적으로 랭킹(ranking) 병합하는 것인데, 각기 다른 특성을 가진 다수의 컬렉션을 동일한 검색기를 통하여 검색된 결과를 병합하는 환경과 서로 다른 알고리즘을 갖는 검색기를 통한 검색 결과 병합 환경으로 나누어 질 수 있다. 본 논문에서는 서로 다른 특성을 갖는 다수의 컬렉션을 서로 다른 알고리즘을 갖는 검색기들을 통하여 검색한 결과를 병합하는 방법을 제시한다. 각 컬렉션에 학습 질를 넣어 얻은 정보를 토대로, 실제 질의를 넣었을 때 각각의 컬렉션에서 나온 결과가 통합 결과 집합에서 차지하는 비율과 각 문서의 순위를 결정한다. 기존 연구에서 사용한 방법들은 랜덤성에 의존한 비결정적인 랭킹 방법을 제시하거나, 단순하게 검색결과 집합의 문서 수를 바탕으로 인터리빙(interleaving)하는 방법을 제시하였다. 본 논문에서는 학습 질의에서 나온 정보를 기반으로 결정적이면서도 보다 효과적인 랭킹 방법을 제시한다.

  • PDF

Peer to Peer Anonymous Protocol Based Random Walk (랜덤 워크 기반의 P2P 익명 프로토콜)

  • Cho, Jun-Ha;Rhee, Hyun-Sook;Park, Hyun-A;Lee, Dong-Hoon
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.17 no.6
    • /
    • pp.65-76
    • /
    • 2007
  • The P2P file sharing system sends the results to users by searching the files in the shared folders. In the process of it, the problem is that the transferred information includes the pathname and file information and it can be revealed who searches which files. In related to this problem, anonymous file sharing P2P protocol has been an active research area where a number of works have been produced. However, the previous studies still have a few of weakness. Therefore, We propose two anonymous P2P file sharing protocols based on the decentralized and unstructured Random Walk. The first scheme uses the dynamic onion routing where the requester can receive the wanted file without knowing other peers' IDs. The second scheme uses the IP multicast method which lowers the computational overhead. Both of them are more suited for the dynamic P2P system.

Performance Evaluation of Multi-Version Concurrency Control using a Flash Memory (플래시 메모리를 이용한 다중 버전 기반의 동시성 제어 기법의 성능 평가)

  • Oh, Joo-Hyung;Kim, Jae-Myung;Na, Gap-Joo;Lee, Sang-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.130-133
    • /
    • 2007
  • 데이터베이스 시스템은 전통적으로 트랜잭션의 동시 접근 시 발생할 수 있는 문제들을 해결하고 동시성 향상을 위해 다양한 연구를 진행해 왔다. 다중 버전 기반의 동시성 제어 기법은 데이터 레코드에 대한 여러 버전을 전용 공간에 유지하고 이것을 통해 트랜잭션들의 동시 접근 시 블로킹 없이 원하는 데이터를 읽고 쓸 수 있게 된다. 그러나 데이터 레코드가 포함된 데이터 블록에 대해 여러 개의 트랜잭션이 동시에 데이터를 덮어쓰기 했을 경우 다수의 버전이 생성된다. 그래서 트랜잭션 별로 적합한 데이터 버전을 찾기 위해 버전들이 저장되어 있는 전용공간을 랜덤하게 검색해 데이터 블록을 찾아내야 하므로 많은 시간이 소모된다. 따라서 다중 버전 읽기의 부하를 줄이기 위해 차세대 저장 매체로 부상하고 있는 플래시 메모리를 이용할 경우 랜덤 읽기에 의한 데이터베이스 시스템의 성능저하를 줄일 수 있다. 플래시 메모리는 디스크와 달리 기계적인 파트가 존재하지 않기 때문에 저장된 모든 블록에 대해 빠른 랜덤 읽기를 가능하게 한다. 본 논문에서는 플래시 메모리를 다중 버전 기반의 동시성 기법에 적용했을 경우의 성능 평가를 통해 하드 디스크에 비해 3.5배 이상의 높은 성능을 보임을 증명한다.

  • PDF

Ranking Methods of Web Search using Genetic Algorithm (유전자 알고리즘을 이용한 웹 검색 랭킹방법)

  • Jung, Yong-Gyu;Han, Song-Yi
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.10 no.3
    • /
    • pp.91-95
    • /
    • 2010
  • Using artificial neural network to use a search preference based on the user's information, the ranking of search results that will enable flexible searches can be improved. After trained in several different queries by other users in the past, the actual search results in order to better reflect the use of artificial neural networks to neural network learning. In order to change the weights constantly moving backward in the network to change weights of backpropagation algorithm. In this study, however, the initial training, performance data, look for increasing the number of lessons that can be overfitted. In this paper, we have optimized a lot of objects that have a strong advantage to apply genetic algorithms to the relevant page of the search rankings flexible as an object to the URL list on a random selection method is proposed for the study.