• 제목/요약/키워드: 랜덤 검색

검색결과 45건 처리시간 0.022초

Bag-of-Feature 특징과 랜덤 포리스트를 이용한 의료영상 검색 기법 (Medical Image Retrieval using Bag-of-Feature and Random Forest Classifier)

  • 손정은;곽준영;고병철;남재열
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.601-603
    • /
    • 2012
  • 본 논문에서는 의료영상의 특성을 반영하여 영상의 그래디언트 방향 값을 특징으로 하는 Oriented Center Symmetric Local Binary Patterns (OCS-LBP) 특징을 개발하고 추출된 특징 값에 대해 차원을 줄이고 의미 있는 특징 단위로 재 생성하기 위해 Bag-of-Feature (BoF)를 적용하였다. 검색을 위해서는 기존의 영상 검색 방법과는 다르게, 학습 영상을 이용하여 랜덤 포리스트 (Random Forest)를 사전에 학습시켜 데이터베이스 영상을 N 개의 클래스로 자동 분류 시키고, 질의로 입력된 영상을 같은 방법으로 랜덤 포리스트에 적용하여 상위 확률 값을 갖는 2 개의 클래스에서만 K-nearest neighbor 방법으로 유사 영상을 검색결과로 제시하는 새로운 영상검색 방법을 제시하였다. 실험결과에서 본 논문의 우수성을 증명하기 위해 일반적인 유사성 측정 방법과 랜덤 포리스트를 이용한 방법의 검색 성능 및 시간을 비교하였고, 검색 성능과 시간 면에서 상대적으로 매우 우수한 성능을 보여줌을 증명하였다.

큰 그래프에서의 모든 쌍에 대한 빠른 2 단계 랜덤 워크 계산 방법 (Fast Computation of All-pairs 2-step Radom Walk on Large Graphs)

  • 박성찬;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.125-127
    • /
    • 2012
  • 현재 이종 그래프에 대한 연구가 활발히 진행되고 있다. 특히 추천 및 검색 분야에서 이종 그래프를 활용하여 성능을 높이는 성과가 두드러진다. 이종 그래프는 다양한 정보를 갖고 있으며, 특히 2단계 랜덤 워크 확률은 여러 유용한 정보를 가지고 있다. "어떤 사용자가 많이 본 영화를 많이 본 사용자", "어떤 사용자의 이웃이 많이 구입한 상품" 등이 그예이다. 하지만 이러한 정보를 실시간에 계산하기는 어려우며, 미리 계산해두는 것도 시간이 많이 든다. 이에 따라, 본 연구에서는 모든 출발 노드-도착 노드 쌍에 대한 2단계 랜덤 워크를 빠르게 미리 계산하는 알고리듬을 제시한다. 동일한 이웃 노드를 다수 가진 두 노드에서 출발하는 랜덤 워크 확률 값은 서로 비슷하다는 사실을 이용하여, 이전 계산 결과를 활용하여 근접 노드 목록에 대한 임의 접근 횟수를 줄인다. 더불어 본 알고리듬과 관련된 현안을 몇 가지 소개한다.

암호화 문서상에서 효율적인 키워드 검색 프로토콜 설계 (A Design of Efficient Keyword Search Protocol Over Encrypted Document)

  • 변진욱
    • 전자공학회논문지CI
    • /
    • 제46권1호
    • /
    • pp.46-55
    • /
    • 2009
  • 본 논문에서는 공통의 키워드들을 포함하는 암호화 문서들을 검색하는 프로토콜에 대해서 연구한다. 공통의 키워드 검색 프로토콜은 자료 공급자 (data supplier), 자료 저장소 (database) 그리고 사용자 (user of database)로 이루어진다. 자료 공급자는 암호화된 문서를 자료 저장소에 저장하게 되고 정당한 사용자는 원하는 키워드들을 질의하여 해당 키워드들이 공통으로 포함된 암호화 문서들을 얻을 수 있다. 최근, 많은 공통의 키워드 검색 프로토콜들이 다양한 환경에서 제안되었다. 하지만, 제안된 프로토콜들은 자료 공급자 및 자료 저장소 관점에서 많은 계산적 비용을 필요로 한다. 더욱이 지금까지 제안된 프로토콜들의 안전성은 랜덤 오라클 (random oracle) 모델에서만 증명되었다. 본 논문에서는 암호화 문서상에서 효율적인 공통의 키워드 검색 프로토콜을 랜덤 오라클 가정 없이 설계한다. 또한 사용자의 자료 저장량 그리고 자료 저장소의 계산량, 통신량 비용이 상수양의 비용을 가진다 제안된 프로토콜의 안전성은 DBDH (Decisional Bilinear Diffie-Hellman) 문제의 어려움에 기반 한다.

인공생명 기법을 이용한 정보검색 에이전트의 원형 (Prototype of Information Retrieval Agents Using Artificial Life Technologies)

  • 김학균;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1997년도 추계학술대회 학술발표 논문집
    • /
    • pp.391-394
    • /
    • 1997
  • 인터넷의 웹은 여러 곳에 분산되어 있을 뿐만 아니라 끊임없이 동적으로 변화하는 특성이 있기 때문에, 보통의 인덱스를 통한 정보검색 방법에는 한계가 있다. 이러한 웹의 특성을 적절히 살리면서 원하는 정보를 신속하게 검색하기 위하여, 본 논문에서는 여러 개의 에이전트가 인공생명 기법에 의해 조직되어 정보를 검색하는 온라인 에이전트를 소개한다. 이것은 각각의 에이전트에 의하여 검색된 문서가 얼마나 질의에 가까운가에 따라서 해당 에이전트를 만이 살아 남아 문서를 가져오도록 함으로써, 불필요한 문서를 검색하지 않게 되어 단위 시간에 원하는 문서를 많이 얻어올 수 있는 장점이 있다. 실제 웹 환경에서 실험한 결과 종래의 폭우선 검색이나 랜덤검색에 비하여 좋은 결과를 내는 것을 볼 수 있었다.

  • PDF

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식 (Named Entity Recognition for Patent Documents Based on Conditional Random Fields)

  • 이태석;신수미;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.419-424
    • /
    • 2016
  • 특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

웹 검색을 활용한 기사 표절 탐지 시스템 (A Plagiarism Detection System for Newspaper Articles by using Web Search)

  • 조정현;김유섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF

이질적 검색기와 컬렉션으로부터 검색된 복수 문서 리스트의 효율적인 용합 방법 (A Deterministic Fusion Method for Multiple Lists of Documents from Heterogeneous Search Engines)

  • 이민호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-19
    • /
    • 1999
  • 본 논문은 분산, 독립적인 다수의 문서 컬렉션으로부터의 검색결과를 병합하는 컬렉션 융합(collection fusion)문제에 대한 효과적인 랭킹방법을 제시한다. 일반적인 컬렉션 융합 문제란 분산되어 있는 다수의 문서 컬렉션에서 독립적이고 능동적인 검색기들의 검색결과를 효과적으로 랭킹(ranking) 병합하는 것인데, 각기 다른 특성을 가진 다수의 컬렉션을 동일한 검색기를 통하여 검색된 결과를 병합하는 환경과 서로 다른 알고리즘을 갖는 검색기를 통한 검색 결과 병합 환경으로 나누어 질 수 있다. 본 논문에서는 서로 다른 특성을 갖는 다수의 컬렉션을 서로 다른 알고리즘을 갖는 검색기들을 통하여 검색한 결과를 병합하는 방법을 제시한다. 각 컬렉션에 학습 질를 넣어 얻은 정보를 토대로, 실제 질의를 넣었을 때 각각의 컬렉션에서 나온 결과가 통합 결과 집합에서 차지하는 비율과 각 문서의 순위를 결정한다. 기존 연구에서 사용한 방법들은 랜덤성에 의존한 비결정적인 랭킹 방법을 제시하거나, 단순하게 검색결과 집합의 문서 수를 바탕으로 인터리빙(interleaving)하는 방법을 제시하였다. 본 논문에서는 학습 질의에서 나온 정보를 기반으로 결정적이면서도 보다 효과적인 랭킹 방법을 제시한다.

  • PDF

랜덤 워크 기반의 P2P 익명 프로토콜 (Peer to Peer Anonymous Protocol Based Random Walk)

  • 조준하;이현숙;박현아;이동훈
    • 정보보호학회논문지
    • /
    • 제17권6호
    • /
    • pp.65-76
    • /
    • 2007
  • P2P 시스템을 이용하여 파일을 검색하면 상대방의 프로그램에 설정되어 있는 공유폴더의 파일을 검색해서 결과를 보내준다. 이러한 과정에서 보내주는 정보 중에는 경로명 및 파일 정보가 포함되게 피고, 어떤 검색자가 어떠한 정보를 검색했는지 모두 드러날 수 있는 문제점이 발생한다. 이것을 해결하기 위한 방법으로 P2P 익명 파일의 송 수신에 관한 연구가 현재 활발하게 이루어지고 있으나 지금까지의 연구에는 아직 몇 가지 한계점이 있다. 따라서 우리는 그러한 문제점을 분석하고 이를 극복하기 위해 비집중화(Decentralized)되고 비구조화된(Unstructured) P2P 시스템에서 랜덤 워크(Random Walk)를 기초로 하여 파일 요청자가 다른 peer들의 시스템 접속 상태를 모르고도 동적인 Onion 라우팅(Dynamic Onion Routing) 을 가능하게 하는 프로토콜과 멀티캐스트 기법을 이용하여 계산 효율성을 향상시킨 스킴 2가지를 제안한다.

플래시 메모리를 이용한 다중 버전 기반의 동시성 제어 기법의 성능 평가 (Performance Evaluation of Multi-Version Concurrency Control using a Flash Memory)

  • 오주형;김재명;나갑주;이상원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.130-133
    • /
    • 2007
  • 데이터베이스 시스템은 전통적으로 트랜잭션의 동시 접근 시 발생할 수 있는 문제들을 해결하고 동시성 향상을 위해 다양한 연구를 진행해 왔다. 다중 버전 기반의 동시성 제어 기법은 데이터 레코드에 대한 여러 버전을 전용 공간에 유지하고 이것을 통해 트랜잭션들의 동시 접근 시 블로킹 없이 원하는 데이터를 읽고 쓸 수 있게 된다. 그러나 데이터 레코드가 포함된 데이터 블록에 대해 여러 개의 트랜잭션이 동시에 데이터를 덮어쓰기 했을 경우 다수의 버전이 생성된다. 그래서 트랜잭션 별로 적합한 데이터 버전을 찾기 위해 버전들이 저장되어 있는 전용공간을 랜덤하게 검색해 데이터 블록을 찾아내야 하므로 많은 시간이 소모된다. 따라서 다중 버전 읽기의 부하를 줄이기 위해 차세대 저장 매체로 부상하고 있는 플래시 메모리를 이용할 경우 랜덤 읽기에 의한 데이터베이스 시스템의 성능저하를 줄일 수 있다. 플래시 메모리는 디스크와 달리 기계적인 파트가 존재하지 않기 때문에 저장된 모든 블록에 대해 빠른 랜덤 읽기를 가능하게 한다. 본 논문에서는 플래시 메모리를 다중 버전 기반의 동시성 기법에 적용했을 경우의 성능 평가를 통해 하드 디스크에 비해 3.5배 이상의 높은 성능을 보임을 증명한다.

  • PDF

유전자 알고리즘을 이용한 웹 검색 랭킹방법 (Ranking Methods of Web Search using Genetic Algorithm)

  • 정용규;한송이
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.91-95
    • /
    • 2010
  • 검색엔진을 사용하는 이용자의 정보 즉 선호도에 따른 지속적인 피드백으로 검색 결과의 랭킹을 향상시켜 유연한 검색이 가능하게 하는 방법에는 학습된 인공 신경망을 이용한다. 인공 신경망 학습은 신경망이 여러 다른 검색어로 학습된 후 다른 사용자들이 과거에 실제 검색했던 결과를 좀 더 반영하기 위한 것이다. 가중치의 지속적인 변경을 위해서는 네트워크에서 역방향으로 움직이면서 가중치를 변경하는 역전파 알고리즘을 이용하여 학습한다. 그러나 이러한 학습은 초기에는 훈련데이터에 적합한 성능을 보이나 학습의 횟수가 증가할수록 점점 과대적합되는 것을 알 수 있다. 따라서 본 논문에서는 최적화해야 할 개체가 많을 때 강한 장점을 가지고 있는 유전자 알고리즘을 적용하여 검색어에 관련성이 높은 페이지들 유연하게 랭킹하기 위해 URL리스트를 개체로 랜덤으로 선택하여 학습하는 기법을 제안한다.