• 제목/요약/키워드: 검색가중치

검색결과 401건 처리시간 0.028초

마크업 패턴을 이용한 웹 검색 (Web Information Retrieval Exploiting Markup Pattern)

  • 김민수;김민구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.407-411
    • /
    • 2007
  • HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.

정보 검색 과제별 동적 검색 랭킹 모델 구현 및 검증: 사용자 중심 적합성 판단 모형 평가를 중심으로 (Implementation and Verification of Dynamic Search Ranking Model for Information Search Tasks: The Evaluation of Users' Relevance Judgement Model)

  • 박정아;손영우
    • 감성과학
    • /
    • 제15권3호
    • /
    • pp.367-380
    • /
    • 2012
  • 본 연구는 정보 검색 과제별 주요 적합성 판단 기준을 실제 정보 검색 시스템으로 구현해 보고 사용자 평가를 통해 그 효과를 검증해 보고자 하였다. 이를 위해, 사용자 적합성 판단 기준들을 정보 검색 시스템에서 적합성을 결정하는 검색 랭킹 모델의 랭킹 요소들로 적용하였다. 그리고 정보 검색 과제별 차이가 있는 동적 검색 랭킹 모델과 차이가 없는 정적 검색 랭킹 모델을 시스템으로 구현하였고, 이에 대한 사용자 평가를 진행하여 비교해 보았다. 총 45명의 참가자가 실험에 참여하였고, 정보 검색 과제별 차이가 있는 동적 검색 랭킹 모델과 차이가 없는 정적 검색 랭킹 모델이 적용된 각각의 검색 시스템에서 3개의 검색 과제를 수행하였다. 3개의 정보 검색 과제로는 사실 검색 과제, 문제 해결 검색 과제, 의사 결정 검색 과제가 사용되었다. 각 참가자는 검색 결과 첫 페이지 상위 5 개의 검색 결과에 대해 적합성 정도를 7 점 척도로 평가하였다. 그 결과, 사용자는 전반적으로 모든 검색어에 동일하게 반응하는 정적 검색 랭킹 모델을 적용한 시스템보다 정보 검색 과제별로 사용자 적합성 판단기준의 변화에 따라 랭킹 요소 가중치를 달리한 동적 검색 랭킹 모델을 더 높이 평가하는 것을 확인할 수 있었다. 본 연구는 이를 통해, 정보 검색 과제를 고려한 정보 검색 시스템 디자인의 필요성과 함께, 사용자 중심 적합성 판단 모형 연구 결과를 실제 정보 검색 시스템으로 구현하여 평가함으로써 사용자 중심 적합성 연구 결과의 타당성을 검증하였다는 점, 그리고 사용자 연구 접목을 통한 시스템 개선의 중요성을 강조하였다는 점에서 의의를 가진다.

  • PDF

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

  • 노대욱;이수용;나동열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.160-168
    • /
    • 2007
  • 문서분류기의 개발에 있어 지도학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비지도 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발 할 수 있음을 제시하였다.

화물 검색 시스템을 위한 듀얼 에너지 X-ray 검색기 영상을 이용한 물질 추정 방법 (Material Estimation Method Using Dual-Energy X-Ray Image for Cargo Inspection System)

  • 이태범;강현수
    • 한국산업정보학회논문지
    • /
    • 제23권1호
    • /
    • pp.1-12
    • /
    • 2018
  • 본 논문은 듀얼 에너지 X-ray 검색기의 영상을 이용한 물질의 추정 방법 알고리즘을 제안한다. 물질 추정 알고리즘으로 많이 사용되는 기존 4가지 분별 곡선 이외에 로그 함수를 사용한 새로운 분별곡선을 이용하여 물질을 분류한다. 여기에 기존의 선형 보간을 이용한 원자번호 추정 방법이 아닌 확률분포를 이용한 원자번호 추정 방법을 제시한다. 확률분포를 이용한 가중치 계산에는 근접한 두 기준물질을 사용하는 방법과 모든 기준물질을 사용하는 방식, 2가지 방식을 실험하였다. 확률분포를 가중치로 사용하여 물질의 원자번호를 추정 할 경우 기존의 방법보다 더 정확한 원자번호 추정 결과를 나타내었다. 추정된 원자번호를 육안으로 확인하기 위하여 HSI 모델을 이용하여 결과영상에 채색하였다.

통합 영상 특징에 의한 지폐 분류 시스템의 구현 (System Implementation of Paper Currency Discrimination by Using Integrated Image Features)

  • 강현인;최태완
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.471-480
    • /
    • 2002
  • 본 논문에서는 블록화된 영상의 관심영역 가중치 비교 알고리즘과 형상특징 가중치 비교 알고리즘을 결합하여 지폐를 실시간으로 분류하는 시스템을 하드웨어로 구현하였다. 구현된 시스템은 영상획득부, 전처리 및 영상처리부로 구성되어 있다. 영상획득부는 CIS(contact image sensor)에 의해 영상이 얻어지고, A/D 변환기와 PLD에서 전처리를 한다. 영상처리부는 전처리된 영상을 제안된 알고리즘에 의해 DSP에서 수행한다. 제안한 방법은 시뮬레이션을 통해 질의영상과 비교영상간의 식별율을 높일 수 있고 오염되거나 회전, 이동된 지폐에서도 향상된 성능을 가진다. 그리고 제안 방법은 영상의 블록화 효과에 따른 계산량의 감소와 병렬처리를 할 수 있는 시스템으로 구성할 수 있어서 검색율을 높이거나 검색시간을 줄일 수 있는 장점이 있다.

태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현 (Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result)

  • 김용;주원균
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.101-121
    • /
    • 2012
  • 불리언 검색만을 제공하는 정보시스템들은 순위화된 검색 결과를 제공하지 않아 이용자들이 많은 시간을 들여 수많은 결과를 일일이 확인해야하는 단점이 있다. 따라서 본 연구에서는 불리언 검색 모델의 단점을 극복하기 위한 방법으로써 불리언 검색에서 적용되고 있는 색인 가중치 정보 대신에 태그 간의 결합 관계 정보를 이용하여 순위화된 검색 결과를 제공하기 위한 시스템을 제안한다. 본 연구에서 제안하고 있는 방법은 일반적인 키워드 질의 대신에 문서를 질의로 사용하기 때문에 해당 문서에서 질의로 사용하는 핵심태그를 추출한다. 질의 생성 과정에서는 태그결합도에 따라 다양한 그룹의 불리언 질의를 생성하고, 매칭 과정에서는 해당 질의어 그룹 간에 차별성 정보와 태그 중요도 정보를 이용하여 순위화를 처리한다. 본 연구에서 제안하고 있는 방법의 유용성을 평가하기 위하여 선정된 연구정보와 관련된 동향분석정보를 추출하는 과정에 적용하여 실험을 수행하였다. 또한 제안된 방법에 대한 이용자 평가를 위하여 다수의 이용자들을 대상으로 약 1년간 서비스를 제공하였으며 그 결과 높은 이용자 만족도를 확보할 수 있다고 조사되었다.

검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델 (Search Re-ranking Through Weighted Deep Learning Model)

  • 안기택;최우석;박준용;박정민;이경순
    • 정보처리학회 논문지
    • /
    • 제13권5호
    • /
    • pp.221-226
    • /
    • 2024
  • 정보검색에서 질의는 다양한 유형이 존재한다. 추상적인 질의부터 구체적인 키워드를 포함하는 질의까지 다양한 형태로 구성되어 있어서 사용자의 요구에 정확한 결과 도출은 어려운 과제이다. 또한 검색시스템이 오타, 다국어, 코드와 같은 다양한 요소를 포함하는 질의를 다뤄야 하는 특징이 존재한다. 본 연구에서는 질의 유형을 분석하고, 이에 따라 딥러닝 기반 재순위화의 적용 여부를 결정하는 방법을 제안한다. 최근 연구에서 높은 성능을 보인 딥러닝 모델인 DeBERTa를 이용하여 질의에 대한 적합 문서의 학습을 통해 재순위화를 수행한다. 제안 방법의 유효성을 평가하기 위해 국제정보검색 평가대회인 TREC 2023의 상품 검색 트랙(Product Search Track) 테스트컬렉션을 이용하여 실험을 하였다. 실험 결과에 대한 정규화된 할인누적이득(NDCG) 성능측정 비교에서 제안 방법이 정보검색 기본 모델인 BM25 에 비해 질의 오류 처리를 통한 검색, 잠정적 적합성피드백을 통한 상품제목 기반 질의확장과 질의유형에 따른 재순위화에서 0.7810으로 BM25 대비 10.48% 향상을 보였다.

YIN 피치 정보를 이용한 음악 정보 검색 시스템 구현 (Implementation of Music Information Retrieval System using YIN Pitch Information)

  • 석수영;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1398-1406
    • /
    • 2007
  • 최근 급격히 증대되고 있는 멀티미디어 데이터를 사용자에게 편하고 효과적으로 제공하는 것은 내용 기반 정보 시스템의 핵심적인 요소이다. 허밍을 이용한 음악 검색 시스템은 사용자가 찾고자 하는 음악의 선율 중 일부분을 직접 허밍으로 입력하여 데이터베이스로부터 음악을 검색할 수 있는 편리한 방법이다. 일반적인 음악 정보 검색 시스템은 고정도의 피치 검출 방법을 필요로 하고 있으나 허밍의 입력으로부터 정확한 피치 정보를 검출하기에는 어려움이 있다. 본 논문에서는 시스템의 성능 향상을 위해 기본적인 고정도 피치 정보 추출을 위해 신뢰도가 적용된 YIN 파라미터의 이용을 제안하고, 이를 적응하여 개발한 허밍을 이용한 음악 정보 검색 시스템에 대해 소개한다. 개발된 시스템은 음고, 음장 정보 및 에너지에 가중치를 두어 연속 DP 매칭을 수행하여 시스템의 성능을 향상시켰다. 성능평가를 위해 실시한 검색 실험결과 기존의 음고 정보 추출방법 중 캡스트럼 기반 다중 피치 검출 방법에 비해 본 논문에서 제안한 신뢰도를 적용한 YIN 피치 검출방법이 1위 결과에서 9.1%, 10위 결과에서는 7.2% 성능 향상을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 또한 전체 시스템의 성능은 155곡을 대상으로 10위까지의 결과에서 92.8%의 성능을 나타내었다.

  • PDF

MPEG-7 디스크립터들의 조합을 이용한 영상 검색 (Image Retrieval Using a Composite of MPEG-7 Visual Descriptors)

  • 강희범;원치선
    • 방송공학회논문지
    • /
    • 제8권1호
    • /
    • pp.91-100
    • /
    • 2003
  • 본 논문에서는 MPEG-7 영상 디스크립터 중 에지 히스토그램 디스크립터(EHD), 컬러 레이아웃 디스크립터(CLD), 그리고 호모니어스 텍스쳐 디스크립터(HTD)로 구성된 각각의 영상 데이터베이스를 조합하여 렐러번스 피드백을 적용한 영상 검색 방법을 제안한다. 본 논문에서 사용한 에지 히스토그램 디스크립터는 영상의 국부적인 방향성 에지 분포를 표현한 것으로서 영상에 대하여 그 내용물의 형태를 잘 표현하는 디스크립터이다. 컬러 레이아웃 디스크립터는 구조적인 단순함과 빠른 동작 속도에 의해 영상 검색에 넓게 사용되어지며 컬러의 공간적 분포로 표현된다. 호모지니어스 텍스쳐 디스크립터는 영상의 질감에 대하여 정밀한 통계상의 분할로 서술된다. 앞에서 언급한 디스크립터들은 각각의 특징을 반영한 영상 검색에 적용되어 진다. 렐러번스 피드백은 영상 검색에 있어 사용자가 요구하는 정보를 반영할 수 있어 영상의 검색 효율을 높일 수 있다. 제안한 방법은 사용자가 렐러번스 피드백으로 결정한 영상의 특징 정보가 각각의 디스크립터들에 새로운 가중치를 부여한다. 따라서, 사용자의 선택적 요구가 반영된 특징 정보 갱신을 통해 검색 효율을 높인다. 자연 영상에 대한 실험 결과로 제안한 방법이 검색 성능을 향상시켜주는 것을 확인할 수 있다.

VQ를 이용한 영상의 객체 특징 추출과 이를 이용한 내용 기반 영상 검색 (Representative Feature Extraction of Objects using VQ and Its Application to Content-based Image Retrieval)

  • 장동식;정세환;유헌우;손용준
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권6호
    • /
    • pp.724-732
    • /
    • 2001
  • 내용 기반 영상 검색을 위해 본 연구에서는 VQ(Vector Quantization)을 이용하여 영상을 구성하는 주요 객체들의 특징 추출 방법을 제안한다. 내용 기반 영상 검색 시스템에서 사용되는 영상의 주요특징으로는 색상, 절감, 형태 및 영상을 구성하고 있는 객체들의 공간적 위치 등이 있다. 이 중 본 논문에서는 일반적인 색상 및 질감 특징 추출방법과 더불어 VQ 멕터 클러스터링 알고리즘을 이용하여 정지영상을 구성하고 있는 객체들의 대표 색상과 질감 특징을 빠르게 추출하고 이를 내용 기반 검색에 이용함으로써 정지영상의 내용에 근거한 검색을 하였고 객체 단위 검색을 함으로써 객체의 위치, 회전 및 크기 변화에 무관한 검색을 가능케 했다. 연구의 실험 결과 VQ를 이용함으로써 대표특징치 추출시간을 줄일수 있었고 검색시 색상과 질감 특징의 가중치를 각각 0.5, 0.5로 주는 것이 가장 높은 검출율을 보였으며, ‘사람’영상에 제한한 방법을 적용한 경우 90%의 검출율을 보였다.

  • PDF