• 제목/요약/키워드: 검색 순위화

검색결과 123건 처리시간 0.023초

웹 문서의 구조적 정보 활용 사례에 관한 고찰 (A Survey on Example using Structural Information of Web documents)

  • 김철수;김양범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1011-1014
    • /
    • 2003
  • 브라우저를 통해서 보는 웹 문서는 보이는 문서 내용 이외에 많은 풍부한 정보들을 원시 문서에 포함하고 있다. 웹 문서 색인 및 분류 과정에서 이런 관련 정보를 효율적으로 사용한다면 색인어에 가중치를 부여하거나 문헌 분류과정에서 밀접하게 관련된 문헌들끼리 분류가 가능하다. 잘 색인된 색이어 집합 및 잘 분류된 문헌 집합은 검색자의 질의어에 대한 검색 견과의 문헌집합들에 대한 문헌 순위화를 효율적으로 수행하여 사용자로 하여금 검색 시간을 줄여줄 수 있다. 본 논문에서는 웹 문서를 대상으로 한 검색 시스템에서 검색 효율을 향상시키기 위하여 웹 문서의 구조적인 정보들을 이용한 방법들에 대하여 고찰해 본다. 색인 과정, 문헌 분류과정 순위화 과정에서 활용한 방법들에 대하여 중점적으로 살펴본다.

  • PDF

순위화시스템의 효과측정척도에 관한 연구 (A Study on the Measurement of the system effectiveness with ranked results)

  • 노정순
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.67-81
    • /
    • 2000
  • 본 연구는 IR시스템 평가에 가장 많이 사용되는 R과 P가 순위화된 검색결과를 제공하는 시스템의 효과를 측정하는데 적절한가를 논의하고, R과 P 대신 순위화된 검색결과를 평가하는데 사용되고 있는 평가척도들을 고찰하고, 새로운 평가척도를 제안하였다. 또한 이들 평가척도가 어떤 환경에서 타당한지를 이론적으로 규명하고 사례를 들어 검증하였다. 11-포인트 평균정확률(평균)이 11-포인트 평균정확률(최고)보다 판별력이 있는 것으로 나타났고, 보다 간편한 여러 측정척도가 11-포인트 평균정확률을 대신할 수 있을 정도로 충분히 유사도가 높은 것으로 검증되었다.

  • PDF

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

버그리포트를 이용한 정보검색 기반 테스트케이스 우선순위화 기법 (A Technique for Test Case Prioritization based on IR using Bug Report)

  • 안준;염창선;김정호;이은석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1023-1026
    • /
    • 2015
  • 비용 효율적인 소프트웨어 유지보수 방안에 대한 기대가 높다. 본 논문에서는 유지보수 비용을 감소시키기 위해 회귀 테스트에 사용되는 테스트케이스를 효과적으로 우선순위화하는 방안을 제안한다. 테스트케이스를 우선순위화하는 방법으로는 코드의 커버리지를 이용해 테스트케이스의 우선순위를 높이는 방법과 모델 기반 테스트케이스 우선순위화 방법 등 여러 가지 방법이 제안되어 왔다. 본 논문에서는 소스코드, 커밋 로그와 버그리포트의 정보를 이용해 정보검색 기반의 테스트케이스 우선순위화 기법을 제안한다. 변경된 소스코드 이력은 새로운 기능의 업데이트 유무를 확인 할 수 있으며, 결함으로 수정된 파일을 추측할 수 있다. 버그 리포트는 소스코드의 결함에 대한 정보를 담고 있다. 제안한 방법의 유효성을 확인하기 위해 오픈소스 프로젝트(Joda-Time, Commons-Lang)를 이용해 실험을 진행하였다. 실험을 통해 소스코드, 커밋 로그와 버그리포트로 테스트케이스 우선순위화 방법의 유효성을 확인했으며, 버그리포트를 적용해 테스트케이스 우선순위화 기법을 이전 연구에 비해 최대 8% 향상된 결과를 확인 할 수 있었다.

사용자 개인 프로파일을 이용한 개인화 검색 기법 (Personalized Search Technique using Users' Personal Profiles)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.587-594
    • /
    • 2019
  • 본 논문은 사용자의 검색 의도와 개별 관심을 반영한 순위화된 검색 결과 문서를 제공하는 개인화 검색 기법을 제안한다. 개인화 검색에서는 사용자의 개별 관심사와 선호도를 정확하게 판별하기 위한 사용자 프로파일을 생성하는 기술이 개인화 검색의 성능을 좌우한다. 개인 프로파일은 사용자의 최근 입력 질의어들과 검색과정에서 참조했던 문서들에 나타나는 주제어들의 가중치와 빈도가 기록된 데이터 집합이다. 사용자 프로파일은 웹 검색에 앞서 사용자의 입력 질의어를 개인화된 질의어들로 확장하기 위해 사용된다. 중의적 질의어의 정확한 의미를 결정하기 위해서 워드넷을 사용하여 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 검색 시스템의 사용자 측에 질의확장 모듈과 순위 재계산 모듈을 확장모듈로 구축하여 진행한 실험에서 개인화 검색 기술을 적용한 실험 결과가 상위문서들에 대해서 정확률과 재현률이 크게 향상된 성능을 보이고 있다.

시멘틱 웹 환경에서의 개인화 검색 (Personalized Search Service in Semantic Web)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.533-540
    • /
    • 2006
  • 웹에 분산된 모든 윈 페이지는 구조가 서로 다르다. 시멘틱 웹 환경은 이형적인 구조를 갖는 웹 페이지들의 메타데이터 바탕으로 시멘틱 검색이 가능하다. 그러나 일반적으로 사용자의 요구에 따른 시멘틱 김색은 상황에 따라 엄청난 수의 검색 결과를 내놓는다. 따라서 검색 결과에 대해 각 사용자에 맞는 검색 결과 순위를 적용할 필요가 있다. Culture Finder는 시멘틱 웹 검색 에이전트들이 개인화 된 문화 정보를 검색할 수 있도록 도움을 준다. Culture Finder는 웹에 존재하는 각 웹 페이지에 대한 메타 데이터를 작성하고, 시멘틱 검색을 이행하며 사용자 프로파일을 기반으로 삼아 검색 결과에 대한 순위 점수를 계산한다. Culture Finder에는 개인화 된 시멘틱 검색을 효율적으로 실행하기 위해 중요한 5가지 기법이 적용되었다. 사용자의 검색 행위로부터 사용자 프로파일을 생성하기 위한 기계 학습기법, 시멘틱 웹 검색 에이전트를 위한 효율적인 시멘틱 검색 기법, 사용자 질의의 효과적인 파악을 위한 질의 분석 기법, 각 사용자에게 적합한 검색 결과를 제공하기 위한 순위 적용 기술, 메타데이터를 생성하기 위한 상위 온톨로지 표현 방법, 본 논문에서는 Culture Finder의 구조를 통해서 시멘틱 개인화 검색에 대한 기법을 제안한다.

질문-단락 간 N-gram 주의 집중을 이용한 단락 재순위화 모델 (Passage Re-ranking Model using N-gram attention between Question and Passage)

  • 장영진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.554-558
    • /
    • 2020
  • 최근 사전학습 모델의 발달로 기계독해 시스템 성능이 크게 향상되었다. 하지만 기계독해 시스템은 주어진 단락에서 질문에 대한 정답을 찾기 때문에 단락을 직접 검색해야하는 실제 환경에서의 성능 하락은 불가피하다. 즉, 기계독해 시스템이 오픈 도메인 환경에서 높은 성능을 보이기 위해서는 높은 성능의 검색 모델이 필수적이다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 오픈 도메인 기계독해를 위한 단락 재순위화 모델을 제안한다. 제안 모델은 합성곱 신경망을 이용하여 질문과 단락을 구절 단위로 표현했으며, N-gram 구절 사이의 상호 주의 집중을 통해 질문과 단락 사이의 관계를 효과적으로 표현했다. KorQuAD를 기반으로한 실험에서 제안모델은 MRR@10 기준 93.0%, Top@1 Precision 기준 89.4%의 높은 성능을 보였다.

  • PDF

검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델 (Search Re-ranking Through Weighted Deep Learning Model)

  • 안기택;최우석;박준용;박정민;이경순
    • 정보처리학회 논문지
    • /
    • 제13권5호
    • /
    • pp.221-226
    • /
    • 2024
  • 정보검색에서 질의는 다양한 유형이 존재한다. 추상적인 질의부터 구체적인 키워드를 포함하는 질의까지 다양한 형태로 구성되어 있어서 사용자의 요구에 정확한 결과 도출은 어려운 과제이다. 또한 검색시스템이 오타, 다국어, 코드와 같은 다양한 요소를 포함하는 질의를 다뤄야 하는 특징이 존재한다. 본 연구에서는 질의 유형을 분석하고, 이에 따라 딥러닝 기반 재순위화의 적용 여부를 결정하는 방법을 제안한다. 최근 연구에서 높은 성능을 보인 딥러닝 모델인 DeBERTa를 이용하여 질의에 대한 적합 문서의 학습을 통해 재순위화를 수행한다. 제안 방법의 유효성을 평가하기 위해 국제정보검색 평가대회인 TREC 2023의 상품 검색 트랙(Product Search Track) 테스트컬렉션을 이용하여 실험을 하였다. 실험 결과에 대한 정규화된 할인누적이득(NDCG) 성능측정 비교에서 제안 방법이 정보검색 기본 모델인 BM25 에 비해 질의 오류 처리를 통한 검색, 잠정적 적합성피드백을 통한 상품제목 기반 질의확장과 질의유형에 따른 재순위화에서 0.7810으로 BM25 대비 10.48% 향상을 보였다.

클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장 (User Query Expansion Through Keyword Similarity Ranking Algorithm Us ins Cluster ing Methods)

  • 이상훈;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.479-481
    • /
    • 2003
  • 본 논문에서는 여러 가지 클러스터링 기법들을 사용하여 키워드 유사도롤 순위화하여 사용자의 질의를 확장하는 기법을 제안한다. 클러스터링 기법에는 연관(Association) 클러스터링, 메트릭(Metric) 클러스터링, 스칼라(Scalar) 클러스터링 기법을 사용하고, 이들간의 가중치를 적절히 조절하여 검색 시스템을 만든다. 사용자의 질의가 주어졌을 때, 질의 키워드와 연관된 키워드들을 순위화 하여 사용자에게 보여주고, 사용자의 추가입력을 받아서 질의를 확장한다. 사용자가 적당한 질의어로 판단하여 확장된 질의로 검색을 수행할 때까지 이 과정을 반복한다. 실험에서 사용한 문헌집합은 Korea Herald의 2003년 1월과 2월의 경제 관련 기사들을 수집하여 사용하였고, 실험을 거쳐서 질의를 확장한 결과 만족할 만한 결과가 도출되었다.

  • PDF

사용자에 따라 검색 결과의 순위를 적용하는 DQL 검색 시스템 (DQL Search System That Apply Ranking Of Search Result)

  • 김제민;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.589.1-591
    • /
    • 2004
  • 현재 웹 서비스에서 사용하고 있는 키워드 기반 검색은 syntactic한 정보만을 제공한다. 웹 서비스의 이러한 단점을 보안하고자 시멘틱 웹 기술이 제안되고 있다. DQL 검색 시스템은 검색 결과의 질을 향상시키기 위해서 시멘틱 웹 기반의 검색 시스템 중지 하나다. 시멘틱 검색은 입력된 질의들을 통해서 사용자가 원하는 정보와 의미가 일치하는 결과를 얻어내는 것이다. 본 논문은 시스템을 이용하는 각 사용자에 따라 검색되는 결과들에 우선순위를 적용하는 DQL 검색 시스템을 제안하고 다음 3가지 부분에 중점을 두어 시스템을 설계하였다. 첫째, 각 사용자들의 성향을 검색 결과에 반영하기 위해 개인화 프로파일과 온톨로지를 생성하는 개인화 온톨로지 생성기를 설계한다. 둘째. 검색 정확도틀 논이기 위해 검색 대상에 되는 정보들의 숙성과 관계를 추론해주는 검색 엔진을 설계한다. 마지막으로 DQL 검색 시스템의 사용 효율성을 높이기 위해 사용자가 입력한 키워드를 DQL로 자동 변환하는 DQL 컨버터를 설계한다.

  • PDF