• 제목/요약/키워드: 검색가중치

검색결과 400건 처리시간 0.021초

유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성 (An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback)

  • 안홍국;고영중;서정연
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

칼라공간과 키워드를 이용한 내용기반 화상검색 시스템 설계 및 구현 (A Design and Implementation of a Content_Based Image Retrieval System using Color Space and Keywords)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1418-1432
    • /
    • 1997
  • 일반적인 내용기반 화상 검색 기법은 검색 인덱스로서 칼라와 텍스쳐를 사용하며, 칼라기법인 칼라히스토그램과 칼라쌍 검색 기법은 공간정보와 텍스트가 부족하다. 따라서 본 논문은 칼라공간과 키워드를 결합한 내용 기반 화상 검색시스템을 설계하고 구현하였다. 화상검색을 위한 전처리기에서는 기존의 HSI(Hue, Saturation, Intensity) 좌표계를 사용하였고, 화상으로부터 색채 영역과 비색채영역을 검출해 내었다. 화상의 크시는 200*N 또는 N*200으로 정규화하고 256칼라로 변환시킨다. 칼라 공간으로 칼라 선택을 결정하기 위해서는 배경과 색채를 위한 2개의 칼라히스토그램을 사용한다. 공간정보는 최대 엔트로피 이산화를 사용함으로써 얻어진다. 키워드는 화상의 종류, 칼라, 모양, 위치, 크기를 선택 가능하도록 했으며, 입력되는 색채에 대해서는 한국 공업 규격의 유채색과 무채색 15가지 색으로 제한하였다. 화상검색 방법은 유사도 검색의 특징 키로 사용하였고, 화상 검색시 특정 성분의 가중치에 따른 검색을 위해 사용자는 질의어 입력시 칼라공간 ${\alpha}(%),\;키워드\;{\beta}(%)$등의 가중치를 화상 내용 특징에 따라 그 값을 조절하여 부여할 수 있는 방안을 개발하였다. 질의 화상에 대한 칼라공간, 키워드와 같은 추출된 특징중 하나의 특징으로 검색 실험한 결과는 가중치를 부여하여 실험한 결과보다 검색 효율이 낮았으며 가중치를 부여한 경우 측정된 파라메타의 평균치는 Precision(0.858), Recall(0.936), RT(1), MT(0)를 보임으로써 칼라공간, 키워드 내용기반 화상 검색 시스템들 보다 높은 검색 효율을 입증해 보였다.

  • PDF

연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산 (Calculation of similarity by weighting title and summary in word co-occurrence of research reports)

  • 김남훈;주종민;박혁로;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.37-40
    • /
    • 2017
  • 본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

  • PDF

교차언어 문서검색에서 중의성 해소를 위한 가중치 부여 및 질의어 구조화 방법 (Weighting and Query Structuring Scheme for Disambiguation in CLTR)

  • 정의헌;권오욱;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 2001
  • 본 논문은 사전에 기반한 질의변환 교차언어 문서검색에서, 대역어 중의성 문제를 해결하기 위한, 질의어 가중치 부여 및 구조화 방법을 제안한다. 제안하는 방법의 질의 변환 과정은 다음의 세 단계로 이루어진다. 첫째, 대역어 클러스터링을 통해 먼저 질의어 단어의 적합한 의미를 결정짓고, 둘째, 문맥정보와 지역정보를 이용하여 후보 대역어들간의 상호관계를 분석하며, 셋째, 각 후보 대역어들을 연결하여, 후보 질의어를 만들고 각각에 가중치를 부여하여 weighted Boolean 질의어로 생성하게 된다. 이를 통해, 단순하고 경제적이지만, 높은 성능을 낼 수 있는 사전에 의한 질의변환 교차언어 문서검색 방법을 제시하고자 한다.

  • PDF

가중치 벡터합을 이용한 이동객체의 방향계산 및 미디어 검색방법 (A Direction Computation and Media Retrieval Method of Moving Object using Weighted Vector Sum)

  • 서창덕;한기태
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.399-410
    • /
    • 2008
  • 본 논문은 기존 위치기반 서비스에서 최근접질의 및 한 지점에서의 방향성분을 고려한 최근접질의의 단점을 해소하고자 가중치 벡터합을 이용하는 새로운 검색방법을 제안한다. 검색반경으로 1차 필터링된 영역에서, 2차 필터링을 위해 이용자의 이동방향, 관심방향 및 검색각도를 조합한 방향정보를 이용한다. 이동방향은 일정구간내 존재하는 벡터들의 가중치 합으로 계산하며, 검색각도를 $0{\sim}360^{\circ}$까지 세분화하여 검색방향에 대한 범위를 조절 하도록 한다. 본 검색방법에 사용되는 데이터는 촬영위치가 기록된 정지영상 및 동영상, 업체나 관광지의 위치정보와 함께 소비자에게 제공되는 텍스트, 웹, 영상 등 각종 미디어 형태의 데이터가 될 수 있다. 제안하는 방법은 이동 중인 이용자가 현 위치를 기준으로 일정 반경 내에 있으면서 유사방향에 부합하는 미디어만을 검색하도록 함으로써, 이미 지났거나 혹은 관련 없는 방향의 미디어를 배제한 검색결과를 제공하기 때문에 기존의 위치만을 고려한 검색방법에 비해 보다 정확한 검색을 보장할 수 있으며, 방향성을 고려한 기존 최근접질의 에 비해서도 보다 유연하고 포괄적인 검색결과를 보장한다.

사용자 질의를 이용한 XML 태그의 가중치 결정 (Weighting of XML Tag using User's Query)

  • 우선미;유춘식;김용성
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.439-446
    • /
    • 2005
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

모바일 환경에서 파일 검색 엔진을 위한 효과적인 방식 (Effective Scheme for File Search Engine in Mobile Environments)

  • 조종근;하상은
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.41-48
    • /
    • 2008
  • 본 논문에서는 파일 검색 엔진에 대해 모델링하고, 파일 검색의 정확도와 속도 향상을 위해 파일내의 내용들을 이용한 가중치 값 기반의 파일 검색 방식을 제안한다. 대부분의 파일 검색 엔진들은 빠른 검색 속도의 한계로 KMP와 같은 스트링 매칭 알고리즘을 사용해 왔다. 그러나, 이런 종류의 알고리즘들은 사용자가 원하는 파일들을 정확하게 찾아 주지는 못한다. 따라서, 모바일 환경에서 파일내의 내용들을 이용한 가중치 값 기반의 검색 엔진을 제안하고, 기존 방법들과 비교를 통해 제안한 방법의 우수한 성능을 증명한다.

시소러스범주정보를 이용한 질의응답시스템 (A Question Answering System Using the Information of the Category Information of Thesaurus)

  • 김수민;백대호;김상범;임해창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

사전 의미 기반의 질의확장 검색에서 추가 용어 가중치 최적화 (Optimizing the Additional Term Weight Ratio in Query Expansion Search based on Dictionary Definition)

  • 최영란;전유정;박순철
    • 한국산업정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.45-53
    • /
    • 2003
  • 본 연구가 갖는 중요성은 두 가지로 요약된다. 첫째는 질의 확장 검색 방법으로 사전에서 나타나는 용어를 질의의 추가용어로 채택하는 것이다. 이 방법은 기존의 피드백 확정 방법이 갖는 2차적 검색 과정을 줄인다. 둘째는 초기 질의어와 추가용어 사이에 가중치를 달리 적용하여 재현율과 정확률을 동시에 높일 수 있는 최적의 모델을 제시하였다. 이렇게 함으로써 정보 검색의 성능을 크게 향상시킬 수 있는 방법을 제시하고 있다.

  • PDF