• 제목/요약/키워드: query Expansion

검색결과 130건 처리시간 0.03초

한영 교차언어 정보검색에서 질의 변환 및 질의 확장 방법 (Query Translation and Query Expansion Method in Korean-to-English Cross-Language Information Retreival)

  • 김백일;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-242
    • /
    • 2002
  • 본 논문은 한영 교차언어 정보검색을 위한 질의 변환 방법과 질의 확장에 대해서 기술하고 있다. 한영 교차언어 정보 검색은 한국어 질의와 관련된 영어 문서를 검색하는 것을 말하며, 한국어 질의를 영어 질의로 변환하는 방법을 사용했다. 이를 위해 한국어 단어들에 대한 영어 대역어들의 공기 정보를 이용하며, 공기 정보로는 상호 정보를 사용했다. 또한 한국어와 영어의 연어 사전을 사용하여 성능을 향상시켰다. 추가적인 검색 성능 향상을 위한 방법으로, 기존 연구에서 많이 사용된 적합성 피드백에 의한 지역적 질의 확장 대신, 영어 워드넷을 확장하여 구축한 한영 이중언어 시소러스를 사용하여 질의 확장을 하는 전역적 질의 확장을 시도하였다. 실험결과, 정확률의 향상보다는 재현율의 향상 정도가 더 컸으며, 긴 질의보다 짧은 질의를 확장한 경우가 성능이 높았다.

  • PDF

핵심질의 클러스터를 이용한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graph Using Core Query Clusters)

  • 조승현;장계훈;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.430-432
    • /
    • 2011
  • 본 논문에서는 질의 조합을 기반한 핵심질의 클러스터와 비핵심질의 클러스터를 각각 어휘 그래프로 표현한다. 이 때, 핵심질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 핵심질의 클러스터의 어휘 그래프에서 비핵심질의 클러스터의 어휘 그래프를 빼서 확장어휘를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 테스트컬렉션인 TREC WT10g 에 대해 실험하였고, 언어모델보다 평균정확률의 평균(MAP)이 9.4% 향상되었다.

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

균등 무선 방송에서 사용자 접근 시간 최소화를 위한 데이터 스케쥴링 기법 (A Data Scheduling Method for Minimizing User Access Time in Uniform Wireless Broadcasting)

  • 정연돈;김명호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권9호
    • /
    • pp.1085-1094
    • /
    • 1999
  • 이동 분산 환경에서는 무선 데이타 전송 기법을 통하여 사용자들에게 다양한 정보들을 전달하게 된다. 본 논문은 균등 무선 데이타 방송 환경에서, 빠른 시간에 방송데이타를 접근할 수 있는 방법에 대하여 기술한다. 이를 위하여 무선 방송 데이타의 스케쥴링 문제를 정의하고, 어떤 질의가 접근하는 데이타들의 응집 정도를 나타내는 `질의 거리(Query Distance: QD)'라는 측정 기준을 제시한다. 제안한 질의 거리를 사용하여 각 질의의 우선 순위에 따라 해당 질의가 접근하는 데이타 집합을 방송 스케쥴에 추가하면서 스케쥴을 구성하는 데이타 스케쥴링 기법을 제시한다. 데이타 집합의 스케쥴 구성 과정에서 우선 순위가 높은 질의의 질의 거리를 최소화하면서 낮은 우선 순위 질의들의 질의 거리를 줄이는 스케쥴 확장 규칙들을 사용한다. 예를 이용하여 제안하는 방법에 대하여 설명한 후, 실험을 통해 제안한 방법의 성능을 평가한다.Abstract In mobile distributed systems the data on the air can be accessed by a lot of clients. This paper describes the way clients access the broadcast data in short latency in uniform wireless broadcasting environment. We define the problem of wireless data scheduling and propose a measure, named Query Distance(QD), which represents the coherence degree of data set accessed by a query. By using the measure, we give a data scheduling method that constructs the broadcast schedule by appending each query's data set in greedy way. When constructing the schedule, we use schedule expansion rules that reduce the QD's of lower-frequency queries while minimizing the QD's of the higher-frequency ones. With the use of examples we illustrate the mechanism of the proposed method and we test the performance of our method.

가중치에 따른 질의확장의 검색효율성 (Retrieval Effectiveness of Query Expansion depending on Term Weights)

  • 최성환
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.259-264
    • /
    • 2002
  • 기존의 질의확장 혹은 적합성 피드백 연구에서 코사인 정규화를 사용하여 검색성능을 향상시킨 연구들이 많다. 본 논문에서 실험한 결과를 근거로 하였을 때 이는 낮은 검색성능을 보였던 것이 검색공간의 확장으로 성능이 크게 향상되었을 가능성이 있다. 실험결과 가중치 유사도 모델간의 커다란 차이는 보이지 않고 코사인정규화 가중치 알고리즘에서 상당한 성능향상이 있었다. 그러나 기존의 코사인정규화 가중치 알고리즘을 이용한 전역적 질의확장의 경우 성능 향상률은 높으나 원질의어를 이용하여 가장 좋은 성능을 보였던 가중치 알고리즘들의 검색성능과 비교하면 오히려 낮은 성능을 보였다.

  • PDF

질의확장 검색에서의 추가용어 가중치 최적화 (Optimizing the Weight of Added Terms in Query Expansion)

  • 정영미;이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.241-246
    • /
    • 2002
  • 전역적 질의확장 검색에서 단어간 공기기반 유사도를 사용할 경우에는 질의에 추가되는 용어에 부여하는 탐색가중치로 질의와의 유사도를 사용하는 것이 일반적이다. 그러나 과연 유사도가 탐색가중치로 최적인가는 의문의 여지가 있다. 추가용어와 질의 사이의 유사도가 가지는 특성을 살펴보고 고정가중치를 부여한 경우와 비교해보았다. 또한 실험집단이나 확장범위의 영향을 덜 받는 최적화된 추가용어 가중치를 찾기 위해 여러 가지 탐색가중치 공식을 실험하였다.

  • PDF

LSI에서 질의 확장을 이용한 실험 (Experiments using query expansion in LSI)

  • 안성수;김동주;이기영;김한우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.151-153
    • /
    • 1999
  • 한번의 질의로 사용자가 모든 요구를 표현하기 어렵고 만족시킬 수 없기 때문에 질의를 확장하는 연구가 계속되고 있다. 본 논문에서는 LSI(Latent Semantic Indexing)에서 사용자의 질의와 의미공간에서의 용어들간의 유사도를 구해 최상위의 용어들을 순서를 정해 질의확장을 하는 방법과 LCA(Local Context Analysis)을 이용하는 방법을 제안한다. 그리고 문서 집합에 대해 3가지 가중치를 적용한 결과를 분석하고 질의확장시의 문제점과 향후 연구과제에 대해 설명한다.

  • PDF

퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting by Fuzzy Infernce)

  • 김주연;김병만;신윤식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.336-338
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정보를 결합하여 후보 용어들의 가중치를 산정 하였다.

  • PDF

검색 문헌의 인용 분석을 통한 질의확장의 성능 평가 연구 (An Evaluation of the Performance of Query Expansion Using Citation Information of Retrieved Documents)

  • 유소영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.305-310
    • /
    • 2005
  • 이 연구에서는 주제검색을 통해 검색된 문헌들의 인용정보를 이용한 질의확장 기법을 제안하였으며 이 제안된 기법의 성능을 일반적 질의확장 기법인 지역적 질의확장 및 전역적 질의확장과 비교 평가하였다. 연구 결과 인용기반 질의확장 기법이 전역적 및 지역적 질의확장 기법에 비해 우수한 성능을 보임을 확인하였으며, 특히 피인용 표제어를 이용한 질의확장 검색의 효용성을 실험을 통해 밝혀냈다.

  • PDF

질의확장에 의한 단락검색의 성능 향상에 관한 연구 (A Study on the Improvement of Retrieval Performance Query Expansion in Passage-based Retrieval)

  • 박지연;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.143-148
    • /
    • 2001
  • 본 연구에서는 공기기반 질의-용어간 유사도를 이용한 질의확장을 통해 단락검색의 성능을 향상시키는 방안을 제시하고자 하였다 실험을 통해 전체 문헌집단에 출현한 용어들의 공기정보에 기반한 전역적 질의확장과 이용자의 피드백 없이 초기검색 결과 중 상위 10개 문헌에 출현한 용어들의 공기정보에 기반한 지역적 질의확장의 성능을 비교하고 각각의 성능을 향상시키는 방법을 모색하였다. 마지막으로 문헌집단의 전역 정보와 지역 정보를 함께 이용하는 방안을 제시하고 그 성능을 평가하였다.

  • PDF