• 제목/요약/키워드: 유사성 질의

검색결과 947건 처리시간 0.028초

질의분해 적합성 피드백을 이용한 검색시스템의 성능 증진에 관한 연구 (A Study on Improving the Effectiveness of Retrieval System Using Query Splitting Relevance Feedback)

  • 김영천;박병권;이성주
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.231-235
    • /
    • 2001
  • 순수한 부울 검색 시스템은 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 본 논문에서는 높은 검색 효과를 제공하는 질의분해 적합성 피드백(QSRF) 모델을 제안한다. 질의 분해 적합성 피드백 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성 (An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback)

  • 안홍국;고영중;서정연
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

데이터 추상화와 퍼지 관계를 이용한 근사적 질의응답에 관한 연구

  • 허순영;문개현
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.302-305
    • /
    • 2000
  • 본 논문은 데이터베이스에 존재하는 데이터 값들 사이의 유사성에 관한 지식을 이용하여 사용자가 요구한 정확한 답뿐 아니라 그와 유사한 답까지 제공해 줄 수 있는 근사적 질의처리 기법을 제시한다. 이를 위하여, 계량적인 방법에 해당하는 퍼지 관계와 비계량적인 방법에 해당하는 데이터 추상화를 하나로 통합한 유사성 표현 프레임웍을 제시하고 그를 이용한 지식 베이스를 설계한다.

  • PDF

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

GB-색인: 고차원 데이타의 복합 유사 질의 및 적합성 피드백을 위한 색인 기법 (GB-Index: An Indexing Method for High Dimensional Complex Similarity Queries with Relevance Feedback)

  • 차광호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.362-371
    • /
    • 2005
  • 멀티미디어 데이타베이스와 같은 고차원 응용에서 유사 색인과 검색은 어려운 문제이며, 특히, 다수의 특성을 함께 색인하는 경우에는 더욱 어렵다. 본 논문에서는 고차원 이미지 데이타베이스에서 복합 유사 질의 및 적합성 피드백을 효율적으로 처리하기 위한 새로운 색인 기법인 GB-색인을 제시한다. GB-색인은 각 특성 차원을 독립적으로 처리함으로써 다수의 특성과 다수의 질의 객체를 유연하게 제어한다. 아울러, 비트맵 색인을 통해 데이타베이스에 있는 모든 객체를 비트맵의 집합으로 표현하여 질의를 효율적으로 처리한다. GB-색인의 기술적인 주된 공헌은 다음과 같다: (1) 고차원 데이타를 위한 효율적인 색인, (2) 효율적인 복합 유사 질의 처리, (3) 적합성 피드백을 위한 분리형 질의의 효과적 처리. 실험 결과에 따르면 GB-색인은 순차 탐색 및 VA-파일에 비해 큰 성능 향상을 보였다.

퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting by Fuzzy Infernce)

  • 김주연;김병만;신윤식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.336-338
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정보를 결합하여 후보 용어들의 가중치를 산정 하였다.

  • PDF

내용기반 검색을 위한 분할된 영상객체간 유사도 판별 (Computing Similarities between Segmented Objects in the image for Content-Based Retrieval)

  • 유헌우;장동식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.358-360
    • /
    • 2001
  • 본 논문에서는 내용기반 영상검색중 객체기반검색 방법에 대해 다룬다. 먼저 색상과 질감정보가 동일한 영역을 VQ알고리즘을 이용해 군집화 함으로써 동일한 영역을 추출하는 새로운 영상분할기법을 제안하고, 분할 후에 분할에 사용된 색상과 질감정보, 객체간의 위치정보와 영역크기정보를 가지고 객체간 유사도를 판별하여 영상을 검색한다. 이 때 사용되는 색상의 범위의 몇 개의 주요한 색상으로 표시하기 위해 색상테이블을 사용하고 인간의 인지도에 의해 다시 그룹화 함으로써 계산량과 데이터저장의 효율성을 높인다. 영상검색시에는 질의 영상의 관심객체와 비교대상이 되는 데이터베이스 영상의 여러 객체와의 유사성을 판단하여 영상간의 유사도를 계산하는 일대다 매칭 방법(One Object to Multi Objects Matching)과 질의 영상의 여러 객체와 데이터베이스영상의 여러 객체간의 유사도를 판단하는 다대다 매칭 방법(Multi Objects to Multi Objects Matching)을 제안한다. 또한, 제안된 시스템은 고속검색을 실현하기 위해 주요한 색상값을 키(key)색인화 해서 일치가능성이 없는 영상들은 1차적으로 제거함으로써 검색시간을 줄일 수 있도록 했다.

  • PDF

MMR을 이용한 질의기반 자동 문서요약 (Query-Based Automatic Text Summarization Using MMR)

  • 김금영;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.615-618
    • /
    • 2002
  • 정보검색 엔진들은 주어진 질의에 대해 방대한 양의 문서들을 검색해주며, 이 문서들은 질의와의 관련성에 따라 랭킹(Ranting)된다. 질색된 문서들중에 어떤것들은 그 내용이 서로 유사하여 사용자에게 필요 이상의 정보를 제공한다. 이는 질의와의 관련성(Relevance)만을 적용하고, 검색된 정보들간의 차별성을 고려하지 않은데서 비롯된다. MMR(Maximal Marginal Relevance)은 유사한 문서를 검색결과에서 배제할 수 있게 해주는 기법이다. MMR을 자동에 적용하면, 유사한 문장을 배제하여 상이한 정보들을 전달하는 질 높은 요약문을 생성할 수 있다. 본 논문에서는 MMR을 이용한 질의기반 자동 문서요약 시스템을 구현한다. 또한, MMR과 가중치 수식에 다양한 수치를 적용하고, 최적의 결과를 산출하는 수식을 제안한다.

  • PDF

콘텐트 노드의 유사성 제어를 통한 그래프 구조 데이터 검색의 다양성 향상 (Improving Diversity of Keyword Search on Graph-structured Data by Controlling Similarity of Content Nodes)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.18-30
    • /
    • 2020
  • 최근 소셜 네트워크, 시맨틱 웹 등 여러 분야에서 그래프 구조 데이터가 널리 사용됨에 따라 대량의 그래프 데이터에 대한 효과적이고 효율적인 검색 방법의 필요성이 커지고 있다. 기존 키워드 기반 검색 방법들은 대부분 주어진 질의에 대한 연관도만을 고려하여 결과를 구한다. 그러나 이런 방법은 질의 연관도는 높지만 콘텐트 노드들을 공유하는 유사한 결과들이 함께 선택될 가능성이 높다. 이런 문제점을 개선하기 위해 본 논문에서는 키워드 질의에 대한 답 트리에 포함된 콘텐트 노드들의 유사성을 제어하여 콘텐트 노드가 다양한 답 트리들을 구하는 top-k 검색 방법을 제안한다. 다양한 답 트리 집합의 기준을 정의하고, 다양한 top-k 결과 집합을 구하기 위한 두 가지 방법으로 점진적 나열 알고리즘과 A 탐색 기법을 이용한 휴리스틱 탐색 알고리즘을 설계한다. 또 휴리스틱 탐색의 성능을 높이기 위한 개선 방법을 제시한다. 실 데이터를 이용한 성능 실험 결과를 통해, 본 논문에서 제안한 휴리스틱 탐색 방법이 질의 연관성뿐만 아니라 콘텐트 노드들의 상이도가 높은 다양한 답 트리들을 효율적으로 구할 수 있음을 보인다.

실질적 유사성 판단을 위한 가중치 활용과 질적 분석의 관계 (A Study on the Relationship between Weighted Value and Qualitative Standard in Substantial Similarity)

  • 김시열
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권1호
    • /
    • pp.25-35
    • /
    • 2019
  • 우리나라에서 컴퓨터프로그램의 실질적 유사성 여부 판단은 정량적인 유사도를 산출하여 그 결과를 활용하는 방식이 일반적으로 이용된다. 실질적 유사성은 유사한 부분의 양과 질을 고려하여 판단되어야 하는데, 실무에서는 정량적인 유사도 계산 과정에서 가중치를 곱함으로써 유사한 부분의 질을 고려하는 모습을 보인다. 그런데 실질적 유사성 판단과 관련하여 유사한 부분의 양적, 질적인 고려는 동일한 지위에서 순차적으로 이루어져야 한다는 본질적 특징을 고려할 때, 현재와 같은 실무 방식은 적절하다고 할 수 없다. 이에 이와 같은 가중치 활용의 문제를 지적하고, 실질적 유사성 판단을 위한 유사 부분의 질적 평가는 정량적 유사도 판단에 후행하여 그와 동일한 지위에서 이루어져야 함을 제시 및 이를 위한 적절한 실무적 방안을 제언하였다.