• 제목/요약/키워드: 질의 분석

검색결과 9,985건 처리시간 0.041초

질의 재구성 알고리즘의 검색성능을 측정하기 위한 새로운 평가 방법의 개발 (Development of New Retieval Performance Measures for Query Reformulation Algorithms)

  • 김남호
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.963-972
    • /
    • 1997
  • 정보 검색에서 대부분의 질의 재구성 알고리즘들은 초기 입력 문서나 피드백 문을 이용 하여 질의를 재구성하므로, 질의 재구성 알고리즘의 검색 성능은 입력되는 문서들의 질 에 따라 달라진다. 본 연구에서는 질의 재구성 알고리즘의 입력 문서에 대한 성능 감도를 새로운 검색성능 평가방법을 개발하여 분석하였다. 또한 CIRA라고 불리는 새로운 평가기준을 개발하여 질의 재구성 사이의 성능 변화추이를 분석하였다. 세가지의 질의 재구성 알고리즘(질의나무 (query tree), DNF 방법, Dillon 방법)의 감도와 성능변화를 테시트 세트인 CACM, CISI, Medlars 상에서 분석하였다. 세 실험에서 질의나무가 가장 작은 CIRA를 취득했으며, 감도 분석에서는 비록 다른 알고리즘과 차이는 적으나 가장 높은감도를 나타냈다.

  • PDF

클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석 (An Analysis of Query Types and Topics Submitted to Navel)

  • 박소연;이준호;김지승
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.265-278
    • /
    • 2005
  • 웹 검색 분야의 대부분의 선행 연구들은 검색 질의를 살펴본 연구자의 판단에 근거하여 질의의 주제를 분석하였다. 그러나 웹 검색 질의의 주제 분야가 방대하고 다양하여서 이용자가 검색 결과에서 실제로 조회한 문서를 모르는 상태에서 연구자의 판단에 근거하여 질의의 주제를 분류하기에는 한계가 있다. 이에 본 연구에서는 1년 동안 네이버 이용자들이 입력한 질의를 기록한 질의로그와 질의에 대한 검색 결과에서 이용자가 조회한 문서를 기록한 클릭 로그에 근거하여 국내 웹 검색 질의의 형태 및 주제를 분석하였다. 질의를 형태별로 분류한 결과 사이트 검색 질의가 내용 검색 질의보다 많은 것으로 나타났다. 또한 이용자들이 전반적으로 가장 많이 검색한 주제는 컴퓨터/인터넷. 엔터테인먼트, 쇼핑, 게임. 교육 순으로 나타났다. 본 연구의 결과는 인터넷 포탈 업체들의 효과적인 컨텐츠 구축 및 효율적인 검색 시스템 개발에 기여할 것으로 기대된다.

한국어 질의응답시스템에서 구문정보에 기반한 질의분석 (Question Analysis based Syntactic Information in Korean Question Answering System)

  • 신승은;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.931-933
    • /
    • 2004
  • 본 논문에서는 한국어 질의응답시스템에서 정확한 정답추출을 위한 구문 정보에 기반한 질의분석을 제안한다. 질의분석은 세부 정답 유형 결정, 세분화된 키워드 추출을 통해 정확한 정답추출을 목적으로 한다. 술어 유형 정보를 이용하여 대분류 수준의 정답 유형으로 질의분석을 수행하고. 구문 구조 정보를 이용하여 중요 키워드와 일반 키워드를 추출한다 마지막으로 정답 유형 자질 명사를 이용하여 세부 정답 유형을 결정한다. 실험을 통해 세부 정답 유형 결정에서 정확률 59%, 세분화된 키워드 추출에서 정확을 66%를 보였다.

  • PDF

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

동적 다변량 그래프의 연속적 분석을 위한 질의 모델 설계 및 구현 (A Query Model for Consecutive Analyses of Dynamic Multivariate Graphs)

  • 배예찬;함도영;김태양;정혜진;김동윤
    • 컴퓨터교육학회논문지
    • /
    • 제17권6호
    • /
    • pp.103-113
    • /
    • 2014
  • 본 연구에서는 동적 다변량 그래프 데이터의 연속적 분석이 가능한 질의 모델을 설계 및 구현하였다. 먼저, 질의 모델을 판별함수 설정과 시간에 따른 통합 방법 선택의 두 단계로 설계하고, 질의 패널, 그래프 시각화 패널, 속성 패널로 구성된 질의 시스템으로 구현하였다. 또한, 그래프 표현에는 노드-링크 다이어그램과 Force-Directed Graph Drawing 알고리즘을 이용하였으며, 질의 결과로 선택된 대상들에 효과를 적용하여 사용자가 시각적으로 구분할 수 있도록 처리하였다. 마지막으로, 세계 소형 무기 거래량 데이터를 이용하여, 본 연구에서 설계한 동적 다변량 그래프 질의 모델을 검증하였다. 본 연구는 동적 그래프의 연속적 분석이 가능한 새로운 질의 모델을 설계하는 것을 통해, 기존 모델이 동적 그래프를 시점별로 이산적으로만 분석할 수 있는 한계를 개선하였다는데 의의가 있다. 본 연구는 추세 분석이나, 복잡계 네트워크 해석 등 동적 그래프를 사용하는 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

공간 데이터 웨어하우스에서 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법 (The Extended Cube Tree for Distribution Area Query Processing in Spatial Data Warehouses)

  • 최준호;유병섭;박순영;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.76-78
    • /
    • 2004
  • 최근 원격 탐사 시스템 등이 발전함에 따라 축적된 공간 데이터의 양이 증가했고 이를 공간 데이터 웨어하우스 분야에서 의사 결정에 활용하는 방안이 중요한 이슈가 되고 있다. 기존의 활용 방법은 주어진 영역을 기준으로 공간 범위-집계를 검색하는 형태였지만, 최근 특정 성향 분석을 위해 분포 질의를 요청하고 그 결과 지역에 대한 공간 분석을 통한 의사결정의 필요성이 대두되었다. 하지만 기존의 처리 방법으로 비공간 질의를 처리하기 위해서는 모든 데이터를 검색해야 하므로 분포 질의를 처리하기 위한 비용이 증가하게 된다. 본 논문에서는 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법을 제안한다. 제안하는 기법은 분석하고자 하는 사실 테이블의 비공간 속성을 큐브 트리의 키로 사용하고, 이 속성과 관련된 공간 데이터의 포인터 집합을 관리한다. 본 논문의 제안 기법을 공간 데이터 웨어하우스에 적용함으로써 비공간 속성 질의를 통해 공간 객체를 결과로 요청하는 형태의 질의를 지원할 수 있게 되며 사실 컬럼을 계층화시킴으로서 사용자에게 좀 더 다각적인 분석을 지원할 수 있다.

  • PDF

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.139-142
    • /
    • 2004
  • 자연어 질의 문장을 입력하는 방법은 정보 검색 시스템 사용자에게 아주 이상적인 인터페이스이다. 검색을 위해 색인어를 입력하거나 불리언 질의식을 사용하는 것에 비해 훨씬 친밀하지만, 동일한 의도의 검색 요구에 대해서도 개인의 성향에 따라서 다양한 형태나 구조의 자연어 질의문장으로 입력될 수 있는 본질적인 특성이 있다. 본 논문은 자연어 질의문장을 입력으로 하는 검색 시스템을 위해 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중 검색 기법을 제안한다. 질의 문장에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고 이형 표기 용어와 축약 표기 용어들을 확장하여 다중 검색함으로써 재현율과 정확도를 높일 수 있다.

  • PDF

한국어 정보검색을 위한 질의어 생성에 관한 연구 (A Study on Generation of Query toy Korean Information Retrieval)

  • 이덕남;박인철
    • 한국산학기술학회논문지
    • /
    • 제7권3호
    • /
    • pp.358-364
    • /
    • 2006
  • 현재 인터넷의 급속한 개발과 함께 인터넷을 통해 사용자들의 질의 성향을 올바르게 파악하여 사용자들에게 보다 질 좋은 정보를 제공해 줄 수 있어야 한다고 말해도 과언이 아니다. 따라서 한국어 질의어에 대해 형태소 분석과 구문 분석을 통한 키워드 사이에 의미 연관성을 생성하는 방법을 제안한다. 이 접근은 단순한 키워드나 키워드 사이에 단순한 조합 보다 의미 연관성을 적용하였다. 그 결과로서 사용자들의 질의 성향을 더욱 정확하게 반영할 수 있는 질의를 생성하고 현존하는 질의 형태에 대한 몇 가지 문제를 해결 수 있는 효율적인 한국어 정보검색을 위한 사용자 의도가 포함된 계층적 질의어를 생성하는 방법을 제안하고자 한다.

  • PDF

자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석 (Question Similarity Analysis in dialogs with Automatic Feature Extraction)

  • 오교중;이동건;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF