• 제목/요약/키워드: 질의유형

검색결과 304건 처리시간 0.026초

질의 유형 분류기를 활용한 지식 베이스 기반의 복합 질의 응답 시스템 (Knowledge based Complex Question Answering System using CNN Based Question Type Classifier)

  • 홍동균;심홍매;최동근;김광민;정용일;이반 베를로셰
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.621-624
    • /
    • 2018
  • 최근 지식 베이스의 발전과 함께 지식 베이스 기반의 질의 응답에 관한 연구가 많은 관심을 받고 있다. 특히 지식 베이스상의 여러 개의 사실이 필요한 복합 질의에 대한 처리의 중요성이 높아지고 있다. 그러나 기존 연구에서는 일반적인 지식을 묻는 질의 처리에만 집중하여, 그 외의 다른 유혀을 갖는 복합 질의에 대한 처리의 연구는 시작 단계에 머물러 있다. 이에 본 논문은 질의 유형 분류기를 활용한 지식 베이스 기반의 복합 질의 응답 시스템을 제안한다. 복합 질의 응답 시스템은 단순 질의를 포함하여 다양한 유형(일반형, 판정형, 비교형)을 갖는 복합 질의를 처리한다. 우리는 실험을 통해서 질의 유형 분류기가 복합 질의 응답 시스템의 정답률을 높임을 보였다.

오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구 (A study on the Construction of Annotated corpora for the Automatic Classification of Open Domain Queries)

  • 안애림;이서진;최동현;김응균;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-314
    • /
    • 2019
  • 본 연구는 오픈도메인 자연어 질의문 유형을 '질문 초점(Question Focus)'에 따라 분류하고, 기계학습 기반 질의문 유형 분류기의 성능 향상을 위한 주석 말뭉치 구축을 목표로 한다. 오픈도메인 질의문 분석을 통해 의문사 등의 키워드 기반 질의문 유형 분류의 한계를 설명하고, 질의문 내의 비명시적인 의미자질을 고려한 질문 초점 기반 질의문 유형 분류 기준을 정의하였다. 이 기준에 따라 구축된 112,856 문장의 주석 말뭉치를 기계학습(CNN) 기반 문장 분류 시스템의 학습 데이터로 사용하여 실험한 결과 F1-Score 97.72%성능을 보였다. 또한 이를 카카오 오픈도메인 질의응답시스템에 적용하여 질의문 확장을 위한 의미 자질로 사용하였고 그 결과 전체 시스템 성능을 1.6%p 향상시켰다.

  • PDF

토픽맵-기반 판소리 검색시스템 구축 및 평가에 관한 연구 (A Study of Developing and Evaluating a Pansoree Retrieval System Using Topic Maps)

  • 오삼균;박옥남
    • 한국도서관정보학회지
    • /
    • 제36권4호
    • /
    • pp.77-98
    • /
    • 2005
  • 이 연구의 목적은 유용한 지식포탈 구축을 위한 대안을 제시하기 위하여 판소리 도메인을 중심으로 토픽맵 시스템을 구축하고 그 유효성을 검증하기 위해서 질의유형별로 기존 사이트와 심층 분석을 수행하는 것이다. 먼저 토픽맵에 대한 간략 설명, 판소리 도메인에 대한 토픽맵 데이터 모델링, 그 모델링을 기반으로 토픽맵 기반 판소리 시스템을 구축하였다. 비교대상 사이트는 다양한 판소리 사이트를 비교한 결과, pansoree.com 사이트를 선정하였다. 보다 체계적인 성능비교를 위해서 질의유형별로 나누어서 두 사이트를 비교 분석하였다. 질의유형은 단순질의, 고급질의, 연계질의 Cross Reference 질의로 나누었고, 분석결과 토픽맵 기반 판소리 사이트가 모든 질의유형에서 기존 사이트보다 검색시간과 단계를 줄일 수 있고, 판소리 도메인을 잘 모르는 이용자의 경우에도 용이한 검색을 제공하는 것으로 판명되었다.

  • PDF

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류 (Efficient Classification of User's Natural Language Question Types using Word Semantic Information)

  • 윤성희;백선욱
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.251-263
    • /
    • 2004
  • 질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

XML 실체뷰를 이용한 XQL 질의 분할의 성능 분석 (Performance Analysis of XQL Query Decomposition Using XML Materialized Views)

  • 문찬호;강현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.63-66
    • /
    • 2002
  • XML 저장소 내에 XML 문서들과 그들로부터 도출된 XML 실체뷰가 있다고 가정할 때, XML 문서 검색의 성능 향상을 위해서 이들 실체뷰를 이용하여 질의를 처리할 수 있다. 즉, 하부 XML 문서에 대한 원래의 질의를 관련된 실체뷰에 대한 질의로 변환하여 수행함으로써 질의 응답시간을 줄일 수 있다. 실체뷰를 이용한 질의 처리의 유형으로는 (1) 실체뷰로부터 원하는 결과를 모두 얻을 수 있는 유형과 (2) 질의 결과의 일부는 실체뷰에 존재하지만 일부는 하부 XML 문서로부터 검색해야 하는 유형이 있다. 본 논문에서는 두번째 유형에 대하여 연구하였다. 주어진 질의를 (1) 실체뷰에 대한 질의와 하부 데이타에 대한 질의로 분할하여 처리한 후 두 결과를 통합하는 방법과 (2) 원래의 질의를 실체뷰를 이용하지 않고 처리하는 방법 간의 성능을 비교, 분석하였다.

  • PDF

질의 응답 시스템에서 질의 카테고리별 개념리스트 구축에 기반한 의미적 질의 확장 (Semantic Query Expansion based on a Question Category Concept List in QA system)

  • 김혜정;강보영;박성배;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.178-180
    • /
    • 2004
  • 질의 응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer tyype) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서의 정답문장에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서, 본 논문은 질의별 카테고리 개념 리스트를 구축하여 효과적인 의미적 질의 확장 방법론을 제안한다. 제안된 방법은 먼저 질문 문장의 패턴 린 질의 정보 유형을 파악하여 질의 카테고리 및 카테고리별 개념 리스트를 구축한다. 그런 후 구축된 질의 개념 카테고리 및 리스트를 활용하여 질의 유형을 학습하고, 새로운 질의가 입력되면 해당 개념 카테고리로 분류한 후, 개념 리스트를 기반으로 개념별 질의 확장을 수행한다. 제안된 시스템의 성능 명가를 위하여, TREC-9의 질의와 TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건을 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

  • PDF

개념 기반 질의-응답 시스템에서 개념 규칙을 이용한 해답 추출 (Answer Extraction using Concept Rules in Concept-based Question-Answering System)

  • 강유환;안영민;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-188
    • /
    • 2005
  • 본 논문에서는 개념 기반 질의-응답 시스템에서 개념 규칙을 이용하여 해답을 추출하는 방법에 대하여 기술한다. 개념 기반 질의-응답 시스템은 질의문의 각 유형별 개념 정보를 이용하여 질의문을 분석하고 해답을 추출하는 시스템이다. 질의문의 키워드들을 개념에 따라 분류하고, 질의 유형별로 공통적으로 나타나는 개념들을 이용하여 개념 프레임을 정의한다. 또한, 개념 정보와 해답이 들어 있는 문장과 문단에서 공통적으로 나타나는 구문 특성을 이용하여 해답 추출을 위한 규칙을 작성한다. 개념 규칙은 형태 정보와 구문 정보를 포함하며, 질의 유형별로 따로 작성한다. 작성된 규칙을 이용하여 문서로부터 해답이 들어 있는 문장과 문단을 추출한 후 질의문의 해답 유형에 해당하는 개체를 해답 후보로 제시한다. 실험 결과 개념 규칙을 이용한 해답 추출의 정확도가 매우 높게 나타났다.

  • PDF

질의응답 시스템을 위한 술어정보 기반 질의분석 (Predicate-based Question Analysis for Korean Question-Answering System)

  • 김원남;신승은;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.296-300
    • /
    • 2004
  • 질의 응답 시스템이 정확한 정답을 제시하기 위해서는 사용자가 요구하는 정답의 유형을 결정할 필요가 있다. 질의분석의 일반적인 접근법으로는 의문사 정보, 규칙 그리고 통계 정보에 기반한 방법들이 있다. 본 논문에서는 술어정보를 이용한 질의분석을 제안한다. 먼저 의문사 정보를 이용하여 상위정답유형을 결정하고 질의문의 술어 정보와 구문 구조 정보를 이용하여 초점단어(focus word)를 추출한다. 초점단어란 정답유형을 결정하는데 단서가 되는 단어로써, 추출된 초점단어에 의해 75개의 하위정답유형 중 하나가 결정된다. 실험에 앞서 정답 유형별로 6개의 상위범주와 75개의 하위범주를 정의하였으며, 실험에는 학습 데이터의 일부와 일반 Web에서 수집한 테스트 데이터가 사용되었다. 실험결과 상위범주는 97.6%, 하위범주는 77.8%의 정확도를 보였으며 초점단어는 92.5%의 정확도를 보였다.

  • PDF

실시간 검색어를 이용한 주제어 기반의 질의응답시스템 (Topic based Question-Answering System using Real-Time Search Terms)

  • 송일현;강상우;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-37
    • /
    • 2011
  • 본 논문에서는 실시간 검색어를 이용한 주제어 기반의 질의응답 시스템을 제안한다. 제안 시스템은 주제어로 사용자의 질의 범위를 제한함으로써 질의과정에서 발생할 수 있는 오류의 감소를 기대할 수 있다. 제안 시스템은 주제어 기반의 질의응답을 수행하기 위해 검색대상문서 색인, 질의유형결정, 검색결과의 순위화 과정을 거친다. 제안한 방법으로 기준시스템에 비해 P@5에서 질의유형별 평균 69%의 성능향상을 얻었다.

  • PDF

토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구 (A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis)

  • 강현아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.223-234
    • /
    • 2021
  • 4차 산업 혁명 시대의 도래에 따라 쇼핑의 행태는 더욱 빠르게 오프라인에서 온라인으로 이동하고 있다. 온라인 쇼핑에서 고객의 정보요구를 가장 집약적으로 보여주는 것이 바로 검색 질의이다. 하지만 검색 분야에서도 검색 질의 관련 연구 사례는 많지 않으며 대부분의 검색 질의 연구 분야 선행 연구들은 연구자의 정성적인 판단에 근거하여 제한적인 주제와 데이터 기반으로 연구되어 왔다. 이에 본 연구는 검색 질의 연구 분야에 기계학습을 적용하여 검색 질의와 검색 이후 이용자가 조회한 문서명 로그를 기반으로 토픽모델링 수행 후 검색 질의 주제를 정의함으로써 데이터 기반의 정량적 방법론으로 15개의 검색 질의 주제 유형을 정의하였다. 또한 기존 검색어 자체만을 보고 판단하던 주제 유형에서 나아가 검색 행동특성을 반영한 유형을 정의하기 위하여 주성분 분석을 통해 주요 변수를 추출 후 각 주제별 검색 행동특성을 분석함으로써 검색 탐색 활성도, 상품 관여도에 따른 4가지의 새로운 검색 질의 유형 분류체계를 제시하였다. 본 연구결과는 효과적인 검색서비스 구축 및 검색 시스템 개발에 기여할 것으로 기대된다.