• 제목/요약/키워드: 질의분석

검색결과 2,689건 처리시간 0.032초

질의 응답 시스템을 위한 질의문 심층 분석 (Deep Analysis of Question for Question Answering System)

  • 신승은;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제6권3호
    • /
    • pp.12-19
    • /
    • 2006
  • 본 논문에서는 질의 응답 시스템의 성능 향상을 위한 질의문 심층 분석을 제안한다. 일반적인 질의응답 시스템들은 사용자의 자연언어 질의의 의미를 분석하지 않기 때문에 정확한 정답을 제공하는 것이 어렵다. 질의문 심층 분석은 의미자질 추출 문법과 자연언어 질의 특성을 이용하여 사용자의 질의를 의미적으로 분석하고, 의미자질들을 추출한다. 의미자질 추출 문법과 자연언어 질의 특성은 사용자 질의의 의미와 구문 구조를 반영하기 위해 의미자질과 형식형태소로 표현된다. 웹에서 추출한 세부 정답 유형이 '인물'인 100개의 질의에 대한 실험을 통해, 비교적 짧지만 사용자의 질의 의도를 충분히 표현하고 있는 자연언어 질의에 대해 질의문 심층 분석을 수행함으로써 사용자의 질의 의도를 분석하고, 의미자질들을 추출할 수 있음을 보였다.

  • PDF

비디오 질의 응답 환경에서 양방향 어텐션을 이용한 질의 난이도 분석 모델 (Neural Question Difficulty Estimator with Bi-directional Attention in VideoQA)

  • 윤수환;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.501-506
    • /
    • 2020
  • 질의 난이도 분석 문제는 자연어 질의문을 답변할 때 어려움의 정도를 측정하는 문제이다. 질의 난이도 분석 문제는 문서 독해, 의학 시험, 비디오 질의 등과 같은 다양한 데이터셋에서 연구되어 왔다. 본 논문에서는 질의문과 질의문에 응답하기 위한 정보들 간의 관계를 파악하는 것으로 질의 난이도 분석 문제를 접근하여 이를 BERT와 Dual Multi-head Attention을 사용하여 모델링 하였다. 본 논문에서 제안하는 모델의 우수성을 증명하기 위하여 최근 자연언어이해 부분에서 높은 성능을 보여주는 기 학습 언어 모델과 이전 연구의 질의 난이도 분석 모델과의 성능을 비교하였고, 제안 모델은 대표적인 비디오 질의 응답 데이터셋인 DramaQA의 Memory Complexity에서 99.76%, Logical Complexity에서는 89.47%의 정확도로 가장 높은 질의 난이도 분석 성능을 보여주었다.

  • PDF

한국어 질의응답시스템에서 구문정보에 기반한 질의분석 (Question Analysis based Syntactic Information in Korean Question Answering System)

  • 신승은;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.931-933
    • /
    • 2004
  • 본 논문에서는 한국어 질의응답시스템에서 정확한 정답추출을 위한 구문 정보에 기반한 질의분석을 제안한다. 질의분석은 세부 정답 유형 결정, 세분화된 키워드 추출을 통해 정확한 정답추출을 목적으로 한다. 술어 유형 정보를 이용하여 대분류 수준의 정답 유형으로 질의분석을 수행하고. 구문 구조 정보를 이용하여 중요 키워드와 일반 키워드를 추출한다 마지막으로 정답 유형 자질 명사를 이용하여 세부 정답 유형을 결정한다. 실험을 통해 세부 정답 유형 결정에서 정확률 59%, 세분화된 키워드 추출에서 정확을 66%를 보였다.

  • PDF

의미 기반의 질의 분석 및 확장 (Question Analysis and Expansion based on Semantics)

  • 신승은;박희근;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권7호
    • /
    • pp.50-59
    • /
    • 2007
  • 본 논문에서는 효율적인 정보검색을 위한 의미 기반의 질의 분석 및 확장을 제안한다. 기존의 정보검색 시스템들은 사용자 질의로 자연언어 질의를 허용하고 있지만 단순히 명사 단어의 색인어를 사용자 질의로부터 추출하여 정보검색에 활용하기 때문에 사용자의 질의 의도를 반영한 정보검색을 하지 못한다. 이러한 문제점을 해결하기 위해서 의미 기반 질의 분석 및 확장은 사용자의 질의를 의미적으로 분석하여, 질의유형을 결정하고 의미 자질들을 추출한다. 추출된 의미 자질들과 정답을 표현하기 위해 사용되는 구문구조를 이용하여 사용자 질의를 확장한다. 또한 확장된 질의를 이용하여 정답을 포함하는 관련문서들을 정보검색 결과의 상위에 랭크시킬 수 있는 방법을 제시한다. 비교적 짧지만 사용자의 질의 의도를 충분히 표현하고 있는 자연언어 질의에 대한 의미 기반의 질의 분석 및 확장을 통해 정보검색의 정확률을 향상시킬 수 있음을 보였다.

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석 (Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System)

  • 함영균;남상하;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.122-127
    • /
    • 2016
  • 본 논문에서서는 질의응답 시스템을 위한 자연언어 질의 이해를 위하여 프레임 시멘틱스 기반 의미 분석방식을 제안한다. 지식베이스에 의존적인 질의 이해는 지식베이스의 불완전성에 의해 충분한 정보를 분석하지 못한다는 점에 착안하여, 질의의 술부-논항구조 및 그 의미에 대한 분석을 수행하여 자연언어 질의에서 나타난 정보들을 충분히 파악하고자 하였다. 본 시스템은 자연언어 질의를 입력으로 받아 이를 프레임 시멘틱스의 구조에 기반하여 기계가 읽을 수 있는 임의의 RDF 표현방식의 모형 쿼리를 생성한다.

  • PDF

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석 (Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System)

  • 함영균;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-127
    • /
    • 2016
  • 본 논문에서서는 질의응답 시스템을 위한 자연언어 질의 이해를 위하여 프레임 시멘틱스 기반 의미 분석 방식을 제안한다. 지식베이스에 의존적인 질의 이해는 지식베이스의 불완전성에 의해 충분한 정보를 분석하지 못한다는 점에 착안하여, 질의의 술부-논항구조 및 그 의미에 대한 분석을 수행하여 자연언어 질의에서 나타난 정보들을 충분히 파악하고자 하였다. 본 시스템은 자연언어 질의를 입력으로 받아 이를 프레임 시멘틱스의 구조에 기반하여 기계가 읽을 수 있는 임의의 RDF 표현방식의 모형 쿼리를 생성한다.

  • PDF

클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석 (An Analysis of Query Types and Topics Submitted to Navel)

  • 박소연;이준호;김지승
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.265-278
    • /
    • 2005
  • 웹 검색 분야의 대부분의 선행 연구들은 검색 질의를 살펴본 연구자의 판단에 근거하여 질의의 주제를 분석하였다. 그러나 웹 검색 질의의 주제 분야가 방대하고 다양하여서 이용자가 검색 결과에서 실제로 조회한 문서를 모르는 상태에서 연구자의 판단에 근거하여 질의의 주제를 분류하기에는 한계가 있다. 이에 본 연구에서는 1년 동안 네이버 이용자들이 입력한 질의를 기록한 질의로그와 질의에 대한 검색 결과에서 이용자가 조회한 문서를 기록한 클릭 로그에 근거하여 국내 웹 검색 질의의 형태 및 주제를 분석하였다. 질의를 형태별로 분류한 결과 사이트 검색 질의가 내용 검색 질의보다 많은 것으로 나타났다. 또한 이용자들이 전반적으로 가장 많이 검색한 주제는 컴퓨터/인터넷. 엔터테인먼트, 쇼핑, 게임. 교육 순으로 나타났다. 본 연구의 결과는 인터넷 포탈 업체들의 효과적인 컨텐츠 구축 및 효율적인 검색 시스템 개발에 기여할 것으로 기대된다.

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

이미지 검색 과정에 나타난 질의 전환 및 재구성 패턴에 관한 연구 (Examining Categorical Transition and Query Reformulation Patterns in Image Search Process)

  • 정은경;윤정원
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.37-60
    • /
    • 2010
  • 이 연구는 이미지 특성 범주와 관련하여 질의 재구성 패턴을 탐색하고자 하였다. 이러한 연구 목적을 수행하기 위해서 Excite 웹검색 엔진 로그 데이터가 사용되었으며, 총 592 세션과 2,445 질의어가 분석되었다. 데이터 분석은 Batley의 정보 형태 구분과 선행 연구에서 밝혀진 팻싯과 서브팻싯을 활용하여 수행되었다. 분석결과는 두가지 형태로 구분하여 제시되었다. 첫째, 질의 재구성에 관한 분석결과이다. 질의 분석 결과, 가장 많은 부분을 차지하는 범주는 특정어(specific)와 지칭어(nameable)이며, 이러한 경향은 다양한 정보 탐색 단계에서도 지속적으로 나타났다. 둘째, 질의 재구성 패턴과 관려하여, 평행이동이 가장 많이 나타났으며, 이러한 경향은 최초 혹은 직전 질의 범주에 따라 근소한 차이를 보였다. 범주 전환 분석에서는 높은 비율(60%-80%)로 검색 질의의 범주가 지속적으로 동일한 범주에 머무르는 경향을 밝혀내었다. 이러한 결과는 이미지 검색 시스템 설계와 구현에 있어서, 이용자의 질의 선정 과정에 도움을 제공하고 효과적인 시소러스 구축 등에 활용될 수 있을 것으로 기대된다.

시소러스범주정보를 이용한 질의응답시스템 (A Question Answering System Using the Information of the Category Information of Thesaurus)

  • 김수민;백대호;김상범;임해창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF