• 제목/요약/키워드: 응답 후보 추출

검색결과 29건 처리시간 0.03초

구문구조를 이용하여 정답을 추출하는 질의응답 시스템 (A Question Answering Using Syntactic Structure for Answer Extraction)

  • 이대연;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 2003
  • 본 논문에서는 질의문 내에 포함된 동사를 중심으로 한 질의어 확장 및 정답 추출 기법을 이용한 질의 응답 시스템에 대해 기술한다. 질의 응답시스템 전체의 과정에서 동사는 하나의 정보를 표현하는 중요한 요소로 활용하며, 동사에 대한 활용은 구축된 동사구문 사전의 정보를 이용한다. 동사구문 사전은 동사의 일반적인 표층형태와, 각 문장 성분들의 의미속성, 유의동사 등의 정보를 담고 있다. 또한 동사 구문사전의 활용에서의 동사 모호성을 배제하고, 효율을 높이기 위해 약 3만 어휘의 명사 의미 사전을 사용한다. 명사 의미사전은 구문사전 내에 사용된 의미분류로 나누어져 있으며, 유의명사 및 국어사전 상의 뜻 풀이말을 포함하고 있다. 질의문 및 각 후보 문장에 대한 구문분석은 구문사전 내에 나타난 품사 별 의미속성과, 문법 형태소의 격 정보를 이용한 격 구조를 활용하였다. 논문 중에는 일반적인 질의 응답 시스템의 3단계에 맞추어 구문사전 활용 및 구문분석의 수행 단계를 보이고 마지막에 각 기법의 정확도를 보였다.

  • PDF

기네스 기록 부사와 정답 유형을 이용한 기록문장에서의 정답 추출 (Answer Extraction in Record Sentence using Guinness Record Adverb and Answer-Type)

  • 오수현;안영민;이충희;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.1-3
    • /
    • 2006
  • 본 논문에서는 기네스 기록과 같은 기록정보 즉, 기록적 가치가 있는 문장에 대한 질의가 들어왔을 경우기록 부사와 정답 유형을 이용하여 정답을 추출하는 시스템에 대해 기술한다. 기록정보는 역사적이고 사실적인 내용으로, 기록부사틀 포함하는 문장을 말한다. 기록부사는 기록정보 내에서 쓰이며 어떤 사실의 기록에 대해 뜻을 명확하게 나타내어주는 한 요소이고, 이것은 해당문장이 기록문장임을 나타내준다. 이는 질의-응답 시스템에서 정답 추출의 중요한 단서로 사용될 수 있다. 질의-응답 시스템은 크게 질의를 분석하는 부분과 정답 문서를 찾는 부분으로 나뉘며, 질의 분석을 통하여 기록부사로 지역정보 그리고 정답유형을 결정한 후 이를 이용하여 후보 문서를 검색, 추출하고 정의문 규칙과 개체명 태깅에 의하여 정답을 추출하게 된다.

  • PDF

질문 규칙을 이용한 기록정보 질의-응답 시스템 (Record Information Question-Answering System Using Question Rules)

  • 오수현;안영민;박희근;이충희;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2006
  • 본 논문에서는 기네스 기록정보, 즉 기록적 가치가 있는 기록정보에 대한 질의를 처리하는 시스템에 대하여 기술한다. 기록정보 질의의 경우 일반적으로 정형화된 형태로 나타나며 이 형태를 규칙으로 사용하여 질의에 해당되는 정답을 추출하게 된다. 기록적 가치가 있는 문장에서 해당 문장이 기록 문장임을 나타내어 주는 부사를 기록부사로 정의하고, 예로 가장 제일, 최고의, 최대의, 최소의, 최초의, 최초로 등을 들 수 있다. 기록정보 질의의 경우 용언의 포함여부에 따라 기록부사는 두 가지 유형으로 분류된다. 기록부사는 질의문 내의 지역정보 및 정답유형과 함께 정답 추출의 중요한 요소로 사용되고, 용언정보는 기록 부사의 유형, 질의문 내의 용언 포함 여부에 따라 정답 추출의 요소로 결정되어진다. 제안한 시스템은 질의분석을 통하여 정답 추출을 위한 단서를 찾고 이를 이용하여 후보 문서와 후보 문장을 검색한 후 정답 추출 규칙을 이용하여 정답을 추출하게 된다.

  • PDF

문장 유사도를 이용한 다양한 표현의 패러프레이즈 생성 (Various Paraphrase Generation Using Sentence Similarity)

  • 박다솔;장두성;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.576-581
    • /
    • 2021
  • 패러프레이즈란 어떤 문장을 같은 의미를 가지는 다른 단어들을 사용하여 표현한 것들을 의미한다. 이는 정보 검색, 다중 문서 요약, 질의응답 등 여러 자연어 처리 분야에서 중요한 역할을 한다. 특히, 양질의 패러프레이즈 코퍼스를 얻는 것은 많은 시간 및 비용이 소요된다. 이러한 문제점을 해소하기 위해 본 논문에서는 문장 유사도를 이용한 패러프레이즈 쌍을 구축하고, 또 구축한 패러프레이즈 쌍을 이용하여 기계 학습을 통해 새로운 패러프레이즈을 생성한다. 제안 방식으로 생성된 패러프레이즈 쌍은 기존의 구축되어 있는 코퍼스 내 나타나는 표현들로만 구성된 페러프레이즈 쌍이라는 단점이 존재한다. 이러한 단점을 해소하기 위해 기계 학습을 이용한 실험을 진행하여 새로운 표현에 대한 후보군을 추출하는 방법을 적용하여 새로운 표현이라고 볼 수 있는 후보군들을 추출하여 기존의 코퍼스 내 새로운 표현들이 생성된 것을 확인할 수 있었다.

  • PDF

최상급 단서 어휘를 이용한 질의-응답시스템 (Question-Answering System using the Superlative Words)

  • 박희근;오수현;안영민;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 춘계 종합학술대회 논문집
    • /
    • pp.140-143
    • /
    • 2006
  • 본 논문에서는 최상급 질의에 대한 정답을 추출하는 질의-응답시스템에 대해 기술한다. 최상급 질의란 "가장", "제일", "처음", "최고의", "최대의", "최소의", "최초로", "최초의" 등의 최상급 단서 어휘를 포함하고 있는 질의를 말한다. 최상급 질의는 4가지 주요 성분-최상급 단서 어휘, 정답유형, 지역정보, 용언-과 기타 문장 성분으로 구성된다. 이 중 최상급 단서 어휘는 자신이 수식하는 용언을 반드시 필요로 하느냐에 따라 두 가지 유형으로 나뉘며, 이는 정답 추출을 위한 필수요소를 결정하는 기준이 된다. 모든 최상급 질의에 대해 최상급 단서 어휘, 정답유형, 지역정보는 정답을 추출하기 위한 필수요소이지만, 용언은 최상급 단서 어휘의 유형에 따라 필수요소로 결정된다. 본 논문의 시스템은 최상급 질의 분석을 통하여 정답 추출을 위한 필수요소를 찾고, 이를 이용하여 후보 문서와 후보 문장을 검색한 후, 정답을 추출한다. 실험 결과 최상급 질의에 대한 높은 정확률과 재현율을 보였다.

  • PDF

듀얼 포인터 네트워크 디코더를 이용한 정답 후보군 탐지 시스템 (Answers Candidate Detection System using Dual Pointer Network Decoder)

  • 장영진;김학수;김진태;왕지현;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.424-426
    • /
    • 2019
  • 정답 후보군 탐지 모델은 최근 활발히 진행되고 있는 질의-응답 데이터 수집 연구의 선행이 되는 연구로 특정 질문에 대한 정답을 주어진 단락에서 추출하는 작업을 말한다. 제안 모델은 포인터 네트워크 디코더를 통하여 기존의 순차 레이블링 모델에서 처리할 수 없었던 정답이 겹치는 문제에 대해서 해결할 수 있게 되었다. 그리고 독립된 두 개의 포인터 네트워크 디코더를 사용함으로써, 단일 포인터 네트워크로 처리할 수 없었던 정답의 탐지가 가능하게 되었다.

  • PDF

시소러스범주정보를 이용한 질의응답시스템 (A Question Answering System Using the Information of the Category Information of Thesaurus)

  • 김수민;백대호;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

의문의 초점을 고려한 자연어 기반의 정보검색 시스템 (Natural language based Information Retrieval System considering the focus of the question)

  • 박홍원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-43
    • /
    • 1997
  • 본 논문에서는 기존의 키워드 검색 시스템의 불편함과 비효율성을 지적하고 이를 극복하기 위해 한국어 의문문 자체를 질의어로 채택하여 정보를 검색하는 자연어 기반의 정보검색 시스템을 제안하였다. 본 시스템은 주격 주제어와 서술격 주제어는 물론 의문의 초점과 초점 관련 어구에 대해서도 질의어 분석단계에서 분석하여 검색자의 요구에 부응하는 응답문 검색이 가능하도록 설계하였다. 본 논문에서는 의문문 질의 시스템에 적합하도록 의문사를 5형태로 분류하고 실제 한국어 문장에서 이들 각각에 대한 처리를 규칙화시켜 질의어의 체계적인 분석을 시도하였다. 한편, 후보 문장 검색을 위한 색인어로 사용되는 주격 주제어와 서술격 주제어를 정해진 규칙을 통해 추출함으로써 체계적이고 정확도 높은 질의어 분석이 이루어지도록 했다. 뿐만 아니라 의문의 초점과 초점 관련 어구또한 정해진 규칙을 통해 분석 추출함으로써 응답문 검색의 정확성을 높였다.

  • PDF

검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법 (Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.