• 제목/요약/키워드: 질의유형

검색결과 304건 처리시간 0.031초

어휘정보와 명사의미정보를 이용한 사용자 질의문장 분석 (Question Analysis using Lexico Information and Noun Semantic Information)

  • 정규철;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.185-189
    • /
    • 2003
  • 고성능의 질의 응답 시스템을 구현하기 위해서는 질의 유형 분류기의 성능이 중요하다. 본 논문에서는 복잡한 분류규칙이나 대용량의 사전 정보를 이용하지 않고 질의문에서 의문사에 해당하는 어휘들을 이용하여 질의 유형을 결정하고, 의문사 주변에 출현하는 명사들의 의미 정보를 이용하여 세부적인 정답유형을 결정할 수 있는 질의 유형분류기를 제안한다. 의문사에 해당하는 어휘가 생략된 경우는 질의문의 마지막 어절의 의미 정보를 이용하여 질의유형을 분류한다. 의문사 주변의 명사들이 마지막 어절에 출현하는 명사들에 대해 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류의 성능을 향상시킨다. 본 논문에서 제안한 시스템은 질의 유형에 대한 분류는 97.4%의 정확도를 보였다.

  • PDF

자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구 (A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

지지 벡터 기계를 이용한 질의 유형 분류기 (A Question Type Classifier Using a Support Vector Machine)

  • 안영훈;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

한국어 질의응답시스템에서 구문정보에 기반한 질의분석 (Question Analysis based Syntactic Information in Korean Question Answering System)

  • 신승은;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.931-933
    • /
    • 2004
  • 본 논문에서는 한국어 질의응답시스템에서 정확한 정답추출을 위한 구문 정보에 기반한 질의분석을 제안한다. 질의분석은 세부 정답 유형 결정, 세분화된 키워드 추출을 통해 정확한 정답추출을 목적으로 한다. 술어 유형 정보를 이용하여 대분류 수준의 정답 유형으로 질의분석을 수행하고. 구문 구조 정보를 이용하여 중요 키워드와 일반 키워드를 추출한다 마지막으로 정답 유형 자질 명사를 이용하여 세부 정답 유형을 결정한다. 실험을 통해 세부 정답 유형 결정에서 정확률 59%, 세분화된 키워드 추출에서 정확을 66%를 보였다.

  • PDF

키워드 패턴을 이용한 질의유형 분류 시스템 구현 (Implementation of a Question Type Classification System using Keyword Patterns)

  • 안혁주;김민경;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.813-815
    • /
    • 2015
  • 질의응답 시스템에서 정답선택의 정확률을 향상시키기 위해 본 논문은 패턴과 휴리스틱을 기반으로 하는 질의유형 추출 시스템을 구현하는 방법을 제안한다. 질의유형은 DBPedia에서 사용하는 클래스타입을 기반으로 추출되며 질의유형에 포함하는 키워드패턴들을 수집하여 키워드패턴 데이터를 생성한다. 그 후 한국어 질의에서 많이 발생하는 유형을 분석하여 휴리스틱을 이용해 사용자가 의도한 질의 유형을 출력한다. 제안시스템은 기존 연구에 비해 구축과 수정이 쉽다는 장점이 있다.

질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류 (Semi-Supervised Answer Type Classification For Question-Answering System)

  • 박선영;이동현;김용희;류성한;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

자연어 질의유형 판별과 응답 추출을 위한 어휘 의미 체계에 관한 연구 (A Study on Work Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권6호
    • /
    • pp.539-545
    • /
    • 2004
  • 자연어 질의를 입력하고 문서로부터 질의에 대한 정답을 추출하여 제공하는 질의응답 시스템에서는 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 과정이 매우 중요하다. 본 논문에서는 질의 유형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의의 의도를 나타내는 어휘들을 추출하고 인접 명사들의 의미 정보를 이용하여 질의 및 정답 유형을 결정할 수 있는 방법을 제안한다. 또 동의어 정보와 접미사 정보를 이용하고, 의문사가 생략된 경우 어휘 의미 정보를 이용하여 질의 유형 분류기의 성능을 향상시킬 수 있음을 보인다.

  • PDF

자연언어 질의 문장의 용어 가중치 부여 기법 (Term Weighting Method for Natural Language Query Sentence)

  • 강승식;이하규;손소현;문병주;홍기채
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.223-227
    • /
    • 2002
  • 자연언어 질의 문장으로부터 검색어로 사용될 질의어의 추출 및 질의어 가중치를 계산하기 위하여 질의 문장들의 유형을 분석하였으며, 질의어 구문의 특성에 따라 용어들의 가중치를 계산하는 방법을 제안하였다. 용어의 가중치를 부여할 때 띄어쓴 복합명사와 접속 관계 등에 의해 연결된 명사구는 질의어 가중치를 동등하게 적용할 필요가 있다. 질의 문장에서 가중치가 동등하게 적용되는 명사구를 인식하기 위한 목적으로 구현된 명사구 chunking을 수행한 후에 각 용어들에 대한 질의어 가중치를 계산한다. 질의어 가중치를 계산하기 위하여 용어의 유형, 질의 구문의 특성, 문서 유형을 지칭하는 용어, 조사 유형, 용어의 길이 등에 따라 가중치를 조절하는 방법을 사용한다. 용어유형에 의한 가중치 계산은 추출된 용어의 품사 정보와 전문 용어 사전, 부사성 명사 사전을 이용하였다.

  • PDF

효율적인 질의 처리를 위한 SQL3 질의의 정규화 (Normalization of SQL3 Queries for Efficient Query Processing)

  • 권혁윤;이기훈;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.29-32
    • /
    • 2007
  • SQL은 관계형 DBMS에서 사용되는 표준 질의 언어이다. SQL의 장점 중의 하나는 중첩 질의의 사용이나, 중첩질의를 포함한 질의를 그대로 실행하는 것은 중첩 질의의 반복된 수행을 야기하여 비효율적이다. 본 논문에서는 SQL3 표준에 정의된 모든 유형의 중첩 질의에 대한 완전한 정규화 규칙을 제안한다. SQL3 표준에서 중첩질의는 중첩 질의 반환 값의 유형에 따라 스칼라 중첩 질의와 테이블 중첩 질의로 분류된다. 스칼라 중첩 질의와 테이블 중첩 질의는 상관과 집계의 유무에 따라 다시 분류될 수 있다. 본 논문에서는 SELECT, FROM, WHERE 절에서 이러한 분류에 의해 가능한 모든 중첩 유형을 지원한다. 특히, SELECT, FROM 절의 일부 중첩 유형은 SQL3와 유사한 형태의 중첩 질의를 지원하는 질의 언어인 XQuery에서 제안된 정규화 규칙을 SQL3 문법에 맞게 응용하여 적용한다.

  • PDF

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.