• 제목/요약/키워드: 질의응답문서

검색결과 163건 처리시간 0.022초

계층적 문서 클러스터링을 이용한 실세계 질의 메일의 자동 분류 (Automatic Categorization of Real World FAQs Using Hierarchical Document Clustering)

  • 류중원;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.187-190
    • /
    • 2001
  • Due to the recent proliferation of the internet, it is broadly granted that the necessity of the automatic document categorization has been on the rise. Since it is a heavy time-consuming work and takes too much manpower to process and classify manually, we need a system that categorizes them automatically as their contents. In this paper, we propose the automatic E-mail response system that is based on 2 hierarchical document clustering methods. One is to get the final result from the classifier trained seperatly within each class, after clustering the whole documents into 3 groups so that the first classifier categorize the input documents as the corresponding group. The other method is that the system classifies the most distinct classes first as their similarity, successively. Neural networks have been adopted as classifiers, we have used dendrograms to show the hierarchical aspect of similarities between classes. The comparison among the performances of hierarchical and non-hierarchical classifiers tells us clustering methods have provided the classification efficiency.

  • PDF

Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템 (Open-domain Question Answering Using Lexico-Semantic Patterns)

  • 이승우;정한민;곽병관;김동석;차정원;안주희;이근배;김학수;김경선;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.538-545
    • /
    • 2001
  • 본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.

  • PDF

데이터베이스의 개념구조에 기반한 XML 문서의 색인 및 질의 스키마의 설계 및 구현 (Design and Implementation of XML Indexing and Query Scheme Based on Database Concept Structure)

  • 추교남;우요섭
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.317-324
    • /
    • 2006
  • 본 논문에서는 다양한 질의 처리를 위하여 데이터베이스 색인 스키마의 특징인 반구조적 정보를 구조 정보화할 수 있는 방법과 보다 빠르고 최적화된 질의처리 방법을 제안하고자 한다. XML 트리에 추가된 번호 정보를 비트열로 변형하여 트리의 구조 변경없이 트리 노드간의 구조 정보를 나타낸다. 그리고 이 과정에서 생성되는 기타 구조 정보들을 검색하여 색인 스키마에 추가한다. 또한, 질의 스키마에서는 색인 스키마를 이용하여 절대 경로 질의 표현식 뿐만 아니라 상대 경로 질의 표현식의 경우에도 주어진 노드 정보를 통하여 상위의 노드를 복원한다. 이러한 점은 하나의 질의를 통하여 파생 질의 표현식을 작성할 수 있다는 장점이 있다. 그리고 질의 처리 과정에서는 색인 스키마와 질의 스키마를 이용하여 비트열 사이의 비트 연산을 함으로써 응답시간을 최소화하고 색인 파일의 노드별 레코드의 정보만으로 정확한 결과를 검색할 수 있다.

QA 시스템에서 질의 패턴을 이용한 질의 확장 기법 (A Query Expansion Technique using Query Patterns in QA systems)

  • 김혜정;부기동
    • 한국산업정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.1-8
    • /
    • 2007
  • QA(질의응답) 시스템은 질의에서 요구하는 정답 유형 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서 본 논문은 질의에서 사용된 의미적으로 더 가까운 단어들로 구성되는 심층적 질의 카테고리의 질의 패턴을 이용한 질의 확장 방법론을 제안한다. 제안한 방법은 질의 유형에 따른 개념 리스트를 우선 구축하고, 학습 알고리즘에 의해 각 질의 카테고리에 대한 개념 리스트를 구축한다. 실험의 결과로서 제안한 방법의 성능이 향상되었음을 입증하였다.

  • PDF

질의 응답 시스템에서 개체 피드백을 이용한 정답 추출 (Answer Extraction Using Named Entity Feedback in Question Answering System)

  • 나승훈;강인수;이상율;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.676-678
    • /
    • 2002
  • 질의 응답 시스템(Question Answering: QA)에서 정답 유형 부류(Answer Type Taxonomy: ATT)란 사용자 질문 분석을 위한 미 부류 체계를 의미하는 것으로, ATT의 크기가 클수록 시스템의 성능은 높아진다. ATT를 확장하기 위해서는, 개체(Named Entity)에 의미 범주를 결정하는 개체 분류기(Named Entity Tagger의 분류 체계가 세분되어야 하는데, 기존의 개체 분류기는 한문서 내에서 그 개체의 분류를 시도하기 때문에, 분류를 위한 문맥 정보의 양이 부족하여, 정확하고 상세한 분류를 기대하기 힘들다. 본 논문에서는 동일 개체에 대한 문맥 정보를 수집하기 위해, 그 개체가 나타나는 다른 문서들을 검색하는 개체 피드백 Named Enti쇼 Feedback)이라는 기법을 사용한다. 개체가 상세히 분류됨에 따라 ATT도 확장될 수 있었으며, 이렇게 확장된 ATT상에서의 정답 추출은 baseline보다 약 7%정도의 성능 향상을 보여, 개체 피드백의 효과를 확인할 수 있었다.

  • PDF

대규모 지식그래프와 딥러닝 언어모델을 활용한 기계 독해 기술 (Machine Reading Comprehension based on Language Model with Knowledge Graph)

  • 김성현;김성만;황석현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.922-925
    • /
    • 2019
  • 기계 독해 기술은 기계가 주어진 비정형 문서 내에서 사용자의 질문을 이해하여 답변을 하는 기술로써, 챗봇이나 스마트 스피커 등, 사용자 질의응답 분야에서 핵심이 되는 기술 중 하나이다. 최근 딥러닝을 이용한 기학습 언어모델과 전이학습을 통해 사람의 기계 독해 능력을 뛰어넘는 방법론들이 제시되었다. 하지만 이러한 방식은 사람이 인식하는 질의응답 방법과 달리, 개체가 가지는 의미론(Semantic) 관점보다는 토큰 단위로 분리된 개체의 형태(Syntactic)와 등장하는 문맥(Context)에 의존해 기계 독해를 수행하였다. 본 논문에서는 기존의 높은 성능을 나타내던 기학습 언어모델에 대규모 지식그래프에 등장하는 개체 정보를 함께 학습함으로써, 의미학적 정보를 반영하는 방법을 제시한다. 본 논문이 제시하는 방법을 통해 기존 방법보다 기계 독해 분야에서 높은 성능향상 결과를 얻을 수 있었다.

사전 학습 모델의 위치 임베딩 길이 제한 문제를 극복하기 위한 방법론 (Methodology for Overcoming the Problem of Position Embedding Length Limitation in Pre-training Models)

  • 정민수;허탁성;이주환;김지수;이경욱;김경선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.463-467
    • /
    • 2023
  • 사전 학습 모델을 특정 데이터에 미세 조정할 때, 최대 길이는 사전 학습에 사용한 최대 길이 파라미터를 그대로 사용해야 한다. 이는 상대적으로 긴 시퀀스의 처리를 요구하는 일부 작업에서 단점으로 작용한다. 본 연구는 상대적으로 긴 시퀀스의 처리를 요구하는 질의 응답(Question Answering, QA) 작업에서 사전 학습 모델을 활용할 때 발생하는 시퀀스 길이 제한에 따른 성능 저하 문제를 극복하는 방법론을 제시한다. KorQuAD v1.0과 AIHub에서 확보한 데이터셋 4종에 대하여 BERT와 RoBERTa를 이용해 성능을 검증하였으며, 실험 결과, 평균적으로 길이가 긴 문서를 보유한 데이터에 대해 성능이 향상됨을 확인할 수 있었다.

  • PDF

XML 실체 뷰 관리 프레임워크 (A Framework of XML Materialized View Maintenance)

  • 임재국;문찬호;김영성;강현철;서상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.243-245
    • /
    • 2000
  • W3C(World Wide Web Consortium)가 XML(eXtensible Markup Language)을 차세대 웹 문서 표준으로 제안하면서 많은 응용에서 XML을 사용하려는 다양한 연구가 진행되고 있다. 뷰는 이질적인(heterogeneous) 데이터의 통합 및 여과(filtering) 기능을 통해서 사용자가 요구하는 데이터를 제공한다. 뷰의 구현 기법 중에서 실체 뷰(materialized view)는 뷰의 내용을 직접 저장하는 기법으로서, 사용자의 질의에 빠른 응답시간을 제공할 수 있다. 그러나 실체 뷰는 하부 데이터베이스가 변경되었을 경우에 일관성을 유지해야 하는 오버헤드가 있다. XML은 문서의 구조정보를 나타낼 수 있으므로 기존의 관계 데이터베이스와 객체지향 데이터베이스 등에서 연구되었던 실체 뷰 관리 기법과는 다른 XML 실체 뷰 관리 기법이 요구된다. 본 논문에서는 XML 문서를 대상으로 XML 실체 뷰를 지원하고, 데이터베이스에 저장된 XML 문서가 수정되었을 경우에 XML 실체 뷰에 대해 점진적 갱신(incremental refresh)을 지원하는 XML 실체 뷰 관리 프레임워크(framework)를 제안하였다.

  • PDF

중간 문맥 식별 및 검색을 활용한 문서간 관계 추출 (Cross-document Relation Extraction using Bridging Context Identification)

  • 손준영;김진성;임정우;장윤나;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.654-658
    • /
    • 2023
  • 관계 추출은 질의응답이나 대화 시스템의 기반이 되는 지식을 구추하기 위한 작업으로, 정보 추출의 기초가 되는 기술이기도 하다. 최근 실세계 지식의 희소한 형태를 구현한 문서간 관계 추출 데이터셋이 제안되어, 여러 문서를 통해 분산되어 언급된 두 개체 사이의 관계 추론을 수행 및 평가할 수 있게 되었다. 이 작업에서 추론의 대상이 되는 개체쌍은 한 문서 안에 동시에 언급되지 않기 때문에 여러 문서에 언급된 중간 개체를 통하여 직/간접적으로 추론해야 하나, 원시 텍스트에서 이러한 정보를 수집하는 작업은 쉽지 않다. 따라서, 본 연구에서는 개체의 동시발생빈도에 기반하여 중간 개체의 중요도를 정량화하고, 이 중요도에 기반화여 중요한 문맥을 식별하는 방법론을 제안한다. 제안하는 방법론은 기존의 두 문서로 구성된 추론 경로를 식별된 중간 개체를 활용하여 확장하여, 관계 추론 모델의 수정 없이 추가된 문맥만을 활용하여 문서간 관계 추출 시스템의 성능을 개선할 수 있었다.

  • PDF

정확한 해답 추출을 위한 개념 기반의 질의 분석 (Concept-based Question Analysis for Accurate Answer Extraction)

  • 신승은;강유환;안영민;박희근;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.10-20
    • /
    • 2007
  • 본 논문에서는 정확한 해답 추출을 위해 키워드보다 중요한 역할을 하는 개념을 분석하는 개념 기반 질의 분석에 대해 기술한다 해답 유형이 같은 질의들에서 나타나는 개념은 유사하기 때문에 이러한 개념들을 잘 정의하여 이용할 경우, 해답을 포함하는 다양한 형태의 구문으로부터 보다 정확한 해답을 추출할 수 있다는 것이 본 논문의 주요 아이디어이다. 즉, 해답을 포함하는 문서와 그 문서 내에 있는 해답을 좀더 정확하게 추출하기 위해 질문에 있는 각 단어나 구절들의 구문 및 의미 역할을 파악하고자 하는 것이다. 이를 위해, 정답 유형별로 그 유형의 질문에서 공통으로 나타나는 주요 개념들로 구성된 개념 프레임을 정의하고, 사용자 질의를 분석하여 개념 프레임을 채우는 과정으로 질의 분석을 수행한다. 실험 결과 본 논문에서 제안한 개념 기반 방식이 기존의 질의분석 기법에 비해 높은 정답 추출 성능을 보여주었다. 본 논문에서 제안한 개념 기반 접근 방법은 언어에 관계없이 적용 가능한 모델이며, 또한 기존 방식과 함께 사용할 수 있는 장점도 있다.