• 제목/요약/키워드: 키워드 구문 추출

검색결과 19건 처리시간 0.025초

질의문의 구문정보를 이용한 키워드 추출 (Keyword Extraction Using Syntactic Information of Question)

  • 양수정;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

한국어 질의응답시스템에서 구문정보에 기반한 질의분석 (Question Analysis based Syntactic Information in Korean Question Answering System)

  • 신승은;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.931-933
    • /
    • 2004
  • 본 논문에서는 한국어 질의응답시스템에서 정확한 정답추출을 위한 구문 정보에 기반한 질의분석을 제안한다. 질의분석은 세부 정답 유형 결정, 세분화된 키워드 추출을 통해 정확한 정답추출을 목적으로 한다. 술어 유형 정보를 이용하여 대분류 수준의 정답 유형으로 질의분석을 수행하고. 구문 구조 정보를 이용하여 중요 키워드와 일반 키워드를 추출한다 마지막으로 정답 유형 자질 명사를 이용하여 세부 정답 유형을 결정한다. 실험을 통해 세부 정답 유형 결정에서 정확률 59%, 세분화된 키워드 추출에서 정확을 66%를 보였다.

  • PDF

RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출 (RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa)

  • 이정두;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-490
    • /
    • 2020
  • 키워드 구문 추출(Keyphrase extraction)은 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 이는 뉴스나 논문에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 본 논문에서는 기존 catSeq 모델에 한국어로 학습한 RoBERTa 언어 모델을 적용하고 개체 연결 정보를 활용해 기존 키워드 생성 디코더와 개체 연결된 단어의 키워드 여부 분류 디코더, 즉 듀얼 디코더를 사용하는 모델을 제안하고 직접 구축한 한국어 키워드 추출 데이터에 대한 각 모델의 성능을 비교한다.

  • PDF

구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가 (A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree)

  • 김영철;최재영
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.109-116
    • /
    • 2005
  • 본 논문에서는 프로그램의 분석 과정에서 생성된 구문트리에서 키워드만을 추출하여 유사도 평가하는 방법을 소개한다. 이 방법은 기존의 구조 기반 방법과 같이 프로그램 구조적 특징에 상관없이 유사도를 평가한 수 있으며, 구문트리의 키워드만을 평가에 이용함으로써 기존 시스템의 단점이었던 속도를 개선할 수 있었다. 따라서 본 논문에서는 유사도 평가 모델을 제시하고, 생성된 구문트리에서 키워드를 추출하는 방법을 제시하였다. 본 논문의 평가 부분에서는 기존 시스템에 비해 본 시스템이 구조적 특징이나 속도 면에서 많이 개선되었다는 것을 보여주었다. 따라서 본 시스템은 향후에 텍스트 위주의 문서의 유사도나 XML과 같은 전자 문서의 유사도 평가에 지대한 영향을 줄 것으로 기대된다.

단어의 공기 관계 그래프를 이용한 문서 요약 시스템의 구현 (Implementation of summarization system for documents by using a word co-occurrence graph)

  • 류제;선복근;박보아;한광록
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.348-350
    • /
    • 2000
  • 본 논문은 문서의 내용을 요약하기 위한 시스템의 구현에 대해서 다룬다. 문서의 내용을 분석하기 위해서는 문서의 키워드를 추출하고, 추출된 키워드를 사용하여 문서의 핵심 내용을 찾는 두 가지의 작업이 이루어져야 한다. 본 논문에서는 키워드를 추출하기 위해 형태소 분석 및 전처리기, 그리고 단어의 공기 관계 그래프를 이용한 키워드 추출기를 이용하였으며, 추출된 키워드를 이용하여 문서의 핵심 문장을 찾아내는 핵심 문장 추출기, 그리고 추출된 문장을 분석하여 내용을 요약할 수 있도록 해주는 구문분석기가 이용된다.

  • PDF

검색 엔진의 ‘색인 모듈’의 문제와 합성어 사전 및 구문 정보 사전의 필요성 (Problems of Indexing Module in IR Systems and Lexicons of Complex Items and Syntactic Structures)

  • 남지순;최기선
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1997년도 제4회 학술대회 논문집
    • /
    • pp.5-15
    • /
    • 1997
  • 기존의 대부분의 정보 검색 시스템은 문서에 대한 ‘자동 색인 단계’를 거쳐 질의자의 요구에 적합한 문서들을 추출하도록 되어 있다. 이 과정에서 얼마나 적합한 문서를 빠짐없이 검색하였는가 하는 문제가, 검색 시스템의 효율성들 판단하는 데 가장 중요한 열쇠가 된다. 이 글에서는 ‘명사’ 중심의 키워드 추출이 안고 있는 몇 가지 문제점들에 관해서 논의하였다. 즉, 합성어 키워드 구축의 필요성, 동사 구문 정보에 대한 필요성, 부사구 표현에 대한 기술 필요성, 그리고 발화 상황이 고려되어야 하는 점등이 검토되었고, 이에 관한 해결책으로, 어휘정보 및 어절 정보, 나아가 구문 정보들을 담고 있는, 보다 체계적인 한국어 사전 시스템이 구축되어야 함을 강조하였다.

  • PDF

키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구 (Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods)

  • 이민호;최맹식;김정아;이충희;김보희;오효정;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-517
    • /
    • 2020
  • 구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.

  • PDF

의존관계에 기초한 일본어 키워드 추출방법 (The Method of Deriving Japanese Keyword Using Dependence)

  • 이태헌;정규철;박기홍
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.41-46
    • /
    • 2003
  • 본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

개념 기반 질의-응답 시스템에서 개념 규칙을 이용한 해답 추출 (Answer Extraction using Concept Rules in Concept-based Question-Answering System)

  • 강유환;안영민;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-188
    • /
    • 2005
  • 본 논문에서는 개념 기반 질의-응답 시스템에서 개념 규칙을 이용하여 해답을 추출하는 방법에 대하여 기술한다. 개념 기반 질의-응답 시스템은 질의문의 각 유형별 개념 정보를 이용하여 질의문을 분석하고 해답을 추출하는 시스템이다. 질의문의 키워드들을 개념에 따라 분류하고, 질의 유형별로 공통적으로 나타나는 개념들을 이용하여 개념 프레임을 정의한다. 또한, 개념 정보와 해답이 들어 있는 문장과 문단에서 공통적으로 나타나는 구문 특성을 이용하여 해답 추출을 위한 규칙을 작성한다. 개념 규칙은 형태 정보와 구문 정보를 포함하며, 질의 유형별로 따로 작성한다. 작성된 규칙을 이용하여 문서로부터 해답이 들어 있는 문장과 문단을 추출한 후 질의문의 해답 유형에 해당하는 개체를 해답 후보로 제시한다. 실험 결과 개념 규칙을 이용한 해답 추출의 정확도가 매우 높게 나타났다.

  • PDF

우리나라 기록관리학 분야의 연구영역 분석 - 논문제목의 구문 및 의미 구조를 중심으로 - (A Study on Intellectual Structure of Records Management and Archives in Korea: Based on Syntactic and Semantic Structure of Article Titles)

  • 김규환;장보성;이현정
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.417-439
    • /
    • 2009
  • 본 연구는 논문제목의 구문 및 의미구조를 기반으로 국내 기록관리학 분야의 연구영역의 특성을 분석하였다. 이를 위해 1999년부터 2008년까지 국내 기록관리학 분야 전문 학술지 3종으로부터 핵심 연구논문 344개를 선정하였다. 해당 연구논문의 제목을 대상으로 구문 및 의미 구조를 분석하여 논문제목에 포함된 키워드들의 역할개념으로 '연구도메인', '연구대상', '연구초점'을 추출하였다. 추출된 3개의 역할개념별로 키워드들을 배정하여 군집화 하였다. 군집화 결과를 통해 최종적으로 국내 기록관리학 분야에서 어떤 연구대상이 핵심 연구대상이며 핵심 연구대상은 어느 연구도메인에서 어떤 연구초점에 관심을 두고 있는지를 분석하였다.