• 제목/요약/키워드: 적합 문장

검색결과 209건 처리시간 0.028초

유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성 (An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback)

  • 안홍국;고영중;서정연
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

Semantic parsing 기반 지식 베이스 질의응답 시스템의 어휘-의미 패턴 질의 템플릿을 통한 보완 (Assisting semantic parsing-based QA system with lexico-semantic pattern query template)

  • 심효섭;박선영;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-258
    • /
    • 2014
  • 본 논문에서는 semantic parsing과 사전 정의된 어휘-의미 패턴 질의 템플릿 방법론을 결합하여 자연어 질의로부터 RDF 지식베이스에 질의하기 위한 SPARQL 쿼리를 생성하는 방법을 제안한다. semantic parsing 접근법은 문장의 표현과 분리된 형식적 의미표현만을 포착해내므로, paraphrase 혹은 의미 변화와 무관한 어순의 변화에 강인하지만, 일부 자연어 질의문장에는 단순한 의미 및 구조를 갖는 문장도 적합한 형식적 의미표현을 생성하지 못하는 단점이 있다. 따라서 이 연구에서는 이러한 단순한 문장에 있어서는 사전 정의된 질의 템플릿을 사용하여 적합한 쿼리를 생성하되, 적합한 템플릿을 선택하는데 있어 해당 질의문장의 어휘-의미적 유형을 포착하고 해당 정보를 이용하는 방법을 이용하였으며 이를 통해 주 방법론의 약점을 보완하는 제한적인 효과를 얻을 수 있었다.

  • PDF

ELECTRA 기반 순차적 문장 분류 모델 (Sequential Sentence Classification Model based on ELECTRA)

  • 최기현;김학수;양성영;정재홍;임태구;김종훈;박찬규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-330
    • /
    • 2020
  • 순차적 문장 분류는 여러 문장들을 입력으로 받아 각 문장들에 대하여 사전 정의된 라벨을 할당하는 작업을 말한다. 일반적인 문장 분류와 대조적으로 기준 문장과 주변 문장 사이의 문맥 정보가 분류에 큰 영향을 준다. 따라서 입력 문장들 사이의 문맥 정보를 반영하는 과정이 필수적이다. 최근, 사전 학습 기반 언어 모델의 등장 이후 여러 자연 언어 처리 작업에서 큰 성능 향상이 있었다. 앞서 언급하였던 순차적 문장 분류 작업의 특성상 문맥 정보를 반영한 언어 표현을 생성하는 사전 학습 기반 언어 모델은 해당 작업에 매우 적합하다는 가설을 바탕으로 ELECTRA 기반 순차적 분류 모델을 제안하였다. PUBMED-RCT 데이터 셋을 사용하여 실험한 결과 제안 모델이 93.3%p로 가장 높은 성능을 보였다.

  • PDF

초등학교 1학년 수학 교과서의 어휘 및 문장 적합성 분석 (An Analysis on Suitability of Words and Sentences in Mathematics Textbooks for Elementary First Grade)

  • 장혜원;임미인
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제26권2호
    • /
    • pp.247-267
    • /
    • 2016
  • 2009 개정 교육과정에 따른 초등학교 수학 교과서가 한글 교육을 시작한지 얼마 되지 않은 1학년 학생들에게 수학적 내용 지식 이외에 부수적으로 어휘 및 문장의 양과 수준에 의한 어려움을 야기한다는 지적이 있어 왔다. 이에 본 연구는 1학년 수학 교과서의 어휘와 문장의 적합성을 분석하여 시사점을 얻는 것을 목적으로 한다. 어휘 차원에서 난이도와 친숙도, 문장 차원에서 구조, 길이, 표현의 적합성을 분석 내용으로 한다. 분석 결과, 어휘 차원에서 1학년 수준에 난이도가 높은 어휘 108개, 친숙도가 낮은 어휘 6개가 확인되었다. 문장 차원에서는 단문에 비해 구조가 복잡한 중문 37개, 복문 727개, 중복문 38개가 포함된 것으로 나타났으며, 8개 어절을 초과하여 구성된 긴 문장도 237개 추출되었다. 표현 측면에서는 2가지 이상의 활동을 동시에 지시하는 문장 168개, 명사나 형용사가 3개 이상 연속적으로 연결되어 있는 문장 52개 등 어려움의 원인을 확인하였다. 이러한 결과에 기초한 논의로부터 차후 초등 저학년 수학 교과서 개발을 위한 몇 가지 시사점을 제안하였다.

한글 인식과정에서의 안구운동 특성분석

  • 김창희;이동춘
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1995년도 춘계학술대회논문집
    • /
    • pp.199-208
    • /
    • 1995
  • 본 연구에서는 사람이 한글을 읽는 동안에 문자인식에 영향을 미치는 문장구조의 여러 요소 중 글자크기와 줄간간격에 대한 주시시간과 오독률을 분석함으로써 한글 인식에 있어서 사람에게 적합한 문장구조를 제시하는 데 그 목적이 있다고 할 수 있다. 실험에서는 남녀 각 5명씩의 피실험자에게 아이카메라를 착용시킨 후, 40cm 거리에서 문장중심과 피실험자의 시선이 일치되게 하여, 각기 다른 문장구조를 가 지는 9개의 실험예문(B5용지)을 소리내어 읽게 하였다. 실험결과로 부터 글자크기 와 줄간간격은 읽기수행도(reading performance)에 영향을 미치는 것으로 나타났다. 이를 이용하여 인쇄물의 제작시에 적용시켜 읽기수행도를 제고시킬 수 있다.

  • PDF

이종의 말뭉치를 활용한 자기 지도 문장 임베딩 학습 방법 (Self-supervised Learning Method using Heterogeneous Mass Corpus for Sentence Embedding Model)

  • 김성주;서수빈;박진성;박성현;전동현;김선훈;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-36
    • /
    • 2020
  • 문장의 의미를 잘 임베딩하는 문장 인코더를 만들기 위해 비지도 학습과 지도 학습 기반의 여러 방법이 연구되고 있다. 지도 학습 방식은 충분한 양의 정답을 구축하는데 어려움이 있다는 한계가 있다. 반면 지금까지의 비지도 학습은 단일 형식의 말뭉치에 한정해서 입력된 현재 문장의 다음 문장을 생성 또는 예측하는 형식으로 문제를 정의하였다. 본 논문에서는 위키피디아, 뉴스, 지식 백과 등 문서 형태의 말뭉치에 더해 지식인이나 검색 클릭 로그와 같은 구성이 다양한 이종의 대량 말뭉치를 활용하는 자기 지도 학습 방법을 제안한다. 각 형태의 말뭉치에 적합한 자기 지도 학습 문제를 설계하고 학습한 경우 KorSTS 데이셋의 비지도 모델 성능 평가에서 기준 모델 대비 7점 가량의 성능 향상이 있었다.

  • PDF

한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축 (Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts)

  • 노은정;이연수;김연우;이도길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

빈발질의를 추천하는 질의 응답 시스템 (Question Answering System with Recommending FAQ)

  • 안찬민;최범기;이주홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.500-503
    • /
    • 2009
  • 질의 응답 시스템은 사용자가 입력한 질의에 대한 답변 문장들을 보여주는 시스템이다. 대부분의 기존의 연구는 사용자의 질의문에 대해서 가장 적합한 문장들을 찾는 방법을 제안하고 있다. 그러나 질의문에 사용되는 단어들은 근본적으로 애매모호성을 포함하고 있기 때문에, 시스템이 사용자의 정확한 질의 의도를 파악하여 가장 적합한 문장들을 찾는 것은 불가능하다. 이러한 근본적인 문제를 개선하기 위해서 여러가지 연구들이 수행되었다. 본 논문에서는 이러한 문제점을 해결하기 위한 방법으로서 시스템에서 답변이 준비된 빈발 질의(FAQ)들 중에서 사용자의 질의를 함의하는 것들을 추천하여 사용자가 자신의 질의 의도에 따라 정확한 답변을 효과적으로 찾도록 도와주는 방법을 제안한다.

HMM을 이용한 채팅 텍스트로부터의 화자 감정상태 분석 (Emotional States Recognition of Text Data Using Hidden Markov Models)

  • 문현구;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.127-129
    • /
    • 2001
  • 입력된 문장을 분석하여 미리 정해진 범주에 따라 그 문장의 감정 상태의 천이를 출력해 주는 감정인식 시스템을 제안한다. Naive Bayes 알고리즘을 사용했던 이전 방법과 달리 새로 연구된 시스템은 Hidden Markov Model(HMM)을 사용한다. HMM은 특정 분포로 발생하는 현상에서 그 현상의 원인이 되는 상태의 천이를 찾아내는데 적합한 방법으로서, 하나의 문장에 여러 가지 감정이 표현된다는 가정 하에 감정인식에 관한 이상적인 알고리즘이라 할 수 있다. 본 논문에서는 HMM을 사용한 감정인식 시스템에 관한 개요를 설명하고 이전 버전에 비해 보다 향상된 실험결과를 보여준다.

  • PDF

한국어 문형 패턴 조사기의 설계 및 구현 (Design and Implementation of Frame Pattern Analyzer in Korean)

  • 송유석;이상곤;이인홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.409-412
    • /
    • 2010
  • 본 논문에서는 한국어에서 출현하는 일반적인 형태의 문장 패턴을 조사하여 제2 외국어로서 한국어를 배우는 외국인들에게 우선적으로 가르쳐야 할 한국어의 문장 패턴을 검색하는 프로그램을 개발하였다. 이를 위해 지난 10년 동안 조사 구축된 21세기 세종 계획의 결과물에 출현하는 한국어에 적합한 문장 패턴을 조사하는 프로그램을 설계하였다.