• 제목/요약/키워드: off-topic document

검색결과 5건 처리시간 0.017초

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

합성곱 신경망을 이용한 On-Line 주제 분리 (On-Line Topic Segmentation Using Convolutional Neural Networks)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.585-592
    • /
    • 2016
  • 글이나 대화를 일정한 주제의 단위로 나누는 것을 주제 분리라고 한다. 지금까지 주제 분리는 주로 완결된 하나의 문서에서 최적화된 분리를 찾는 방향으로 진행되어 왔다. 하지만 몇몇 응용은 글이나 대화가 진행 중에 주제 분리를 할 필요가 있다. 본 논문에서는 합성곱 신경망을 이용한 교사 학습 모델을 통해 문장의 진행 중에 주제 분리를 수행하는 모델에 대해 제안한다. 그리고 제안한 모델의 성능 검증을 위해 On-line 상황을 가정한 실험과 기존의 C99모델을 결합한 실험을 수행하였다. 실험결과 각각 17.8과 11.95의 Pk 점수를 얻었고, 이를 통해 본 논문의 모델을 통한 On-line 상황에서의 주제 분리 활용의 가능성을 확인하였다.

영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출 (Automatic Detection of Off-topic Documents using ConceptNet and Essay Prompt in Automated English Essay Scoring)

  • 이공주;이경호
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1522-1534
    • /
    • 2015
  • 본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

여학생 친화적 과학활동 프로그램의 운영 평가 (Evaluation on the Implementation of Girl Friendly Science Activity)

  • 전영석;신영준
    • 한국과학교육학회지
    • /
    • 제24권3호
    • /
    • pp.442-458
    • /
    • 2004
  • 여학생 친화적 과학 활동 프로그램의 활용 현황을 조사하고 시범운영 결과를 분석하여 이를 토대로 프로그램의 확대 보급 방안을 마련하기 위하여 본 연구를 수행하였다. 1999년 여성부의 연구용역으로 개발된 여학생 친화적 과학활동 자료는 5개 주제의 특기적성 교육자료와 7학년부터 10학년 까지의 심화 보충 학습자료들인데, 이 자료는 서울 지역의 과학교사 모임인 '신나는 과학을 만드는 사람들'의 홈페이지에 체계적으로 정리되어 수록되었으며 한글 문서를 다운로드받아서 활용할 수도 있고 html 형식의 문서를 모니터 상에서 그대로 확인할 수도 있도록 하였다. 현재 여학생 친화적 과학활동 자료 홈페이지의 방문객이 꾸준히 이어지고 있다. 특기 적성 프로그램에 대한 시범 실시 결과, 개발된 자료는 개발 목적과의 일치도 및 내용 및 수준, 적용 효과에 대해서는 높은 점수를 얻었지만 교사 수행의 수월성, 조직과 운영 측면에서는 낮은 점수를 얻었다. 또한 학생들은 과학에 대한 인식이 변화되었고, 간학문적인 활동을 통해 다양한 과학 경험을 하였다는 점에 대해서 긍정적으로 생각하였다. 한편, 학생들의 활동 내용에 대한 평가는 성공의 경험에 크게 좌우되며, 주로 오리고 자르고 붙이는 일로 이루어진 활동에 대한 평가 점수는 낮게 나타났다. 학생들의 성취도 검사에 의하면, 정의적 영역은 향상되었지만(p<0.05), 탐구 능력의 향상은 통계적으로 의미가 없었다. 그러나 많은 시범 실시학교에서 협동 활동 및 토의 능력의 향상과 관찰, 추론 능력이 향상되었음을 관찰하였다고 보고하였다. 본 프로그램의 확대 보급을 위해서는 프로그램이 교사들의 지지를 얻고 이들의 교수 학습 전략을 변화될 수 있도록 유도하는 것이 가장 중요하며, 이에 따라 교사 커뮤니티를 형성하고 교사 연수를 실시하는 것이 필요하다는 결론을 얻었다. 또한 프로그램의 추가 개발 및 국내 여성 과학 기술인을 적극적으로 발굴하여 교육 자료화하는것 등이 추후 실천해야할 과제로 남아있다.