• Title/Summary/Keyword: 내용 문장

Search Result 398, Processing Time 0.03 seconds

A Document Summarization System Using Dynamic Connection Graph (동적 연결 그래프를 이용한 자동 문서 요약 시스템)

  • Song, Won-Moon;Kim, Young-Jin;Kim, Eun-Ju;Kim, Myung-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.62-69
    • /
    • 2009
  • The purpose of document summarization is to provide easy and quick understanding of documents by extracting summarized information from the documents produced by various application programs. In this paper, we propose a document summarization method that creates and analyzes a connection graph representing the similarity of keyword lists of sentences in a document taking into account the mean length(the number of keywords) of sentences of the document. We implemented a system that automatically generate a summary from a document using the proposed method. To evaluate the performance of the method, we used a set of 20 documents associated with their correct summaries and measured the precision, the recall and the F-measure. The experiment results show that the proposed method is more efficient compared with the existing methods.

Question Retrieval using Deep Semantic Matching for Community Question Answering (심층적 의미 매칭을 이용한 cQA 시스템 질문 검색)

  • Kim, Seon-Hoon;Jang, Heon-Seok;Kang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

Development of Korean dataset for joint intent classification and slot filling (발화 의도 예측 및 슬롯 채우기 복합 처리를 위한 한국어 데이터셋 개발)

  • Han, Seunggyu;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.1
    • /
    • pp.57-63
    • /
    • 2021
  • Spoken language understanding, which aims to understand utterance as naturally as human would, are mostly focused on English language. In this paper, we construct a Korean language dataset for spoken language understanding, which is based on a conversational corpus between reservation system and its user. The domain of conversation is limited to restaurant reservation. There are 7 types of slot tags and 5 types of intent tags in 6857 sentences. When a model proposed in English-based research is trained with our dataset, intent classification accuracy decreased a little, while slot filling F1 score decreased significantly.

Teacher's Perception of Activity Materials in Housing Area of Middle School Technology & Home Economics Textbook (중학교 기술.가정 주생활영역 활동자료에 대한 교사의 인식)

  • Lee, Young-Doo;Cho, Jea-Soon
    • Journal of Korean Home Economics Education Association
    • /
    • v.20 no.3
    • /
    • pp.215-230
    • /
    • 2008
  • Activity materials in textbook could facilitate students' oriented self-help learning. The purpose of this paper is to find out characteristics of activity materials in the housing area of middle school Technology and Home Economics and teacher's perception of them. The data were collected from 253 middle school teachers who had ever taught the housing unit in any of 6 textbooks. The results showed that the number of activity materials were differed by the characteristics of the materials such as type of materials, feature of non sentence materials, and type of activity, depend on authors as well as textbooks. In general, teachers interests in the materials were higher than those of students even the trends of the interests were the same. Adequacy of activity contents and related knowledge of teachers were higher than adequacy of level. Teachers thought time and extra search beyond class were barrier to full the interests of students. Further research is suggested to find out whether higher interests in the materials are related to the higher activating rate of them.

  • PDF

Generic Text Summarization Using Non-negative Matrix Factorization (비음수 행렬 인수분해를 이용한 일반적 문서 요약)

  • Park Sun;Lee Ju-Hong;Ahn Chan-Min;Park Tae-Su;Kim Ja-Woo;Kim Deok-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.469-472
    • /
    • 2006
  • 본 논문은 비음수 행렬 인수분해(NMF, non-negative matrix factorization)를 이용하여 문장을 추출하여 문서를 요약하는 새로운 방법을 제안하였다. 제안된 방법은 문장추출에 사용되는 의미 특징(semantic feature)이 비 음수 값을 갖기 때문에 잠재의미분석에 비해 문서의 내용을 정확하게 요약한다. 또한, 적은 계산비용을 통하여 쉽게 요약 문장을 추출할 수 있는 장점을 갖는다.

  • PDF

Text Undestanding System for Summarization (텍스트 이해 모델에 기반한 정보 검색 시스템)

  • Song, In-Seok;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

A Study on the Speech Recognition For the Voice Dialing System (Voice Dialing System을 위한 음성인식)

  • 이성권
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.365-368
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 Voice Dialing System을 위한 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 전국 지역명과 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 음성으로 다이얼링을 수행하기 위하여 문맥자유문법을 이용하여 제한적이나마 대화체문장으로 수행할 수 있도록 하였다. 그리하여 숫자음에 대하여 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 문장으로도 음성 다이얼링을 수행하였을 경우 문장내에 단어와 숫자음에 대하여 약 80%의 인식률을 보였다.

  • PDF

Design of a Question-answering System Based on SPARQL (SPARQL 기반의 질의응답 시스템 설계)

  • Ahn, HyeokJu;Lee, SungHee;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.153-155
    • /
    • 2014
  • 사용자가 질의한 내용에 대한 결과를 찾기 위해 본 논문은 DBPedia에서 제공해주는 트리플 구조를 TDB에 저장하고, 사용자 질의 문장에서 트리플을 찾은 뒤 해당 문장의 규칙을 추론하여 SPARQL 쿼리를 생성한 뒤, 마지막으로 Fuseki를 이용해 결과를 출력하는 Q&A시스템을 제안한다. SPARQL 쿼리를 생성함에 있어 질의의 정답을 찾아내는 타겟이 있다는 점과 한국어의 조사와 부사부분에서 쿼리가 변형될 수 있다는 점을 통해 유동적인 쿼리를 생성한다. 그리고 DBPedia에 없는 단어가 질의에서 나타날 수 있기 때문에 이를 정제해주는 작업 또한 필요하다. 한국어는 어절순서가 고정적이지 않다는 점, 조사, 부사에 의해 문장의 의미가 변형되는 또 다른 부분을 파악하여 앞으로 시스템을 개발함에 있어 정확률을 상승시킬 예정이다.

  • PDF

Implementation of AAC based on Sentence Pattern derived by Verb (동사의 문형 패턴을 이용한 보완 대체 의사소통 인터페이스의 구현)

  • Ryu, Je;Han, Kwang-Rok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.759-762
    • /
    • 2005
  • 본 논문에서는 말로써 의사소통을 하는데 장애를 겪는 사람들을 위한 보완 대체 의사소통 도구(AAC)의 구현에 관한 내용을 다룬다. 보완 대체 의사소통 도구는 단어의 의미를 그림으로 표현하고 그림들을 이용하여 의사소통을 하는 방법이 가장 일반적이며, 본 논문에서도 이러한 그림들을 이용한 방법을 사용하였다. 본 논문에서는 단어 중에서 동사를 중심으로 선택된 그림들을 조합하여 문장을 생성하는 방법을 이용하였으며, 각각의 동사를 자동사, 타동사 등으로 구분하여 각각의 동사가 가지는 문장의 형태를 체계화하였으며, 사용자가 선택한 그림들을 동사의 문형 패턴에 맞게 조합하여, 표현하고자 하는 문장으로 변환시킴으로써 의사소통이 가능해지도록 하였다.

  • PDF

Intermediate Concept Representation for Automatic Summary (요약문 생성을 위한 중간 개념 표현)

  • 서연경;노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.355-357
    • /
    • 2001
  • 사건, 사고 관련 기사의 요약은 단순히 원문이 무엇을 말하는 가를 지시하는 것보다 가능한 요지를 판독하면서 필요한 정보를 누락시키지 않고 표현할 수 있는 것이 바람직하다. 이를 위하여 본 논문에서는 사건, 사고 관련 기사의 자동 요약문 생성을 위한 중간 개념 표현 방법을 제안한다. 단락 자동 구분을 통한 중요 문장 추출을 거쳐 각 단락의 중심문장을 파악하고, 단락내의 정보들을 의미 파악된 중심 문장에 추가, 병합하여 단락의 내용을 대표하는 Paragraph Representation Structure(PRS)를 생성한다. 이들은 통합과정을 거쳐 하나의 Unified Representation Structure(URS)로 만들어지며, 이것은 중간 개념 표현으로 다국어 자동 요약문 생성을 위한 기반이 될 수 있다. 본 연구에 이용한 코퍼스는 비행기, 선박, 차량, 열차 사고와 화제 폭발 및 사건 관련 신문 기사를 대상으로 한다.

  • PDF