• 제목/요약/키워드: paraphrases

검색결과 10건 처리시간 0.026초

정렬된 성경 코퍼스로부터 바꿔쓰기표현(paraphrase)의 자동 추출 (Automatic Extraction of Paraphrases from a Parallel Bible Corpus)

  • 이공주;윤보현
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.323-336
    • /
    • 2006
  • 바꿔쓰기(paraphrasing)는 동일한 내용을 다르게 표현하는 방식을 의미한다. 이러한 바꿔쓰기표현들(paraphrues)은 기계번역, 질의 응답 시스템, 문서 요약과 같은 다양한 분야에 매우 유용하게 사용될 수 있다. 그러나 이와 같은 바꿔쓰기표현의 유용성에도 불구하고 바꿔쓰기표현을 자동으로 추출할 수 있는 방법이 매우 어렵다. 우선 바꿔쓰기표현을 자동으로 추출할 수 있는 데이터를 구하는 것부터가 어려운 문제이다. 본 연구에서는 여러 버전의 한글 성경 코퍼스로부터 바꿔쓰기표현을 자동으로 추출해 보고자 한다. 성경은 각 문장이 절과 구로 나누어져 있어 문장과 문장을 정렬시키는 것이 매우 용이하다. 정렬된 여러 버전의 성경 코퍼스로부터 자율학습(unsupervised learning)을 통해서 자동으로 바꿔쓰기표현을 추출한다. 이와 같은 방법은 어휘수준의 바꿔쓰기표현 뿐만 아니라 구문수준의 바꿔쓰기표현도 추출할 수 있음을 보여준다.

  • PDF

Automatic Acquisition of Paraphrases Using Bilingual Dependency Relations

  • Hwang, Young-Sook;Kim, Young-Kil
    • ETRI Journal
    • /
    • 제30권1호
    • /
    • pp.155-157
    • /
    • 2008
  • This letter introduces a new method to automatically acquire paraphrases using bilingual corpora. It utilizes the bilingual dependency relations obtained by projecting a monolingual dependency parse onto the other language's sentence based on statistical alignment techniques. Since the proposed paraphrasing method can clearly disambiguate the sense of the original phrases using the bilingual context of dependency relations, it would be possible to obtain interchangeable paraphrases under a given context. Through experiments with parallel corpora of Korean and English language pairs, we demonstrate that our method effectively extracts paraphrases with high precision, achieving success rates of 94.3% and 84.6%, respectively, for Korean and English.

  • PDF

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

The Influence of English Proficiency and Text Types on Korean College Students' Paraphrasing for Plagiarism Prevention

  • Choe, Yoonhee
    • International Journal of Advanced Culture Technology
    • /
    • 제9권1호
    • /
    • pp.183-189
    • /
    • 2021
  • This study examines the effects of Korean college students' English proficiency and the English text types on their paraphrases. Korean college students with three groups of English proficiency (high, mid, and low) read two types of English texts, causal texts, and argumentative texts, and paraphrased them in English. Students' paraphrase text was evaluated in terms of content (idea exposition, idea development, and wrap up), organization (coherence and cohesion) and language use (grammatical accuracy), and analyzed by MANOVA. As a result, it was found that there was a significant difference in their paraphrase performance according to the participants' English proficiency levels rather than the types of English texts. The results of this study have educational implications for English paraphrase education to prevent plagiarism for Korean university students.

술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석 (Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment)

  • 최성필;송사광;맹성현
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.135-148
    • /
    • 2012
  • 본 논문에서는 Predicate-Argument Tuple (PAT)를 기반으로 텍스트 간 심층적 근사 정렬(Approximate Alignment)을 통한 문장 단위 바꿔쓰기표현(sentential paraphrase) 식별 모델을 제안한다. 두 문장 간의 PAT 기반 근사 정렬 결과를 바탕으로, 두 문장의 의미적 연관성을 효과적으로 표현하는 다양한 정렬 자질(alignment feature)들을 정의함으로써, 바꿔쓰기표현 식별 문제를 지도 학습(supervised learning) 기반의 자동 분류 모델로 접근하였다. 실험을 통해서 제안 모델의 가능성을 확인할 수 있었으며, 시스템의 오류 분석을 통해 제안 방법이 아직 해결하지 못하는 다양한 바꿔쓰기표현 유형들을 식별함으로써 향후 시스템의 성능 개선 방향을 도출하였다.

피봇 가중치 접근을 통한 한국어 패러프레이즈 추출 (Pivot Weighting Approach to Extract Korean Paraphrases)

  • 박에스더;이형규;김민정;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-36
    • /
    • 2010
  • 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇 언어로 하여 단어 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류 전파 문제가 큰 단점이 된다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우, 단어 정렬 오류가 더 많고 이로 인해 잘못된 피봇 프레이즈가 선정되는 문제가 더욱 심각하다. 이런 문제를 보완하기 위해, 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서, 올바른 피봇 프레이즈에 더 높은 가중치를 부여 하는 방법을 제안한다. 실험 결과, 기존의 패러프레이즈 추출 방법에 제안하는 피봇 가중치 부여 방법을 추가적으로 적용했을 때, 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다.

  • PDF

Modern Methods of Text Analysis as an Effective Way to Combat Plagiarism

  • Myronenko, Serhii;Myronenko, Yelyzaveta
    • International Journal of Computer Science & Network Security
    • /
    • 제22권8호
    • /
    • pp.242-248
    • /
    • 2022
  • The article presents the analysis of modern methods of automatic comparison of original and unoriginal text to detect textual plagiarism. The study covers two types of plagiarism - literal, when plagiarists directly make exact copying of the text without changing anything, and intelligent, using more sophisticated techniques, which are harder to detect due to the text manipulation, like words and signs replacement. Standard techniques related to extrinsic detection are string-based, vector space and semantic-based. The first, most common and most successful target models for detecting literal plagiarism - N-gram and Vector Space are analyzed, and their advantages and disadvantages are evaluated. The most effective target models that allow detecting intelligent plagiarism, particularly identifying paraphrases by measuring the semantic similarity of short components of the text, are investigated. Models using neural network architecture and based on natural language sentence matching approaches such as Densely Interactive Inference Network (DIIN), Bilateral Multi-Perspective Matching (BiMPM) and Bidirectional Encoder Representations from Transformers (BERT) and its family of models are considered. The progress in improving plagiarism detection systems, techniques and related models is summarized. Relevant and urgent problems that remain unresolved in detecting intelligent plagiarism - effective recognition of unoriginal ideas and qualitatively paraphrased text - are outlined.

유명론적 번역에 대하여 (On Nominalist Paraphrase)

  • 주요한
    • 논리연구
    • /
    • 제14권1호
    • /
    • pp.77-102
    • /
    • 2011
  • 이 논문은 콰인의 존재론적 개입 기준이 유명론자에게 야기하는 문제에 관한 것이다. "존재한다는 것은 변항의 값이 된다는 것이다"는 것이 콰인의 분명한 존재론적 개입 기준이다. 이 기준에 의하면, 우리가 어떤 문장을 참이라고 여길 경우, 그 문장이 참이 되기 위해서 존재해야 하는 것들의 존재에 우리가 개입하게 된다. 그런데 이 기준은 유명론자에게 문제를 야기한다. "겸손은 미덕이다"라는 것을 참이라고 받아들이고 싶은 유명론자는, 겸손이라는 속성의 존재를 받아들여야 한다는 것이다. 그러나 유명론자는 "겸손은 미덕이다"라는 말이 의미하는 것은 받아들이고 싶지만, 겸손과 같은 속성의 존재를 받아들이고 싶어하지 않는다. 결국 유명론자는, 상식을 부정하든지, 속성의 존재를 받아들이든지 선택해야 하는 딜레마에 처해있는 것이다. 이러한 난국을 빠져나갈 수 있는 방법은, 속성에 대한 존재론적 개입을 피하면서도 원래 문장과 같은 뜻을 가지는 패러프레이즈를 제시하는 것이다. 그러나, 올바른 패러프레이즈를 제시하는 것은 항상 어려운 일이었다. 이와 같은 문장들에 대해서 패러프레이즈를 제시하려는 노력이 있었지만, 여러 어려움 때문에 모두 실패하고 말았다. 이 논문에서는, 기존의 문제점들을 모두 극복하는 성공적인 패러프레이즈가 제시될 것이다. 하지만 그전에 콰인의 기준에 관한 몇몇 주제들이 더 명확히 정리될 필요가 있다. 패러프레이즈가 아예 필요하지 않다는 루이스의 비판 역시 또한 다뤄질 것이다.

  • PDF

다성적 관점에서 본 프랑스어 속담과 ′의견동사+속담′ 구문의 해독 (A Polyphonic Approach to French Proverbs and the Readings of the Combination ′Opinion Verb + Proverb′)

  • 황경자
    • 인문언어
    • /
    • 제1권1호
    • /
    • pp.275-294
    • /
    • 2001
  • This article aims to define the nature of proverbs from a polyphonic point of view and examine different readings of the complement involved in the combination of a proverb with a verb of personal opinion. An utterer of a proverb is not himself the author of the proverb. He may well be a 'speaker' of a proverb, but from a polyphonic view point he is not an 'enunciator' of the principle that underlies it. When we say that a speaker of a proverb is not its enunciator, we do not simply mean that he is not the author of the 'content' of the proverb he speaks: we mean that he is not the author of its 'form' either. The fact that a proverb loses its proverbial character when one paraphrases it proves that its form is not at the speaker's disposal. But a single factor cannot be held responsible for what a proverb is. As an indicator of the 'wisdom of the nation,' or vox populi, a proverb is the achievement of the 'collective enunciator.' The polyphony inherent in the proverb pits a particular speaker against a collective enunciator. This collective character of the proverb as a vox populi comes from its character as a phrasal denomination. Given that a proverb reflects a collective judgment and not a personal opinion, how do we interpret the combination of a proverb with a verb of personal opinion such as I think that ...\ulcorner Such a combination gives rise to readings at distinct levels: two types of metalinguistic reading and a reading based on the content of the proverb. The first level of reading, being applicative in nature, can be local or general, depending on the speaker's opinion as to the applicability of the proverb to a situation, particular or general. These applicative readings always involve polyphonic dissociation between the speaker and the enunciator. The second level of reading, which depends on the content of the proverb, is the result of the operation of deproverbialization, which makes the proverb lose its denominative status to preserve only its status as a generic phrase. The proverb, thus deproverbialized, looks like the series 'NP + VP.' For this reading, the speaker of the proverb takes into consideration the possibility of attributing a predicate to a nominal syntagm. Here occurs an identity between the speaker and the enunciator. It is not the case, however, that one can deproverbialize just any proverbs. In approaching to a locally typifying generic phrase, a proverb admits of being deproverbialized by an opinion verb only when its form does not render it difficult, either syntactically or metaphorically, to incorporate that proverb into the relevant combination, and when the proverb intrinsically possesses the traits that meet the conditions for the use of the opinion verb at hand. One can also maintain, based on the notion of deproverbialization, that a proverb expresses a collective judgment, a deproverbialized individual judgment.

  • PDF