• 제목/요약/키워드: paraphrase

검색결과 30건 처리시간 0.025초

정렬된 성경 코퍼스로부터 바꿔쓰기표현(paraphrase)의 자동 추출 (Automatic Extraction of Paraphrases from a Parallel Bible Corpus)

  • 이공주;윤보현
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.323-336
    • /
    • 2006
  • 바꿔쓰기(paraphrasing)는 동일한 내용을 다르게 표현하는 방식을 의미한다. 이러한 바꿔쓰기표현들(paraphrues)은 기계번역, 질의 응답 시스템, 문서 요약과 같은 다양한 분야에 매우 유용하게 사용될 수 있다. 그러나 이와 같은 바꿔쓰기표현의 유용성에도 불구하고 바꿔쓰기표현을 자동으로 추출할 수 있는 방법이 매우 어렵다. 우선 바꿔쓰기표현을 자동으로 추출할 수 있는 데이터를 구하는 것부터가 어려운 문제이다. 본 연구에서는 여러 버전의 한글 성경 코퍼스로부터 바꿔쓰기표현을 자동으로 추출해 보고자 한다. 성경은 각 문장이 절과 구로 나누어져 있어 문장과 문장을 정렬시키는 것이 매우 용이하다. 정렬된 여러 버전의 성경 코퍼스로부터 자율학습(unsupervised learning)을 통해서 자동으로 바꿔쓰기표현을 추출한다. 이와 같은 방법은 어휘수준의 바꿔쓰기표현 뿐만 아니라 구문수준의 바꿔쓰기표현도 추출할 수 있음을 보여준다.

  • PDF

The Sequence Labeling Approach for Text Alignment of Plagiarism Detection

  • Kong, Leilei;Han, Zhongyuan;Qi, Haoliang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권9호
    • /
    • pp.4814-4832
    • /
    • 2019
  • Plagiarism detection is increasingly exploiting text alignment. Text alignment involves extracting the plagiarism passages in a pair of the suspicious document and its source document. The heuristics have achieved excellent performance in text alignment. However, the further improvements of the heuristic methods mainly depends more on the experiences of experts, which makes the heuristics lack of the abilities for continuous improvements. To address this problem, machine learning maybe a proper way. Considering the position relations and the context of text segments pairs, we formalize the text alignment task as a problem of sequence labeling, improving the current methods at the model level. Especially, this paper proposes to use the probabilistic graphical model to tag the observed sequence of pairs of text segments. Hence we present the sequence labeling approach for text alignment in plagiarism detection based on Conditional Random Fields. The proposed approach is evaluated on the PAN@CLEF 2012 artificial high obfuscation plagiarism corpus and the simulated paraphrase plagiarism corpus, and compared with the methods achieved the best performance in PAN@CLEF 2012, 2013 and 2014. Experimental results demonstrate that the proposed approach significantly outperforms the state of the art methods.

포인터 생성 네트워크를 이용한 패러프레이즈 생성 (Generation Paraphrase using Pointer Generation Network)

  • 박다솔;김영길;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.535-539
    • /
    • 2020
  • 다양한 발화를 모델링하는 요구는 자연어 처리 분야에서 꾸준히 있었으며 단어, 구 또는 문장과 동등한 의미 콘텐츠를 자동으로 식별하고 생성하는 것은 자연어 처리의 중요한 부분이다. 본 논문에서는 포인터 생성 네트워크(Pointer Generate Nework)를 이용하여 패러프레이즈 생성 모델을 제안한다. 제안한 모델의 성능을 측정하기 위해 사람이 직접 구축한 유사 문장 코퍼스를 이용하였으며, 토큰 단위의 BLEU-4 0.250, ROUGE_L 0.455, CIDEr 2.190의 성능을 보였다. 하지만 입력 문장과 동일한 문장을 출력하는 문제점이 존재하여 빔서치(beam search)를 적용하여 입력 문장과 비교하여 생성 문장을 선택하는 방식을 적용하였다. 입력 문장과 동일한 문장을 제외한 문장으로 평가를 진행했으며, 토큰 단위의 BLEU-4 0.234, ROUGE_L 0.459, CIDEr 2.041의 성능을 보였으나, 패러프레이즈 생성 데이터 양이 크게 증가하였다. 본 연구는 문장 간의 의미적으로 동일한 정보를 정확하게 추출할 수 있게 됨으로써 정보 추출, 온톨로지 생성에 도움이 될 것이다. 또한 이러한 기법이 챗봇에서 사용자의 의도 탐지 및 MRC와 같은 자연어 처리의 여러 분야에 유용한 자원으로 사용될 것이다.

  • PDF

패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구 (A Study on the Construction of keyphrase dataset for paraphrase extraction)

  • 강혜린;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.357-362
    • /
    • 2020
  • 자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

  • PDF

말뭉치 자원 희소성에 따른 통계적 수지 신호 번역 문제의 해결 (Addressing Low-Resource Problems in Statistical Machine Translation of Manual Signals in Sign Language)

  • 박한철;김정호;박종철
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.163-170
    • /
    • 2017
  • 통계적 기계 번역을 이용한 구어-수화 번역 연구가 활발해짐에도 불구하고 수화 말뭉치의 자원 희소성 문제는 해결되지 않고 있다. 본 연구는 수화 번역의 첫 번째 단계로써 통계적 기계 번역을 이용한 구어-수지 신호 번역에서 말뭉치 자원 희소성으로부터 기인하는 문제점들을 해결할 수 있는 세 가지 전처리 방법을 제안한다. 본 연구에서 제안하는 방법은 1) 구어 문장의 패러프레이징을 통한 말뭉치 확장 방법, 2) 구어 단어의 표제어화를 통한 개별 어휘 출현 빈도 증가 및 구어 표현의 번역 가능성을 향상시키는 방법, 그리고 3) 수지 표현으로 전사되지 않는 구어의 기능어 제거를 통한 구어-수지 표현 간 문장 성분을 일치시키는 방법이다. 서로 다른 특징을 지닌 영어-미국 수화 병렬 말뭉치들을 이용한 실험에서 각 방법론들이 단독으로 쓰일 때와 조합되어 함께 사용되었을 때 모두 말뭉치의 종류와 관계없이 번역 성능을 개선시킬 수 있다는 것을 확인할 수 있었다.

크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가 (A Crowdsourcing-Based Paraphrased Opinion Spam Dataset and Its Implication on Detection Performance)

  • 이성운;김성순;박동현;강재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.338-343
    • /
    • 2016
  • 웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터 셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸 분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.

FAQ 분류 성능 향상을 위한 클래스 일치 여부 결합 학습 모델 (Jointly learning class coincidence classification for FAQ classification)

  • 양동일;함진아;이강욱;이지연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.12-17
    • /
    • 2019
  • FAQ(Frequently Asked Questions) 질의 응답 시스템은 자주 묻는 질문과 답변을 정의하고, 사용자 질의에 대해 정의된 답변 중 가장 알맞는 답변을 추론하여 제공하는 시스템이다. 정의된 대표 질문 및 대응하는 답변을 클래스(Class)라고 했을 때, FAQ 질의 응답 시스템은 분류(Classification) 문제라고 할 수 있다. 종래의 FAQ 분류는 동일 클래스 내 동의 문장(Paraphrase)에서 나타나는 공통적인 특징을 통해 분류 문제를 학습하였으나, 이는 비슷한 단어 구성을 가지면서 한 두 개의 단어에 의해 의미가 다른 문장의 차이를 구분하지 못하며, 특히 서로 다른 클래스에 속한 학습 데이터 간에 비슷한 의미를 가지는 문장이 존재할 때 클래스 분류에 오류가 발생하기 쉬운 문제점을 가지고 있다. 본 논문에서는 이 문제점을 해결하고자 서로 다른 클래스 내의 학습 데이터 문장들이 상이한 클래스임을 구분할 수 있도록 클래스 일치 여부(Class coincidence classification) 문제를 결합 학습(Jointly learning)하는 기법을 제안한다. 동일 클래스 내 학습 문장의 무작위 쌍(Pair)을 생성 및 학습하여 해당 쌍이 같은 클래스에 속한다는 것을 학습하게 하면서, 동시에 서로 다른 클래스 간 학습 문장의 무작위 쌍을 생성 및 학습하여 해당 쌍은 상이한 클래스임을 구분해 내는 능력을 함께 학습하도록 유도하였다. 실험을 위해서는 최근 발표되어 자연어 처리 분야에서 가장 좋은 성능을 보이고 있는 BERT 의 텍스트 분류 모델을 이용했으며, 제안한 기법을 적용한 모델과의 성능 비교를 위해 한국어 FAQ 데이터를 기반으로 실험을 진행했다. 실험 결과, 분류 문제만 단독으로 학습한 BERT 기본 모델보다 본 연구에서 제안한 클래스 일치 여부 결합 학습 모델이 유사한 문장들 간의 차이를 구분하며 유의미한 성능 향상을 보인다는 것을 확인할 수 있었다.

  • PDF

Facilitating Conditions and the Use of Plagiarism Detection Software by Postgraduates of the University of Ibadan, Oyo State, Nigeria

  • Oluwaseun Jolayemi;Olawale Oyewole;Oluwatosin Oladejo
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제14권3호
    • /
    • pp.39-57
    • /
    • 2024
  • Plagiarism detection software is beneficial in detecting plagiarism in research works of postgraduate students. Despite the benefits of using plagiarism detection software, studies have revealed that most students, including postgraduates, do not use plagiarism detection software as expected. This could depend on the provision of facilitating conditions like internet connectivity, training opportunities and electricity. Thus, this study examined facilitating conditions and the use of plagiarism detection software among postgraduates of the University of Ibadan, Nigeria. A descriptive survey research design of the correlational type was used for this study, with a population of 2143 postgraduates. The multi-stage random sampling technique was used to determine the sample size of 242. The questionnaire was the research instrument, and data was analysed using descriptive statistics. Results showed that most postgraduates agreed that the university provided facilitating conditions like internet connectivity. The majority of the respondents noted that they used Turnitin monthly. Most of the respondents noted that they used plagiarism detection software to paraphrase their work and check the correctness of the grammar in their documents. The most prominent challenges confronting plagiarism detection software use by most respondents were their inability to afford subscription payment to use the plagiarism detection software and slow internet connectivity. There was a significant positive relationship between facilitating conditions and the use of plagiarism detection software by the postgraduates of the University of Ibadan, Nigeria. Some of the recommendations for the institution's management include leveraging the vast network of alumni willing to give back to the institution and intervening in the provision of internet connectivity and electricity.

알츠하이머 치매 노인의 의사소통 단절에 따른 의사소통 회복전략 특성 (The Communication Repair Strategy Characteristics According to Communication Breakdown of Elderly Man With Alzheimer's Dementia)

  • 김선영;박희준
    • 재활치료과학
    • /
    • 제8권4호
    • /
    • pp.53-63
    • /
    • 2019
  • 목적 : 성공적인 대화를 위해서 의사소통 단절이 일어났을 때 여러 가지 의사소통 회복 전략을 사용해야 하지만 치매 노인의 경우 그 전략을 적절하게 사용하지 못하여 의사소통 문제가 증가된다. 이에 대화 담화에서 치매 노인의 의사소통 단절 유형에 따른 의사소통 회복 전략 특성이 일반 노인과 어떻게 다른지 알아보고자 하였다. 연구방법 : 본 연구는 65세 이상 여성 노인 중 알츠하이머 치매(Alzheimer's dementia; AD) 노인 8명과 일반 노인 10명을 대상으로 집단 간 대화 담화에서 의사소통 단절 유형에 따른 의사소통 단절 수와 회복률 차이와 집단별 회복전략의 특성에 대해 알아보았다. 연구자는 연구대상자와 1:1로 대화 담화 과제를 실시하였으며 수집된 발화 중 200 발화를 기준으로 의사소통 단절과 의사소통 회복전략을 기준으로 분석하였다. 결과 : 첫째, AD 집단은 일반 집단보다 의사소통 단절 수가 많았으나 의사소통 단절의 회복률은 집단 간 차이가 나지 않았다. 둘째, AD 집단에서 의사소통 회복전략 중 표현 전략은 비구체적 회복 전략, 명료화 요구 전략이 많이 사용되었으며 표현 전략 사용 후 회복률은 설명 전략, 복합 전략, 비구체적 전략, 반복 확인 전략이 90% 이상으로 나타났다. 반응 전략은 바꾸어 말하기 전략, 복합 전략이 많이 사용되었으며, 반응 전략 사용 후 회복률은 간략히 말하기 전략, 반복하기 전략, 몸짓 전략이 100%로 나타났다. 결론 : AD 집단은 의사소통 단절이 일반 집단에 비해 많았으며, 의사소통 회복 전략 간 회복 빈도의 차이는 있지만 다양한 표현 전략과 반응 전략을 사용하는 능력이 있음을 알 수 있었다. 특히 AD 집단은 표현 전략에서는 비구체적 전략을 많이 사용하였으며, 반응 전략에서는 바꾸어 말하기 전략을 가장 많이 사용했다. 이는 일반 집단과 다른 특성으로 AD 노인의 언어 재활에 활용되길 기대해 본다.

시조교육의 현황과 학습자 활동 중심의 교수$\cdot$학습 모형 - 고등학교 국어 교과서 수록 작품 <시조>를 중심으로 - (Plans for Teaching and Learning of Learner-centered Activities in Korean Verse Education)

  • 강명혜
    • 한국시조학회지:시조학논총
    • /
    • 제20집
    • /
    • pp.141-171
    • /
    • 2004
  • 시조는 우리의 시가사에 있어서 결코 소홀히 할 수 없는 시장르이다. 비록 고등학교 교과서에 수록된 시조는 단지 3편이었지만, 각각 평시조$\cdot$사설시조 현대시조를 대표한다는 점에서 세 작품을 통한 각각의 유형적인 이해를 할 수 있다. 효율적인 학습자 활동 중심의 학습을 위해서는 작품에 대한 충분한 지식이 선험적으로 체득될 수 있도록 수업전 단계로서 준비학습, 학습할 정보나 원리를 교사의 도움으로 익히도록 한다. 이를테면, 시조는 3장 구조의 정형으로 되어 있고 무색. 무취, 무미한 세계를 표방하고 있느니 만큼 비교적 주제를 밝히기가 수월하다는 점, 시조는 다른 장르에 비해 창작 배경을 구체적으로 형상화해 낼 수 있다는 점, 시조는 작품의 길이가 길지 않기 때문에 학습자의 고쳐쓰기 활동에 적합하다는 점, 시조는 대부분 사적 체험을 평범한 언어를 사용하여 직설적으로 표현하고 있기에 다른 장르나 일상적인 언어 형상과 연관짓기가 쉽다는 점에서 현대까지 이어지며 지속된다는 것 등이다 수업 단계에서는 이를 구체화$\cdot$단계화하는 과정을 거쳐서 쓰기 및 발표, 그리고 평가 및 정리를 거친 후, 수업 후 단계로는 반응일지 쓰기까지의 순차적인 단계를 제시하도록 한다. 구체화$\cdot$단계화하는 과정에서는, 평시조$\cdot$사설시조$\cdot$현대시조로 대표되는 (1)$\cdot$(2)$\cdot$(3)에서의 시적 화자의 감정은 대략 외롭고 쓸쓸하고 막막하고 답답하고 애틋함이라는 단어로 수렴되었지만 이렇듯이 비슷한 감정을 토로하거나 암시하는 작품들은 그러나 표면적으로 보았을 때는 서로 상당히 변별되는데, 이러한 차이는 유형의 구별에서 온다는 것, 유형적 변별성은 또한 사회 정치 문화적인 배경, 즉 컨텍스트적인 변별성에서 기인한다는 것도 파악하도록 한다. 이러한 수업 모형에서는 반드시 학습자는 컨텍스트$\cdot$텍스트에 관해 학습 전 준비를 철저히 해야하는데, 이 때 교사는 어디까지나 학습자의 주관적인 경험과 상상력을 위한 선이해 정도의 조력자의 역할만을 함으로써 상호 교류적인 의사 소통 구조를 형성하는데 밑받침이 되도록 한다.

  • PDF