• Title/Summary/Keyword: 비교 문장

Search Result 658, Processing Time 0.026 seconds

A Text Reuse Measuring Model Using Circumference Sentence Similarity (주변 문장 유사도를 이용한 문서 재사용 측정 모델)

  • Choi, Sung-Won;Kim, Sang-Bum;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

Classifying Korean Comparative Sentences Using Transformation-based Learning (변환 기반 학습을 이용한 한국어 비교 문장 유형 분류)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.31-34
    • /
    • 2009
  • 본 연구의 목표는 비교 문장들을 일곱 가지 유형으로 자동 분류하는 것으로서, 비교 문장 추출, 비교 문장 유형 분류, 유형별 비교 관계 분석으로 이어지는 비교마이닝 세 단계 중 두 번째 과제이다. 본 연구에서는 변환 기반 학습(Transformation-based Learning) 기법을 이용한다. 자연어 처리 분야 여러 부문에서 사용되고 있는 변환 기반 학습은 오류를 감소시키는 최적의 규칙을 자동으로 생성하여 정답을 찾는 규칙 기반 학습 방법이다. 웹상의 다양한 도메인에서 추출한 비교 문장들을 대상으로 실험한 결과, 일곱 가지 비교 문장 유형을 분류하는데 있어서 정확도 80.01%의 우수한 성능을 산출하였다.

  • PDF

Extracting Comparative Elements from Comparative Sentences (비교 문장으로부터 비교 요소 자동 추출)

  • Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.225-228
    • /
    • 2011
  • 본 논문은 비교 마이닝(comparison mining) 의 일환인 비교 요소 자동 추출에 관하여 연구한다. 비교 마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계롤 자동 분석하며, 비교 문장인지 아닌지를 식별하는 단계, 비교 타입을 분류하는 단계, 다양한 비교 요소들을 추출하는 단계, 추출된 요소를 분석 및 요약하는 단계 등을 거치게 된다. 본 연구에서는 특정 타입의 비교 문장이 주어졌을때, 그 문장에서 비교 요소를 자동으로 추출하는 단계의 과제를 수행하며, 우열 비교 타입 및 최상급 타입 문장들을 대상으로 비교 주체, 비교 대상, 비교 술어를 추출한다. 실험 과정으로는, 우선 비교 요소 후보들을 선정하고, 그 후 각 요소별로 확률을 계산하여 가장 높은 수치를 기록한 요소를 정답으로 채택하게 된다. 확률 계산은 지지 벡터 기계 (Support Vector Machine)를 이용한다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소 추출을 수출한 결과, 정확도 86.81 %의 우수한 성능을 산출 할 수 있었다.

Extracting Korean Comparative Sentences by Machine Learning Techniques (기계학습 기법을 이용한 한국어 비교 문장 추출)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.183-188
    • /
    • 2008
  • 본 연구에서는 문서 안에 있는 문장들 중 비교 문장을 추출해낸다. 비교 문장이란 두 개 이상의 객체, 혹은 한 객체의 시간차, 공간차 등에 따른 변화를 비교하는 내용을 포함하는 문장을 말한다. 비교 문장을 구별해내는 작업은 많은 분야에서 응용될 수 있는데, 특히 객체(사람, 상품 등)에 대한 평가 면에서 매우 직접적이고 확실한 자료로 활용될 수 있다. 비교문장 추출을 위해 본 연구에서는 비교어휘를 이용한 추출 및 MEM(Maximum Entropy Model)을 적용하였으며, 뉴스기사(news article), 상품에 대한 고객리뷰(customer review) 등의 문서를 대상으로 실험하여 재현율 88.40%, 정확률 88.68%의 결과를 산출하였다.

  • PDF

Measuring Similarity of Korean Sentences based on BERT (BERT 기반 한국어 문장의 유사도 측정 방법)

  • Hyeon, Jonghwan;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.383-387
    • /
    • 2019
  • 자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하지만, 자연어의 다양한 특성을 반영할 수 없다. 본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

  • PDF

Reading comparison study through sentence-level comparison (문장 의미 비교를 활용한 독해 시스템 개선 방안 모색)

  • Han, Sangdo;Yu, Hwanjo;Lee, Gary Geunbae;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.270-272
    • /
    • 2018
  • 본 연구에서는 질의-본문 간 문장 비교 정보가 reading comprehension task 의 성능 향상에 도움이 되는지를 확인해 보았다. 기존의 reading comprehension 방법론이 질의-본문 간 의미 비교정보를 활용하지만, 본문 전체를 대상으로 한 비교이기 때문에 문장 단위의 정보가 활용되지 못하는 단점이 있었다. 실험에 사용한 데이터는 대표적인 RC 데이터 중 하나인 NewsQA[5] 를 이용하였으며, 질의-본문 문장 간 비교를 통한 성능 향상의 잠재력을 확인하였다.

  • PDF

An Extraction Algorithm of Dynamic Program Slice Using Variable-Variable Relationships (변수-변수 관련성을 이용한 동적 프로그램 조각 추출 알고리즘)

  • Kim, Tae-Hee;Kim, Byung-Ki
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.11
    • /
    • pp.2874-2883
    • /
    • 1998
  • 프로그램 조각화 기법은 프로그램을 이해하기 쉬운 조각 단위로 분해하여 소프트웨어 개발자나 유지보수다사 프로그램을 쉽게 이해할 수 있도록 지원한는 방법이다. 본 논문ㅇ세는 변수-변수 관련성을 이용하여 정확하고 수행 가능한 프로그램 조각을 추출하는 동적 프로그램 조각 추축 알고리즘을 제안한다. 각 문장에서 변경되는 변수와 참조되는 변수로 나누어서 변수 집합을 계산하고, 선언부에 있는 문장에 대해 변수-변수 관련성을 계산한다. 변수-변수 관련성을 계산할 때는 선언부의 변수가 다른 문장에서 변경되는 변수로 사용된 경우와 참조되는 변수로 사용된 경우를 별도로 조사하여 변경되는 변수 집합은 무조건 관련 집합에 포함시키고, 문장에서 참조되는 변수들은 문장들을 다시 비교하여 기준 변수와 관련된 문장만을 추출하여 관련 집합에 포함시킨다. 제안한 알고리즘은 C 언어를 대상으로 실험한 결과 정확하고 수행 가능한 동적 조각을 추출하였고, 기존의 방법들보다 관련 문자을 찾기 위한 문장의 비교횟수를 평균 42%까지 감소시켰다. 기준 변수가 많을수록 기준 변수와 관련이 없는 변수가 많을수록 문장의 비교 횟수가 현저하게 감소하였다.

  • PDF

Transformation-based Learning for Korean Comparative Sentence Classification (한국어 비교 문장 유형 분류를 위한 변환 기반 학습 기법)

  • Yang, Seon;Ko, Young-Joong
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.2
    • /
    • pp.155-160
    • /
    • 2010
  • This paper proposes a method for Korean comparative sentence classification which is a part of comparison mining. Comparison mining, one area of text mining, analyzes comparative relations from the enormous amount of text documents. Three-step process is needed for comparison mining - 1) identifying comparative sentences in the text documents, 2) classifying those sentences into several classes, 3) analyzing comparative relations per each comparative class. This paper aims at the second task. In this paper, we use transformation-based learning (TBL) technique which is a well-known learning method in the natural language processing. In our experiment, we classify comparative sentences into seven classes using TBL and achieve an accuracy of 80.01%.

A Text Summarization Model Based on Sentence Clustering (문장 클러스터링에 기반한 자동요약 모형)

  • 정영미;최상희
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.159-178
    • /
    • 2001
  • This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

  • PDF

Polya의 문제해결 전략을 이용한 효과적인 문장제 지도방안 -고등학교 중심-

  • Bang, Seung-Jin;Lee, Sang-Won
    • Communications of Mathematical Education
    • /
    • v.8
    • /
    • pp.209-229
    • /
    • 1999
  • 보통 문장제(거리 ${\cdot}$ 속도 문제, 시계 문제, 농도 문제, 개수 세기, 측도 영역)는 초등학교부터 반복하면서 대학수학능력 시험에서는 외적 문제해결력을 측정하는 문장으로 나타난다. 문장제를 해결하는데는 사고가 여러 단계로 이루어져야 한다. 따라서 일반적으로 문장제는 난해하므로 조직적이고 전문적인 학습지도가 이루어져야 한다. 하지만 입시위주의 교육 등 여러 여건상 잘 이루어지지 않고 있는 것이 현실이다. 수학을 잘하는 학생이라도 문장제를 해결하지 못하는 경우가 많다. 본 연구에서는 문장제의 해결의 저해 요인을 완화시킬 수 있는 지도 방안으로서 Polya의 문제해결 전략을 이용하며, 실험반과 비교반의 학습 효과를 비교 분석하여 이를 통하여 효율적인 문장제 지도방안을 연구한다.

  • PDF