• 제목/요약/키워드: 문장유사성분석

검색결과 69건 처리시간 0.024초

자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석 (Question Similarity Analysis in dialogs with Automatic Feature Extraction)

  • 오교중;이동건;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF

한국어 구문 분석기를 이용한 예문기반 유사 영문 선택에 관한 연구 (A Study of the selection of similar English sentence based on example using the Korean parser)

  • 권영훈;윤영호;한광록
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.360-362
    • /
    • 2000
  • 본 연구는 예문을 이용하여 한국어 문장과 가장 유사한 영어 문장을 선택하기 위한 기존 연구보다 예문 지시의 정확도를 향상하고 기존의 문제점이었던 문장성분 선택의 불일치성을 제거하기 위해 한국어 구문 분석 시스템을 추가한 형태를 갖추고 있다. 한국어 구문 분석 시스템을 사용하는 이유는 한문장을 하나의 프레임으로 구조화시킬 때 서술부가 문장의 의미를 나타내는 가장 중요한 역할을 하므로 서술부를 헤더로 선택하고 단순히 조사 정보를 사용하여 각 문장성분을 추출하는 방법의 문제점을 제거하고 서술부 연결 관계를 기초로 프레임의 슬롯을 확보할 수 있기 때문이다. 유사 영문이 필요한 한국어 문장이 입력되면 입력 문장에 대한 형태소 분석과 한국어 구문 분석을 통하여 한국어 문장에서 서술부와 연결되는 주요 성분을 분리하여 프레임 구조를 생성하고 생성된 프레임과 이미 구축된 예문 데이터베이스 사이의 가중치와 유사도를 계산함으로써 한국어 문장과 유사한 영어 문장의 예를 제시하여 영작에 이용할 수 있는 시스템을 구현한다.

  • PDF

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

재난안전 사회관심 분석을 위한 언어모델 활용 정보 네트워크 구축 (A Language Model based Knowledge Network for Analyzing Disaster Safety related Social Interest)

  • 최동진;한소희;김경준;배은솔
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2022년 정기학술대회 논문집
    • /
    • pp.145-147
    • /
    • 2022
  • 본 논문은 대규모 텍스트 데이터에서 이슈를 발굴할 때 사용되는 기존의 정보 네트워크 또는 지식 그래프 구축 방법의 한계점을 지적하고, 문장 단위로 정보 네트워크를 구축하는 새로운 방법에 대해서 제안한다. 먼저 문장을 구성하는 단어와 캐릭터수의 분포를 측정하며 의성어와 같은 노이즈를 제거하기 위한 역치값을 설정하였다. 다음으로 BERT 기반 언어모델을 이용하여 모든 문장을 벡터화하고, 코사인 유사도를 이용하여 두 문장벡터에 대한 유사성을 측정하였다. 오분류된 유사도 결과를 최소화하기 위하여 명사형 단어의 의미적 연관성을 비교하는 알고리즘을 개발하였다. 제안된 유사문장 비교 알고리즘의 결과를 검토해 보면, 두 문장은 서술되는 형태가 다르지만 동일한 주제와 내용을 다루고 있는 것을 확인할 수 있었다. 본 논문에서 제안하는 방법은 단어 단위 지식 그래프 해석의 어려움을 극복할 수 있는 새로운 방법이다. 향후 이슈 및 트랜드 분석과 같은 미래연구 분야에 적용하면, 데이터 기반으로 특정 주제에 대한 사회적 관심을 수렴하고, 수요를 반영한 정책적 제언을 도출하는데 기여할 수 있을 것이다

  • PDF

한국어 문장 표절 유형을 고려한 유사 문장 판별 (A Detection Method of Similar Sentences Considering Plagiarism Patterns of Korean Sentence)

  • 지혜성;조준희;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제13권6호
    • /
    • pp.79-89
    • /
    • 2010
  • 본 논문은 한국어 표절 검사를 위해서 표절의 유형을 분석하여, 유형별 분석 결과를 기반으로하여 유사 문장 판별 모델을 제안한다. 제안하는 방법은 한국어 문장에 대한 표절 유형 분석 결과를 토대로 LSA와 N-gram을 이용한 유사 문장 검색을 통하여 여러 유형의 표절로부터 견고한 유사 문장 판별 모델을 구현하였다. 제안한 모델의 성능 분석을 위해서 학생들이 인위적으로 작성한 표절 리포트와 표절한 첨부 문서로 실험 데이터를 구축하였다. 성능 비교를 위해서는 기존의 N-gram 모델, 벡터모델, LSA 모델이 사용되었으며, 실험 결과 제안한 모델이 정확률, 재현율, 그리고 F값 척도에서 우수한 성능을 보임을 알 수 있었다.

  • PDF

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현 (Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities)

  • 맹주수;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.109-114
    • /
    • 2019
  • 기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석 (On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning)

  • 한명수;정유현;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

LSA를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서 요약 (Document Summarization Using Mutual Recommendation with LSA and Sense Analysis)

  • 이동욱;백서현;박민지;박진희;정혜욱;이지형
    • 한국지능시스템학회논문지
    • /
    • 제22권5호
    • /
    • pp.656-662
    • /
    • 2012
  • 본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.

성분 정렬을 이용한 한글 유사 문서 탐색 방법 (A Similar Text Detection of Korean Document using Composition Alignment)

  • 박선영;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.228-231
    • /
    • 2011
  • 최근 표절에 대한 사회적 관심이 꾸준히 높아지고 있는 가운데, 기계적으로 유사한 문서를 탐색하는 방법에 대한 많은 연구가 이루어지고 있다. 이 중 생물정보학에서 유전자 서열을 분석하기 위해 사용되는 '지역 정렬(local alignment)' 기법은 문서 간 유사 영역을 탐색하는 데에 유용하다. 한편 한글에는 조사가 존재하는데, 이 때문에 한글 문장은 각 품사의 순서에 큰 영향을 받지 않는다. 이러한 한글의 특성을 이용해 기존 문서의 어순만 바꾼 문장을 생성할 경우, 지역 정렬을 이용한 탐색 방법으로는 이를 찾아내기 힘들다. 본 논문에서는 한글의 특성을 고려하여 어순과 관계없이 해당 영역의 유사성을 찾아내는 새로운 한글 유사 문서 탐색 방법을 제시한다. 이를 위하여, 성분 정렬(composition alignment) 기법을 적용한다. 성분 정렬 기법은 생물학에서 생물의 진화 과정이나 돌연변이 DNA 등 서열의 순서가 일부 뒤바뀌는 것을 허용하면서 유사한 시퀀스를 찾는 기법으로 기존의 방법보다 더욱 유연하고 민감한 방법이라 할 수 있다. 이를 적용하여 한글 문서를 탐색한 결과, 일반적인 문장 및 거의 동일한 문장 간의 유사도 점수는 큰 변화가 없었으나, 어순을 바꾼 문장의 경우 기존의 방법보다 평균 35.34% 가량 민감하게 탐색할 수 있었다. 추후 한글에 대한 초성 추출 및 성분 정렬 방법을 응용하여 다단계 구조의 유사 문서 탐색 방법에 대해 연구할 계획이다.

유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현 (Implementation of an Efficient Requirements Analysis supporting System using Similarity Measure Techniques)

  • 김학수;고영중;박수용;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.13-23
    • /
    • 2000
  • 소프트웨어가 점점 복잡해지고 대형화됨에 따라서 사용자의 요구가 매우 다양해지고 있으며, 제품에 대한 기대 수준도 높아지고 있다. 그러므로, 사용자의 요구 사항을 정확히 분석하여 효과적으로 개발 단계에 적용하는 것은 매우 중요하다. 본 논문에서는 자연어로 표현되는 요구 사항 문서의 분석 시에 나타나는 오류를 효과적으로 줄이고, 수정하는데 사용될 수 있는 요구 분석 시스템을 제안한다. 제안된 시스템은 문서간 유사도 측정에 의해서 문서간의 의존성(dependency) 분석을 지원하고 문장간 유사도 측정에 의해서 요구 사항간의 연계성(traceability), 중복성(redundancy), 불일치성(inconsistency), 그리고 불완전성(imcompleteness)을 발견하는 것을 지원한다. 또한 모호한 문장을 추출하여 요구사항의 불명확성 (ambiguity)을 발견하는 기능도 제공한다. 문서간 유사도 측정을 위해서 사용된 색인 방법은 슬라이딩 윈도우 모델과 의존 구조 모델을 결합한 것으로 각 모델이 가지는 단점을 효과적으로 보완할 수 있다. 본 논문에서는 문서간, 문장간 유사도 측정 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 분석 처리되는 과정을 보여주고 있다.

  • PDF