• 제목/요약/키워드: 전체 문장 분석

검색결과 140건 처리시간 0.025초

구간분할 기반 한국어 대등접속 구문분석 기법 (A Korean Conjunctive Structure Analysis based on Sentence Segmentation)

  • 장재철;박의규;나동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-146
    • /
    • 2002
  • 본 논문에서는 한국어의 대등접속의 구문분석 문제를 다룬다. 이를 전체 문장의 구문분석 기법에 기반하도록 하여, 문장 전체에 대한 분석 결과를 가장 좋게 하는 대등접속 구조가 선정되도록 하였다. 본 기법의 특징으로는 구간 분할 기법에 기반하여 대등접속 구조 후보의 수의 감소가 가능하게 되기 때문에 구문분석의 안정화를 얻게 되었다. 또한 전체 구문분석기에서 한 부품으로 동작함으로써 전체 문장 구조가 올바른 대등구조를 선택할 수 있게 되어, 보다 전역적인 정보의 이용에 의한 분석이 되었다. 선접속부와 후접속부 간의 구조 및 어휘적 유사성, 평행연결의 이용 등은 본 기법의 또 다른 특징으로 볼 수 있다. 실험결과 정상적인 문장의 대등접속에 대한 분석에서 매우 효과적으로 동작함을 관찰하였다.

  • PDF

구간 분할 기반 한국어 구문분석 (A Method of Korean Parsing Based on Sentence Segmentation)

  • 김광백;박의규;나동렬;윤준태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-168
    • /
    • 2002
  • 오늘날 자연어 구문 분석 기술은 만족할 만한 수준에 도달하지 못하고 있고 한국어 구문분석 기술 역시 만족할만한 수준과는 거리가 멀다. 특히 문장의 길이가 긴 문장의 경우 구문분석기가 너무 많은 계산 량으로 인해 제대로 동작하지 못하는 경우가 빈번히 발생하고, 비록 구문구조 결과를 내더라도 정확도가 낮은 경우가 많다. 그 이유는 문장의 길이가 길어질수록 중의성이 매우 증가하여 많은 수의 구문분석 결과가 가능하기 때문이다. 이 중에서 정확한 구문구조를 선택하는 문제는 매우 어려워서 기존의 긴 전체 문장에 대한 구문구조를 한번에 계산하려는 시도는 앞으로도 계속 좋은 결과를 기대하기 어렵다. 따라서 우리는 문장의 길이에 상관없이 항상 안정적으로 결과를 내며, 구문분석에 소요되는 시간이 비교적 짧고, 정확도 역시 높은 구문분석기를 개발하고자 한다. 이를 위하여 전체 문장을 여러 개의 구간으로 분할하여 각 구간을 독립적으로 구문 분석한다. 그 다음 각 구간의 결과를 통합하여 전체 문장에 대한 결과를 생성하는 기법을 택하였다.

  • PDF

전체 문장 분석에 기반한 한국어 문법 검사기 (A Korean Grammar Checker based on the Trees Resulted from a Full Parser)

  • 이공주;황선영;김지은
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권10호
    • /
    • pp.992-999
    • /
    • 2003
  • 문법 검사기는 문장의 문법 오류를 찾고 이에 대한 적절한 대안을 제시하는 것이다. 문법 오류를 찾기 위해서 문법 검사기는 전체 문장을 분석해야 하며 이는 많은 자원이 소요되는 작업이다. 이러한 이유로 대부분의 한국어 문법 검사기는 중의성이 없는 작은 부분에 대해서만 구문 분석을 수행하는 부분구문 분석기를 이용하고 있다. 본 논문의 구문 분석기는 문법 오류를 검사하기 위해서 전체 구문 분석기를 사용하였다. 이 방식은 여러 단어를 사이에 두고 떨어져 있는 두 단어간에 문법적 오류가 있을 경우에도 이를 찾아서 고칠 수 있다. 결과적으로 이 방식은 수행 성능을 저하시키는 대신, 문법 오류를 수정하는 정확률의 향상을 기대할 수 있다. 본 논문의 문법 검사기는 문법 오류를 찾고 수정하기 위해서 65개의규칙을 사용한다. 전체 구문 분석기를 사용하는 한국어 문법 검사기는 약 7백만 어절로 구성된 실험 코퍼스에 대해서 약 96.49%의 교정 정확률을 얻을 수 있었다.

감정 표현구 단위 분류기와 문장 단위 분류기의 결합을 통한 주관적 문장 분류의 성능 향상 (Combining Sentimental Expression-level and Sentence-level Classifiers to Improve Subjective Sentence Classification)

  • 강인호
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.559-566
    • /
    • 2007
  • 주관적 문장이란 주관적인 내용을 포함한 문장으로써 저자의 제품이나 사건에 대한 생각을 알 수 있다. 주관적 내용임을 나타내는 주관적인 표현은 문장 전반적으로 골고루 나타날 수도 있지만 일부 한정된 영역에서만 발견될 수도 있다. 따라서 보다 정확한 분류를 위해서는, 문장 전체를 고려하는 정보 외에 사실이나 감정을 표현하는 주관적 혹은 객관적 표현구 정보의 활용이 필요하다. 본 연구에서는 문장 전체를 이용한 분류 결과와 감정 표현구를 이용한 분류 결과를 결합하여 주/객관적 문장 분류기의 성능을 향상시키는 방법을 제안한다. 한 문장은 여러 개의 표현구를 가질 수 있어 복수개의 표현구 단위 결과를 얻게 되며 기계 학습을 응용하여 문장 단위 결과와 결합한다. 실험을 통한 결과, 표현구 단위 결과물 중 최대값을 가지는 두 가지 결과와 문장 전체를 이용한 결과를 합침으로써 2.5% 성능 향상된 79.7%의 정확률을 얻을 수 있었다.

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 (A Korean Grammar Checker using Lexical Disambiguation Rule and Partial Parsing)

  • 소길자;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권3호
    • /
    • pp.305-315
    • /
    • 2001
  • 본 논문에서는 우리말 문서에 있는 오류를 어절 단위로 검증하는 철자 오류와 여러 어절을 분석해야 처리할 수 있는 문법 오류로 분류하였다. 문법 오류를 처리할 때 전체 문장 분석은 시간이 많이 소요되고 구현하기 어려우므로 대부분 부분 문장 분석 방법을 이용한다. 기존 연구에서 사용한 부분 문장 분석은 분석 어절에 어휘 중의성이 있을 때 문장 분석 종결 또는 과분석 등의 오류가 발생한다. 본 논문에서는 문법 검사기에서 어휘 중의성 때문에 발생하는 문제점을 해결하는 방법으로 어휘 중의성 제거 규칙을 사용한다. 본 논문에서 구현한 어휘 중의성 제거 모듈은 코퍼스 데이타에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

감성 단어 등장 순서를 고려한 영화 리뷰 감성 분석 (Movie Revies Sentiment Analysis Considering the Order in which Sentiment Words Appear)

  • 김홍진;김담린;김보은;오신혁;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2020
  • 감성 분석은 문장의 감성을 분석해 긍정 또는 부정으로 분류하는 작업을 의미한다. 문장에 담긴 감성을 파악해야 하기 때문에 문장 전체를 이해하는 것이 중요하다. 그러나 한 문장에 긍정과 부정의 이중 극성이 동존하는 문장은 감성 분석에 혼동이 생길 수 있다. 본 논문에서는 이와 같은 문제를 해결하기 위해 단어의 감성 점수 예측을 통해 감성 단어 등장 순서를 고려한 감성 분석 모델을 제안한다. 또한 최근 다양한 자연어 처리 분야에서 좋은 성능을 보이는 사전 학습 언어 모델을 활용한다. 실험 결과 감성 분석 정확도 90.81%로 기존 모델들에 비해 가장 좋은 성능을 보였다.

  • PDF

LSA를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서 요약 (Document Summarization Using Mutual Recommendation with LSA and Sense Analysis)

  • 이동욱;백서현;박민지;박진희;정혜욱;이지형
    • 한국지능시스템학회논문지
    • /
    • 제22권5호
    • /
    • pp.656-662
    • /
    • 2012
  • 본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축 (Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch)

  • 정재환;김동준;이우철;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.265-271
    • /
    • 2019
  • 본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

  • PDF

수학 문장제의 문장 구조와 해석상의 오류 분석 -초등학교 2학년을 중심으로- (An Analysis on Sentence Structures and Interpretation Errors in Word Problems in Mathematics -Focussing on the 2nd grade elementary students-)

  • 이병옥;안병곤
    • 한국초등수학교육학회지
    • /
    • 제12권2호
    • /
    • pp.185-204
    • /
    • 2008
  • 본 연구에서는 초등학교 2학년 수학 교과서에 제시된 문장제의 문장 구조와 해석상의 오류를 분석하고, 문장 구조가 해석상의 오류에 어떻게 관여하는지를 알아보았다. 이를 위해 초등학교 2학년 수학 교과서에 제시된 문장제 168문항의 문장 구조와 초등학교 2학년 160명의 학생을 대상으로 수학 문장제 해결과정에서의 오류경향을 분석한 결과, 문장제의 문장 구조는 쉽고 단순한 낱말이나 어휘를 반복적으로 사용하고 있으며, 과일이나 책, 사람 수 등의 특정한 실생활 소재를 반복적으로 많이 사용되고 있었다. 문장제의 오류 경향은 문장 해석상의 오류가 전체 오류의 51.56%로 계산상의 오류 39.20%보다 높았다. 이는 역연산(逆演算) 유형, 문장의 길이, 문제에 사용된 숫자의 개수 등이 해석상의 오류에 관여하는 것으로 분석되었다. 따라서 문장제의 문장을 구성할 때 교사의 관점에서 벗어나 학생들의 입장을 고려하는 것이 매우 중요하며, 학생들에게 기초적인 문장 해석 지도가 필요하다는 것을 알 수 있었다.

  • PDF