• 제목/요약/키워드: 문장 완성도

검색결과 55건 처리시간 0.025초

한국어의 운율구조와 통사-의미구조와의 관계

  • 이호영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.57-64
    • /
    • 1990
  • 문장을 이루는 문장 구성성분 사이에는 다른 정도의 운율적 친밀성 (운율적 구성성분관계)와 상대적이며 계층적인 운율적 강도관계가 존재하며, 이를 바탕으로 문장의 운율구조를 세울 수 있으며, 운율구조는 나무그림으로 나타내는 것이 가장 효과적이다. 운율구조는 대응하는 통사구조가 보여주는 통사적 구성성분 관계 (constituency)와 계층적 지배관계와 대부분 일치하지 않지만, 문장의 운율구조는 먼저 구단위로 운율구조를 부과하고, 그 다음 단계에서 각 구들의 운율구조를 연결하여 완성해야 하며, 통사구조가 같은 구(phrase)도 구성요소들 사이에 존재하는 의미구조의 차이에 의해서 다른 운율구조를 가질 수도 있다. 그리고 문장의 일부만이 초점을 받으면, 초점받은 부분이 가장 강한 운율강도를 갖게되어 전체초점을 받을 때의 운율적 구성성분 관계와 계층적인 운율적 강도관계가 변할 수 있다.

  • PDF

BERT 기반 문장부호 자동 완성 모델 (Proposal of Punctuation Mark Filling Task with BERT-based Model)

  • 한승규;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.263-266
    • /
    • 2020
  • 문장 부호는 그 중요성에 비해 자연어 처리 분야에서 모델의 학습 효율을 위해 삭제되는 등 잘 연구되지 않았던 분야이다. 본 논문에서는 대한민국 정부에서 공식적으로 공개한 연설문을 수집한 말뭉치를 바탕으로 한국어의 문장 부호를 처리하는 BERT 기반의 fine-tuning 모델을 제시한다. BERT 기반 모델에서 토큰별로 예측하는 본 모델은 쉼표와 마침표만을 예측하는 경우 0.81, 물음표까지 예측하는 경우 0.66, 느낌표까지 예측하는 경우 0.52의 F1-Score를 보였다.

  • PDF

술어기반 문형정보를 이용한 자동요약시스템에 관한 연구 (A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns)

  • 최인숙;정영미
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.37-55
    • /
    • 2001
  • 본 연구에서는 특정 주제분야의 텍스트를 대표할 수 있는 단어술어를 추출하고 기본문형을 형성 한 후 각 단서술어의 기본문형을 실례화하여 연결함으로써 요약문을 작성하는 자동요약시스템의 모형을 설계하고 구현하였다. 시스템은 학습과정과 요약과정을 구분되며, 학습과정에서는 술어와 격조사를 출현빈도를 이용하여 주제분야 텍스트집단을 대표하는 단어술어와 필수격 조사를 추출한 뒤 단어술어가 이루는 문장의 기본문형을 형성한다. 요약과정에서 실례화 규직을 요약 대상 문장의 구문 분석 결과에 적용하여 기본문형의 격조사와 결합될 논항을 찾아 단문을 생성하고 연결하여 요약문을 완성한다. ‘화재’및‘강도’와 관련된 신문기사를 대상으로 실험을 수행하였으며, 작성된 요약문은 단어술어가 포함된 주요 문장에서 추출한 필수 정보항목과 술어를 중심으로 생성된 문장들로서 문장간의 연결이 자연스러울 뿐 아니라 텍스트의 전체적인 의미를 표현할 수 있었다. 또한, 통계적 기법을 이용한 학습을 통해 주제영역의 확장이 가능하였다.

  • PDF

불완전 XML 문서의 파싱 (Parsing of Incomplete XML Document)

  • 조용윤;유재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.589-592
    • /
    • 2004
  • 대표적인 웹 문서의 표준인 XML(eXtensible Markup Language)은 문서의 구조와 내용을 기술하기 위해 태그(tag)로 이루어진 문법 구조를 이용한다. 일반적인 텍스트 에디터 환경에서 XML 문서에 입력되는 내용(contents)과 그것을 포함하는 태그의 쌍은 완전하지 못한 형태로 입력될 수 있다. XML 문서를 작성하는 과정에서 문법적으로 불완전한 문장 입력은 정상적인 파싱을 보장하지 않는다. 본 논문은 XML 문서 편집기에 사용될 수 있는 XML 파서가 문법적으로 불충분한 문장의 입력에 대해 문법에 따라 빠진 부분을 인식하고, 누락된 문법 심벌을 찾아 부족한 부분 파스 트리를 완성함으로써 사용자에게 성공적인 XML 문서 편집을 보장할 수 있는 파싱 방법을 제안한다. 제안된 파싱 방법을 통해 사용자는 프로그래밍 편집 중 문법 오류에 대한 부담을 줄일 수 있다. 또한, 사용자는 불완전 입력에 대해 일반적인 에러 처리에 따른 편집 중단 없이 계속적인 문서 파싱을 보장받아 편집 효율을 높일 수 있다.

  • PDF

SVM을 이용한 절-절 간의 의존관계 설정 (Determining the Dependency among Clauses based on SVM)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제14B권2호
    • /
    • pp.141-144
    • /
    • 2007
  • 문장이 길어질수록 구문분석의 정확률이 급격히 떨어지므로, 문장을 분할하여 각각의 분할단위로 구문분석을 수행한 후 각 구문분석결과를 합쳐 완성된 구문트리를 만드는 것이 일반적이다. 이 때 주로 절 단위로 문장이 분할되고, 각 절의 구문분석결과를 통합하게 되는데, 통합 과정에서 절-절 간의 의존관계 설정에 많은 오류가 생긴다. 이러한 절 간의 의존관계의 애매성을 해결하기 위하여, 본 논문은 기계학습을 이용하여 절-절 간의 의존관계를 분석해 본다. Support Vector Machines(SVM)을 사용하여 성능을 평가하고, 본 논문에서 실험한 방법과 기존의 방법들의 성능을 비교해 본 결과, 절-절 간의 의존관계 설정에 있어서 $8.88{\sim}15.35%$의 성능향상을 보였다.

RF통신을 이용한 전광판 시스템의 구현 (An Implementation of Dot Matrix using RF communication)

  • 권철우;최성일;정구일;황희융
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.115-118
    • /
    • 2001
  • 최근 많은 분야에서 사용되고 있는 RF(Radio Frequency)를 이용하여 원거리에서 무선으로 소형전광판에 문자 데이터를 보낼 수 있도록 하여 손쉽게 문구를 바꿀 수 있는 광고용 전광판을 구현하였다. 구현된 전광판은 소프트웨어 부분과 하드웨어 부분으로 나누어서 살펴보면, 사용자로부터 전광판에 표시하려는 문장을 IBM PC에 입력 받아서 전광판으로 송신하도록 하는 윈도우용 프로그램과 전광판에 표시될 데이터를 무선으로 수신 받아서 전광판에 표시하도록 해주는 프로그램이 전광판에 사용되는 소프트웨어가 되겠다. IBM PC에서 전광판으로 데이터를 보내고 전광판에서 그 데이터를 받기 위해서 RF모듈을 사용하였고, 전광판에 수신된 데이터를 전광판에 표시하기 위해서 마이크로컨트롤러를 사용하였다. 구현된 전광판은 16×16크기의 도트 매트릭스를 각각 12개씩 사용하여 문자열 2줄을 표시할 수 있도록 제작하였다. 한 문자를 표현하는데 한 개의 도트매트릭스가 사용되므로 표시될 문자는 16×16도트에 맞는 문자 폰트를 가지며, 문자 폰트를 나타내는 방법은 완성형과 조합형이 있으나 프로그램을 간단히 하기 위해서 완성형을 사용하였다.

불완전 XML을 위한 파싱 방법 (A Parsing Method for an Incomplete XML)

  • 조경룡;조성언;박장우
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2153-2158
    • /
    • 2008
  • 대표적인 웹 문서의 표준인 XML은 문서의 구조와 내용을 기술하기 위해 태그로 이루어진 문법 구조를 갖는다. XML 문서 작성자는 XML 문서 작성 중 해당 XML DTD(Document Type Definition)에 문법적으로 올바르지 않은 문장을 입력할 수 있다. 즉, 일반적인 텍스트 에디터 환경에서 XML 문서에 입력되는 내용과 태그의 쌍은 완전하지 못한 형태로 입력될 수 있다. 문법적으로 불완전한 문장 입력은 사용자의 계속적인 편집 상태를 종료하고, 정상적인 파싱을 보장하지 않는 원인이 된다. XML 문서를 작성하는 과정에서 문법적으로 불완전한 문장 입력은 정상적인 파싱을 보장하지 않는다. 따라서, 에디터가 문법적으로 빠져있는 부분의 심볼이 무엇인지 정확히 인식 가능하고, 주어진 문법에 따라 부분적인 파스트리를 완성한다면, 사용자의 프로그래밍 편집 상태를 종료하지 않고 계속적인 편집과 성공적인 파싱을 보장할 수 있을 것이다. 본 논문은 XML 문서 편집기에 사용될 수 있는 XML 파서가 문법적으로 불충분한 문장의 입력에 대해 문법에 따라 빠진 부분을 인식하고, 누락된 문법 심벌을 찾아 부족한 부분 파스트리를 완성함으로써 사용자에게 성공적인 XML 문서 편집을 보장할 수 있는 파싱 방법을 제안한다. 제안된 파싱 방법을 통해 사용자는 프로그래밍 편집 중 문법 오류에 대한 부담을 줄일 수 있다. 또한, 사용자는 불완전 입력에 대해 일반적인 에러 처리에 따른 편집 중단 없이 계속적인 문서 파싱 을 보장받아 편집 효율을 높일 수 있다.

미디어 환경과 사용에 관한 아동의 심성모형 질적 연구 (A Qualitative Research of Children's Mental Model on Media Environment and the Use)

  • 이란;현은자
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.601-613
    • /
    • 2016
  • 본 연구의 목적은 미디어 환경과 미디어 사용에 대한 아동의 심성모형을 분석하여 제시하고 이를 토대로 교육적 시사점을 제공하는 것이다. 이를 위하여 10명의 초등 4-5학년 연령대 아동과의 인터뷰, 그림 그리기, 연상 단어 제시하기, 문장 완성하기의 네 가지 활동을 통하여 데이터를 수집하였고 연구자 2인에 의해 질적으로 분석되었다. 먼저 문장 완성활동과 연상 단어 활동을 통해 도출된 의미 구성요소는 미디어 기기, 소통성(소외감), 유능함(공급원), 오락성, 역기능, 양면성의 총 6개 요소였다. 두 번째로, 참여자들의 그림에서 추출된 미디어 심성모형의 구성요소는 기능성/유능함, 오락성, 책(종이)과의 갈등/공유, 해악/양면성 등의 4개 요소였다. 세 번째로, 인터뷰를 통해 나타난 심성모형의 의미요소는 갈등(종이책과 전자 미디어), 소통 중심성, 두려움(중독), 그리고 사용자의 자격 등으로 범주화되었다. 이러한 결과를 토대로 본 연구는 사이버 소통에 대한 관찰과 인식 강화, 중독예방 교육의 필요성, 학습 미디어와 책 미디어의 적극적 개발과 균형있는 활용, 건강한 미디어 리터러시 교육과 비판적 사고의 강화 등을 교육적 함축으로 제시하였다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

제한된 언어집합과 온톨로지를 활용한 반자동적인 규칙생성 방법 연구 (Methodology for semi-autonomous rule extraction based on Restricted Language Set and ontology)

  • 손미애;최윤규
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.297-306
    • /
    • 2007
  • 지능정보시스템 구축에 있어서 자동화가 어려운 단계중의 하나인 규칙 습득을 위해 활용되는 방법중의 하나가 제한된 언어집합 기법을 이용하는 것이다. 그러나 제한된 언어집합 기법을 이용해 규칙을 생성하기 위해서는 규칙을 구성하는 변수와 그 값들에 대한 정보가 사전에 정의되어 있어야 하는데, 유동성이 큰 웹 환경에서 예상 가능한 모든 변수와 그 값을 사전에 정의하는 것이 매우 어렵다. 이에 본 연구에서는 이러한 한계를 극복하기 위해 제한된 언어집합 기법과 온톨로지를 이용한 규칙 생성 방법론을 제시하였다. 이를 위해 지식의 습득 대상이 되는 특정 문장은 문법구조 분석기를 이용해 파싱을 수행하며, 파싱된 단어들을 이용해 규칙의 구성 요소인 변수와 그 값을 식별한다. 그러나 규칙을 내포한 자연어 문장의 불완전성으로 인해 변수가 명확하지 않거나 완전히 빠져 있는 경우가 흔히 발생하며, 이로 인해 온전한 형식의 규칙 생성이 어렵게 된다. 이 문제는 도메인 온톨로지의 생성을 통해 해결하였다. 이 온톨로지는 특정 도메인을 구성하고 있는 개념들간의 관계를 포함하고 있다는 점에서는 기존의 온톨로지와 유사하지만, 규칙을 완성하는 과정에서 사용된 개념들의 사용빈도를 기반으로 온톨로지의 구조를 변경하고, 결과적으로 더 정확한 규칙의 생성을 지원한다는 점에서 기존의 온톨로지와 차별화된다. 이상의 과정을 통해 식별된 규칙의 구성요소들은 제한된 언어집합 기법을 이용해 구체화된다. 본 연구에서 제안하는 방법론을 설명하기 위해 임의의 인터넷 쇼핑몰에서 수행되는 배송관련 웹 페이지를 선정하였다. 본 방법론은 XRML에서의 지식 습득 과정의 효율성 제고에 기여할 수 있을 것으로 기대된다.

  • PDF