• 제목/요약/키워드: 어절 길이

검색결과 34건 처리시간 0.019초

LSTM 언어모델 기반 한국어 문장 생성 (LSTM Language Model Based Korean Sentence Generation)

  • 김양훈;황용근;강태관;정교민
    • 한국통신학회논문지
    • /
    • 제41권5호
    • /
    • pp.592-601
    • /
    • 2016
  • 순환신경망은 순차적이거나 길이가 가변적인 데이터에 적합한 딥러닝 모델이다. LSTM은 순환신경망에서 나타나는 기울기 소멸문제를 해결함으로써 시퀀스 구성 요소간의 장기의존성을 유지 할 수 있다. 본 논문에서는 LSTM에 기반한 언어모델을 구성하여, 불완전한 한국어 문장이 입력으로 주어졌을 때 뒤 이어 나올 단어들을 예측하여 완전한 문장을 생성할 수 있는 방법을 제안한다. 제안된 방법을 평가하기 위해 여러 한국어 말뭉치를 이용하여 모델을 학습한 다음, 한국어 문장의 불완전한 부분을 생성하는 실험을 진행하였다. 실험 결과, 제시된 언어모델이 자연스러운 한국어 문장을 생성해 낼 수 있음을 확인하였다. 또한 문장 최소 단위를 어절로 설정한 모델이 다른 모델보다 문장 생성에서 더 우수한 결과를 보임을 밝혔다.

초등학교 1학년 수학 교과서의 어휘 및 문장 적합성 분석 (An Analysis on Suitability of Words and Sentences in Mathematics Textbooks for Elementary First Grade)

  • 장혜원;임미인
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제26권2호
    • /
    • pp.247-267
    • /
    • 2016
  • 2009 개정 교육과정에 따른 초등학교 수학 교과서가 한글 교육을 시작한지 얼마 되지 않은 1학년 학생들에게 수학적 내용 지식 이외에 부수적으로 어휘 및 문장의 양과 수준에 의한 어려움을 야기한다는 지적이 있어 왔다. 이에 본 연구는 1학년 수학 교과서의 어휘와 문장의 적합성을 분석하여 시사점을 얻는 것을 목적으로 한다. 어휘 차원에서 난이도와 친숙도, 문장 차원에서 구조, 길이, 표현의 적합성을 분석 내용으로 한다. 분석 결과, 어휘 차원에서 1학년 수준에 난이도가 높은 어휘 108개, 친숙도가 낮은 어휘 6개가 확인되었다. 문장 차원에서는 단문에 비해 구조가 복잡한 중문 37개, 복문 727개, 중복문 38개가 포함된 것으로 나타났으며, 8개 어절을 초과하여 구성된 긴 문장도 237개 추출되었다. 표현 측면에서는 2가지 이상의 활동을 동시에 지시하는 문장 168개, 명사나 형용사가 3개 이상 연속적으로 연결되어 있는 문장 52개 등 어려움의 원인을 확인하였다. 이러한 결과에 기초한 논의로부터 차후 초등 저학년 수학 교과서 개발을 위한 몇 가지 시사점을 제안하였다.

한국어 "크기" 명사 부류에 대하여 (On "Dimension" Nouns In Korean)

  • 송근영;홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.260-266
    • /
    • 2001
  • 본 논문은 불어 명사의 의미 통사적 분류와 관련된 '대상부류(classes d'objets)' 이론을 바탕으로 한국어의 "크기" 명사 부류에 대한 의미적, 형식적 기준을 설정함으로써 자연언어 처리에의 활용 방안을 모색하고자 한다. 한국어의 일부 명사들은 어떤 대상 혹은 현상의 다양한 속성이 특정 차원에서 갖는 규모의 의미를 표현한다 예를 들어, '길이', '깊이', '넓이', '높이', '키', '무게', '온도', '기온' 등이 이에 해당하는데, 이들은 측정의 개념과도 밀접한 연관을 가지며, 통사적으로도 일정한 속성을 공유한다. 즉 '측정하다', '재다' 등 측정의 개념을 나타내는 동사 및 수량 표현과 더불어 일정한 통사 형식으로 실현된다는 점이다. 본 논문에서는 이러한 조건을 만족시키는 한국어 명사들을 "크기" 명사라 명명하며, "크기" 명사와 특징적으로 결합하는 '측정하다', '재다' 등의 동사를 "크기" 명사 부류에 대한 적정술어라 부른다. 또한 "크기" 명사는 결합 가능한 단위명사의 종류 및 호응 가능한 정도 형용사의 종류 등에 따라 세부 하위유형으로 분류할 수도 있다. 따라서 주로 술어와의 통사적 결합관계를 기준으로 "크기" 명사 부류를 외형적으로 한정하고, 이 부류에 속하는 개개 명사들의 통사적 세부 속성을 전자사전의 체계로 구축한다면 한국어 "크기" 명사에 대한 전반적이고 총체적인 의미적 통사적 분류와 기술이 가능해질 것이다. 한편 "크기" 명사에 대한 연구는 반드시 이들 명사를 특징지어주는 단위명사 부류의 연구와 병행되어야 한다. 본 연구는 한국어 "크기" 명사를 한정하고 분류하는 보다 엄밀하고 형식적인 기준과 그 의미 통사 정보를 체계적으로 제시해 줄 것이다. 이러한 정보들은 한국어 자동처리에 활용되어 "크기" 명사를 포함하는 구문의 자동분석 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(含量)은 $4.92{\times}10^{-2 }\;mg/m{\ell}$이었으며 yeast extract 농도(濃度)가 증가(增加)함에 따라 증가(增加)하다가 농도(濃度) 0.2%에서 최대함량(最大含量)을 나타내고 그후는 감소(減少)하였다.

  • PDF

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.