• 제목/요약/키워드: 문장 복잡성

검색결과 67건 처리시간 0.022초

구묶음을 반영한 한국어 의존 구조 말뭉치 생성 (Building Korean Dependency Treebanks Reflected Chunking)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-138
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 요소의 위치에 제약이 적고 생략에도 유연하게 대처할 수 있어 한국어 구문 분석에 적합하다. 하지만 의존 구문 분석을 수행할 때 지배소를 결정해야 할 노드 수가 많으면 계산의 복잡도가 올라가고, 각 노드의 지배소를 결정할 때 방향성 문제가 있어 구문 분석에 모호함을 더한다. 이때 지배소 후위 원칙을 엄격하게 적용할 경우 구문적 중심어와 의미적 중심어가 불일치하는 문제가 발생한다. 이러한 문제들을 해소하기 위해 구묶음을 수행한 문장으로 구문 분석을 수행할 수 있다. 따라서, 본 논문에서는 기존의 의존 구문 말뭉치를 말덩이 기반의 의존 구문 말뭉치로 변환하는 알고리즘을 기술하고, 이에 따라 구축한 말뭉치와 기존의 말뭉치를 정량적으로 비교한다.

  • PDF

보편적 학습 설계에 근거한 영어과 디지털 교과서 개선 방안 (Prospective Changes of English Digital Textbook Based on the Universal Design for Learning)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.674-683
    • /
    • 2015
  • 본 연구의 목적은 보편적 학습 설계 준거를 제시하고 이 준거를 활용하여 현재 실험학교에서 운용되고 있는 영어과 디지털교과서를 분석함에 있다. 보편적 학습 설계 준거를 기준으로 디지털 교과서가 학년과 학급급간에 의사소통기능별로 어떠한 양상을 보이고 있는지를 분석하여 디지털 교과서의 개선 방향을 모색하고자 한다. 디지털 교과서의 분석 결과를 살펴보면 우선 학습자들 중에 언어적 적성이 있는 학생들에게 친화적인 환경으로 구성되어 있고 다른 적성의 학생들은 불리하게 구성되어 있어서 이를 보완할 필요가 있다. 어휘의 계열성은 학년이 올라감에 따라서 적절하게 복잡도가 증가하고 있으나 통사적 복잡성은 중학교에서 갑자기 문장당 어휘수가 급격하게 올라가면서 보편적 학습 설계 준거를 만족시키지 못하고 있어서 이에 대한 보완이 시급하다. 서책형 교과서와 달리 디지털 교과서는 멀티미디어 자원의 통합이 용이하고 볼륨의 제한을 받지 않기 때문에 근본적으로 디지털 교과서를 구성할 때에 이를 사용하는 학습자들이 가진 언어적 적성 외에 다양한 적성을 고려할 필요가 있다.

정보거래 자동 중개 시스템을 위한 한국어 문형 표준안 (Controlled Korean Phrase-Stucture Standard Spec.for the Automatic Information Trading Mediator System)

  • 정의석;김기태;임수종;차건회;박재득;윤보현;강현규
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.138-145
    • /
    • 2000
  • 본 논문은 정보거래 자동 중개 시스템을 위한 한국어 문형 표준안에 대하여 기술한다. 정보거래 자동 중개 시스템은 인터넷상에서 지식정보자산의 공급자와 수요자를 자동으로 연결해주는 시스템으로서 텍스트로 기술되는 수요자의 의도와 공급자의 지식정보 내용을 정확히 연결할 수 있는 신뢰성을 보장한 고품질의 정보검색 기술이 필수적이다. 그러나 자연어의 복잡성과 불규칙성은 정확한 언어처리 기술이 필수적인 고품질의 정보검색을 보장할 수 없다. 따라서 본 논문은 한국어 문장 표현 방식을 표준화하여 언어처리 기술 적용의 한계를 극복해보자는 데 그 목적이 있다. 또한 일반 사용자의 언어 표현을 문형 표준안으로 유도하는 방법에 대하여 기술한다. 문형 표준안의 구성은 표준 문형, 표준 문형 유도 방법, 어휘부로 구성되어 있다.

  • PDF

게르만어의 공명음 중복현상과 후두음이론 (Germanische Resonantengemination und Laryngaltheorie)

  • 전순환
    • 한국독어학회지:독어학
    • /
    • 제5집
    • /
    • pp.1-22
    • /
    • 2002
  • 본 논문의 목적은 게르만제어(예를들어 고트어, 고대북구어, 고고지독일어, 고대영어 등)에 나타나는 공명음중복 현상이 원-인도유럽어시기의 후두음에 기인함을 보이는 것이다. 고트어의 ddj/ggw, 고대북구어의 ggi/ggr, 고고지독일어 ij/uw (이상 소위 '예음화현상'으로 불림)와 그 외 게르만제어에 공통적으로 나타나는 공명음들의 중복, -rr-, -ll-, -nn-, -mm- 등은 원-게르만어시기에 각각 $\ast-ii-,\;\ast-uu-,\;\ast-rr-,\;\ast-ll-,\;\ast-nn-,\;\ast-mm-$ 등으로 소급된다. 그러나 이러한 자음군이 게르만어 이외의 다른 인도유럽어들( 대표적으로 고대인도이란어, 고전희랍어, 라전어 등)과 비교되어 원-인도유럽어시기로 소급되는 경우, 각각 $\ast-iH-,\;\ast-uH-,\;\ast-rH-,\;\ast-lH-,\;\ast-nH-,\;\ast-mH-$ 등으로 재구된다. 따라서 원-게르만어의 자음중복 현상이 후두음의 영향으로 나타난 것으로 해석되는데, 아마도 후두음이 선행하는 공명음에 동화되어 일어난 것으로 보인다. 소쉬르(1987)이래 발전해 온 후두음이론은 현재 그 이론적 틀을 확립한 상태이다. 이 이론은 고전 인도유럽어학에서 설명하지 못했던 여러 언어현상들을 설명하였고, 현대 인도유럽어 역사비교언어학에서 언어변화에 대한 필수적인 설명기재로서 사용되고 있다. 원-인도유럽어의 많은 특징들을 계승한 전형적인 다른 고대 인도유럽어들과는 달리, 시기적으로 늦은 고대 게르만어에서 음운론적 층위에서 공명음중복 현상이 후두음에 기인함은 인도유럽어 역사비교언어학에서 뿐만 아니라 게르만어학에서도 큰 의미를 갖는다고 볼 수 있다.간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.적 성분구조가 다르다는 것을 알 수 있다. 우리는 이 글이 외국어로서의 독일어를 배우는 이들에게 독일어의 관용구를 보다 올바르게 이해할 수 있는 방법론적인 토대를 제공함은 물론, (관용어) 사전에서 외국인 학습자를 고려하여 관용구를 알기 쉽게 기술하는 데 도움을 줄 수 있기를 바란다.되기 시작하면서 남황해 분지는 구조역전의 현상이 일어났으며, 동시에 발해 분지는 인리형 분지로 발달하게 되었다. 따라서, 올리고세 동안 발해 분지에서는 퇴적작용이, 남황해 분지에서는 심한 구조역전에 의한 분지변형이 동시에 일어났다 올리고세 이후 현재까지, 남황해

  • PDF

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.

GPT를 활용한 개인정보 처리방침 안전성 검증 기법 (Safety Verification Techniques of Privacy Policy Using GPT)

  • 심혜연;권민서;윤다영;서지영;이일구
    • 정보보호학회논문지
    • /
    • 제34권2호
    • /
    • pp.207-216
    • /
    • 2024
  • 4차 산업혁명으로 인해 빅데이터가 구축됨에 따라 개인 맞춤형 서비스가 급증했다. 이로 인해 온라인 서비스에서 수집하는 개인정보의 양이 늘어났으며, 사용자들의 개인정보 유출 및 프라이버시 침해 우려가 높아졌다. 온라인 서비스 제공자들은 이용자들의 프라이버시 침해 우려를 해소하기 위해 개인정보 처리방침을 제공하고 있으나, 개인정보 처리방침은 길이가 길고 복잡하여 이용자가 직접 위험 항목을 파악하기 어려운 문제로 인해 오남용되는 경우가 많다. 따라서 자동으로 개인정보 처리방침이 안전한지 여부를 검사할 수 있는 방법이 필요하다. 그러나 종래의 블랙리스트 및 기계학습 기반의 개인정보 처리방침 안전성 검증 기법은 확장이 어렵거나 접근성이 낮은 문제가 있다. 본 논문에서는 문제를 해결하기위해 생성형 인공지능인 GPT-3.5 API를 이용한 개인정보 처리방침 안전성 검증 기법을 제안한다. 새로운 환경에서도 분류 작업을 수행할 수 있고, 전문 지식이 없는 일반인이 쉽게 개인정보 처리방침을 검사할 수 있다는 가능성을 보인다. 실험에서는 블랙리스트 기반 개인정보 처리방침과 GPT 기반 개인정보 처리방침이 안전한 문장과 안전하지 않은 문장의 분류를 얼마나 정확하게 하는지와 분류에 소요된 시간을 측정했다. 실험 결과에 따르면, 제안하는 기법은 종래의 블랙리스트 기반 문장 안전성 검증 기법보다 평균적으로 10.34% 높은 정확도를 보였다.

BERT를 활용한 한국어 지속가능경영 보고서의 제로샷 가독성 평가 (Zero-Shot Readability Assessment of Korean ESG Reports using BERT)

  • 손규진;윤나은;이가은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.456-459
    • /
    • 2022
  • 본 연구는 최근 자연어 인공지능 연구 동향에 발맞추어 사전 학습된 언어 인공지능을 활용한 의미론적 분석을 통해 국문 보고서의 가독성을 평가하는 방법론 두 가지를 제안한다. 연구진은 연구 과정에서 사전 학습된 언어 인공지능을 활용해 추가 학습 없이 문장을 임의의 벡터값으로 임베딩하고 이를 통해 1. 의미론적 복잡도 와 2. 내재적 감정 변동성 두 가지 지표를 추출한다. 나아가, 앞서 발견한 두 지표가 국문 보고서의 가독성과 정(+)의 상관관계에 있음을 확인하였다. 본 연구는 통사론적 분석과 레이블링 된 데이터에 크게 의존하던 기존의 가독성 평가 방법론으로 부터 탈피해, 별도의 학습 없이 기존 가독성 지표에 근사한다는 점에서 의미가 있다.

한국어 사전학습 모델 KE-T5 기반 동형이의어 구별 (Homonym Identification Using Korean Pre-trained Model KE-T5)

  • 문선아;서현태;신사임;김산
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-508
    • /
    • 2021
  • 최근 한국어 자연어처리 과제에서 대형 언어 모델을 통해 다양한 언어처리 작업에 대한 연구가 활발히 이루어지고 있다. 특히 동형이의어를 구분하는 작업은 문장의 문법성을 정확히 판단하고 비교해야 되기 때문에 어려운 작업이다. KE-T5는 큰 규모의 한국어를 통해 학습된 한국어 대형 언어 모델로 대부분의 자연어처리 과제에서 활용할 수 있으며 복잡한 언어처리 작업에서 높은 성능을 기대할 수 있다. 본 논문에서는 큰 규모의 한국어를 통해 학습된 KE-T5를 활용하여 동형이의어 구별 문제를 수행하고 평가한다.

  • PDF

언어표현에 나타난 의미의 처리과정 (Verarbeitungsprozess der Bedeutungen von sprachlichen $Ausdr\"{u}cken$)

  • 오영훈
    • 한국독어학회지:독어학
    • /
    • 제3집
    • /
    • pp.277-301
    • /
    • 2001
  • 우리가 간단히 사용하는 언어는 실제적으로 아주 복잡한 진행과정을 가지고 있다. 사전상의 각 어휘는 대화상황에서 상호 작용하는 초기단계의 역할을 하며, 표현은 과거나 현재에 행해지는 대화상황 및 대화참여자의 발화 과정에서 생기는 일종의 일체감을 표시한다. 의사 소통을 한다는 것은 단어나 문장에 대한 다양한 의미와 각각의 개념에서 지시되는 표현을 수단으로 발생하는 대화상의 연관성을 의미한다. 이러한 모든 것은 의사소통에 있어 의미의 다양성과 관련을 맺고있다. 우리는 표현을 통하여 매우 복잡하고 다양한 양상들을 볼 수 있다. 대화내용에 따라 똑같은 표현들이 서로 다르게 이해될 수 있기 때문이다. 언어는 단지 사람이 행하는 언어처리의 일부만을 보여줄 뿐이다 언어를 처리하는데 있어서 문제가 되는 것은 매우 복잡하고 구성적인 진행과정이다. 청자는 의사소통이 진행되는 과정에서 활자와 함께 주어진 정보를 처리함으로써 상황을 내적 형상화하게 된다. 따라서 청자는 표현의 의미를 이해하려고 노력하며, 다양한 방법을 동원한 지식을 사용한다. 의사소통에 있어서 통사적$\cdot$의미적인 지식, 문맥에 맞는 대화지식 혹은 일반 지식을 대화상황에 맞게 적용하는 것이 그 예라 할 수 있다. 지시적 언어의 표현은 사전적으로 고정된 단어의 의미를 규정하거나 또는 이와 같은 단어의 의미에 정확하고 적절한 지시사를 규정하는 근거가 된다. 인칭$\cdot$장소$\cdot$시간을 지시하는 언어 Personal-, Lokal-, Temporaldeixis는 언어 시스템을 형성하게 되는데, 활자와 청자는 이러한 표현을 인칭$\cdot$장소$\cdot$시간으로 형상화하면서 의사소통을 한다. 따라서 자연어의 처리과정에 나타나는 다양한 표현들에 대한 심리학 및 언어학의 강력한 연구가 요구된다.에 기대어 텍스트, 문장, 어휘영역 등이 투입되어 적용되었으며, 이에 상응되게 구체적인 몇몇 방안들이 제시되었다. 학습자들이 텍스트를 읽고 중심내용을 찾아내며, 단락을 구획하고 또한 체계를 파악하는데 있어서 어휘연습은 외국어 교수법 측면에서도 매우 관여적이며 시의적절한 과제라 생각된다. Sd 2) PL - Sn - pS: (1) PL[VPL - Sa] - Sn - pS (2) PL[VPL - pS] - Sn - pS (3) PL(VPL - Sa - pS) - Sn - pS 3) PL[VPL - pS) - Sn -Sa $\cdot$ 3가 동사 관용구: (1) PL[VPL - pS] - Sn - Sd - Sa (2) PL[VPL - pS] - Sn - Sa - pS (3) PL[VPL - Sa] - Sn - Sd - pS 이러한 분류가 보여주듯이, 독일어에는 1가, 2가, 3가의 관용구가 있으며, 구조 외적으로 동일한 통사적 결합가를 갖는다 하더라도 구조 내적 성분구조가 다르다는 것을 알 수 있다. 우리는 이 글이 외국어로서의 독일어를 배우는 이들에게 독일어의 관용구를 보다 올바르게 이해할 수 있는 방법론적인 토대를 제공함은 물론, (관용어) 사전에서 외국인 학습자를 고려하여 관용구를 알기 쉽게 기술하는 데 도움을 줄 수 있기를 바란다.되기 시작하면서 남황해 분지는 구조역전의 현상이 일어났으며, 동시에 발해 분지는 인리형 분지로 발달하게 되었다. 따라서, 올리고세 동안 발해 분지에서는 퇴적작용이, 남황해 분지에서는 심한 구조역전에 의한 분지변형이 동시에 일어났다 올리고세 이후 현재까지, 남황해 분지와 발해 분지들은 간헐적인 해침과 함께 광역적 침강을 유지하면서 안정된 대륙 및 대륙붕 지역으로 전이되었다.

  • PDF

영어 종속접속의 유형과 기능: 극소절을 포함하여 (On the Types and Functions of English Subordination including Smallest Small Clauses)

  • 홍성심
    • 문화기술의 융합
    • /
    • 제7권1호
    • /
    • pp.134-139
    • /
    • 2021
  • 접속의 개념은 인간의 언어가 가진 속성 중의 하나로, 동물의 소통방식은 접속의 구조가 없다고 알려져 있다. 접속이란 문법단위들의 '연결'(connection, linkage)로 영어의 경우 종속접속절을 전치사구(PP)의 범주로 간주하거나, 보문소구 (CP)의 범주로 분류한다. 또한, 문장의 유형과 복잡성도 접속의 방식에 의해서 결정되는데, 동등접속과 달리 종속접속은 접속되는 문법단위가 대부분 절(clause)의 형태가 된다. 전통문법이나 학교문법에서는 종속접속이 그 기능에 따라 명사성 보충절, 형용성 관계절, 부사성 수식-부가절 3가지로 나뉘어 왔으나, 본 논문은 마치 소절(small clause)이 "절"로 인정되면서, 여러 가지 기능을 하는 것과 마찬가지로 무주어 무동사 종속절 (Verbless subordinate clause. V-less SC)을 종속절의 한 유형으로 보면서, 이를 극소절(smallest small clause)로 명명하고, 이들이 종속절의 일부라는 제안을 한다. 또한, 구조와 기능을 보다 세분하여 종합적으로 분석함으로서, XP라고 특정할 수 없는 절을 포함하여 분석할 수 있는 장점이 있음을 지적한다.