• 제목/요약/키워드: 문법관계

검색결과 184건 처리시간 0.03초

한국어 구문분석 시스템 BCD-KL-Parser의 개발 (Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser)

  • 김민호;김성태;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

구문 관계 지식 추출을 위한 코퍼스 정규화에 대한 연구 (A Corpus Formalization for Extracting the Syntactic Relations)

  • 조정미;조영환;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-215
    • /
    • 1996
  • 대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.

  • PDF

XML기반 행정기관 전자문서의 관계 데이터베이스로의 저장 모델 (A Storage Model for XML-based government document to RDB)

  • 안만선;이언배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.166-168
    • /
    • 2004
  • 행정기관의 전자문서는 정부의 공문서 표준 DTD 및 XML 문법에 따라 작성되고 있으나. 일반 문서와 동일하게 정부의 디렉토리시스템에 문서 단위로 저장 관리되고 있다 그러나 구조 정보를 포함하고 있는 XML 문서를 보다 효과적으로 활용하기 위해서는 논리구조 단위로 정보를 저장 관리할 필요가 있다. 본 논문은 행정기관 전자문서의 특성을 파악하여 데이터베이스로 저장할 때 적합한 모델을 제안한다. 대부분의 행정기관이 사용하고 있는 관계 데이터베이스시스템(RDBMS)을 사용하였고. 데이터 중심과 문서내용 중심의 성격을 동시에 가지는 행정기관 전자문서의 특성을 고려하였다. 제안하는 저장 모델은 메타데이터를 표현하는 부분은 정적인 테이블을 사용하여 구조정보와 내용을 항께 저장하고, 문서 내용 중심의 본문 부분은 분할하지 않고 저장하는 변형된 분할 저장 방식이다. 제안하는 저장 모델을 활용하면 기존 RDBMS로 개발된 여러 응용 시스템과의 연동이 가능하고, XML 데이터 저장/검색을 위한 새로운 데이터베이스시스템의 구입 없이 행정기관에서 XML 전자문서를 효율적으로 관리할 수 있는 장정이 있다.

  • PDF

XML기반 공문서의 관계 데이터베이스 저장 모델 (A RDB storage model for XML-based public documents)

  • 안만선;이언배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.53-56
    • /
    • 2004
  • 공문서는 정부가 제정한 공문서 표준 DTD 및 XML 문법에 따라 작성되고 있으나, 일반 문서와 동일하게 정부의 디렉토리시스템에 문서 단위로 저장 관리되고 있다. 그러나 구조 정보를 포함하고 있는 XML 문서를 보다 효과적으로 활용하기 위해서는 논리구조 단위로 정보를 저장 관리할 필요가 있다. 본 논문은 XML로 작성되는 공문서의 특성을 파악하여 데이터베이스로 저장할 때 적합한 모델을 제안한다. 대부분의 공공기관이 사용하고 있는 관계 데이터베이스시스템(RDBMS)을 사용하였고, 데이터 중심과 문서내용 중심의 성격을 동시에 가지는 공문서의 특성을 고려하였다. 제안하는 저장 모델은 메타데이터를 표현하는 부분은 정적인 테이블을 사용하여 구조정보와 내용을 함께 저장하고, 문서 내용 중심의 본문 부분은 분할하지 않고 저장하는 변형된 분할 저장 방식이다. 제안하는 저장 모델을 활용하면 기존 RDBMS로 개발된 여러 응용 시스템과의 연동이 가능하고, XML 데이터 저장/검색을 위한 새로운 데이터베이스시스템의 구입 없이 XML 전자문서를 효율적으로 관리할 수 있다는 장점이 있다.

  • PDF

독일어와 한국어를 비교한 언어 유형적 분석 (Sprachtypologische Fehleranalyse - Im Vergleich der deutschen und koreanischen Sprache -)

  • 박진길
    • 한국독어학회지:독어학
    • /
    • 제7집
    • /
    • pp.1-24
    • /
    • 2003
  • 우리는 지금까지 독일어와 한국어 두 언어간의 오류분석을 논의해 왔다. 특히 언어유형학적인 측면에서 몇 가지 오류유형과 분석을 시도했다. 그 결과는 대체로 다음과 같이 요약될 수 있다. 독일어와 한국어가 서로 근본적으로 상반되는 언어현상과 더불어 약간의 공통성을 나타내며 일정한 유형을 나타낸다. 이는 두로 인간의 언어습득장치에 기인된 언어습득의 결정주의(Determinismus)에서 비롯될 것이다. 언어특성/문제의 체계성/규칙성 또는 일관성은 이를 반영한다. 거대한 언어자료 중에 극히 미미한 일부, 즉 언어최소량를 정복함으로써 그 효용성을 극대화할 수 있는 것은 매우 중요한 의미를 지닌다. 이를 연구 이용하는 경우에는 엄청난 효과와 가능성을 기대할 수 있을 것이다. (1) 독일어와 한국어의 학습 및 오류분석에서 가장 핵심적인 것은 언어유형학적으로 드러난 언어특성, 즉 전치성(독일어/영어)과 후치성(한국어)이다. 이를 토대로 형성된 대립적인 면과 공통적인 문제를 체계화하는 것이 역시 오류분석 문제의 관건이다. 또한 독일어가 아직 후치성 언어(한국어(TXV))에서 출발해서 전치성 언어(영어(SVX))로 발전/변화해 가는 과정, 즉 중간단계인 TVX에 머물고 있다는 사실이 중요한 의미를 지닌다. 즉 그들의 대극성과 유사성을 연결하는 실마리로 볼 수 있기 때문이다. (2) 일치(Kongruenz)/상관(Korrelation) 및 반복(Wiederholung) 현상, 그리고 격변화와 인칭변화 현상은 어순문제와 더불어 형태론적 문제를 통해 문법적인 확인수단으로 작용한다. 이들은 대부분 체계적/구조적으로 나타나기 때문에 학습자는 흔히 같은 유형에서 반복적으로 오류를 범하기 마련이다. 이를 극복하기 위해서 언어 유형학적 오류분석을 이해하고 또한 이를 통해 오류를 줄이거나 예방하는 학습이 필요하다. (3) 명사가 한정사구 안에서 성/수/격에 따라 변화하는 것과 동사가 동사구에서 주어의 인칭/수에 따라 인칭변화 하는 것은 우리 한국인에게는 아주 이색적인 현상이다. 이는 양면적인 수식구조에 대한 확인수단 및 원자가에 의한 강력한 형식위주 언어인 독일어와 전위적인 단일 수식구조와 부정형 동사를 특성으로 형성된 핵/최소문 언어간의 필연적인 적응관계 및 결과라고 볼 수 있다. 이 두 가지 유형 역시 언어특성에 따라 도식화/공식화 할 수 있다. (4) 괄호현상, 즉 으뜸머리(Hauptkopf)가 버금머리(Nebenkopf)와 분리하는 것은 우리 한국인에게는 아주 이색적인 언어현상이다. 한국어에는 머리의 이동이 없기 때문이다. 긴 구문에서 버금머리를 잊어버리거나 실수하는 것은 모든 괄호구문에서 예견되는 결과이다. 그러나 이는 정치성과 후치성 언어간의 전이 과정으로 이해될 수 있다. 으뜸머리가 원래의 자리를 박차고 소속 구/문의 앞자리로 도약한 것처럼 느껴지기 때문이다. (5) 전치 및 후치 수식이 유동적으로 작용하는 독일어는 전치 수식만으로 고정된 한국어보다 복잡하지만 균형적인 언어구조이다. 이러한 수식구조에서 한국인은 흔히 형태 및 어순에서, 그리고 번역에서 오류를 범하고 만다. (6) 그러나 가장 중요한 것은 아는 것을 제대로 이용하는 문제이다. 모국어/L2를 자유로이 말하고 쓸 때까지, 즉 언어습득에는 일체이 문법이나 도표/도식을 이용할 필요가 없다는 사실이다. 이는 17세기 서구의 이성주의 철학자들의 한결같은 경고이다. 오늘날 초고속 과학문명에서 더욱 빛을 발하는 것은 당연한 결과이다. 한 언어 속에 들어있는 문법체계를 익혀 가는 것이 곧 언어습득 과정이지만, 이를 달성하는 가능성 내지 첩경은 실제적인 언어자료와 체험이지 결코 문법이나 추상적인 개념적 접근이 아님을 웅변하고 있기 때문이다. 핵심적인 문제는 모국어교육에서도 최대 장점인 대화를 통한 언어연습/대화 기회를 최대한 보장하는 데 있다. 또한 언어간섭 현상을 조장하는 분위기를 막아야 할 것이다. 이러한 의미에서 교수법 개발이 외국어/L2 성공의 관건일 것이다. (7) 언어학습에서 오류를 극복하는 데는 일차적인 실제 상황에 부합하는 대화적인 연습, 그리고 효과적인 언어자료 접촉, 즉 독서와 모방이 중요하다. 이차적이고 직접적인 것은 통사(Syntax) 및 형태론(Morphologie)를 익힐 수 있는 말/문을 끊임없이 익히는 일이다. 이것이 또한 언어최소량을 충족시켜 언어습득에 이르는 첩경이다. 자연 생태적인 모국어 학습 또는 조정 및 제도적인 언어학습에서도 실제상황에 어긋나는 문법적인 체계에 얽매이는 도식 및 도표 위주의 텟스트는 일시적인 기대일 뿐이다. 인간의 언어습득장치를 이해하지 못한 결과이기 때문이다. 문법적인 개념위주 접근은 상당한 설명이 필요해서 절박한 자료와 체험까지 앗아가기 마련이다. 더구나 이를 위해 수준을 무시하고 모국어로 일관하여 벙어리와 문맹을 자초하는 것은 참으로 어리석은 일이다. 지식 정보화 시대 및 세계화 시대에는 무엇보다도 교육 및 언어정책이 국가 발전의 원동력이다. 특히 영어를 비롯한 외국어 학습능력과 학습방법은 매우 중요하다. 학습자에게 말하고 쓰는 기본 능력을 보장하는 것이 급선무이다. 이를 위한 작업의 하나가 바로 언어간의 오류분석일 것이다. 언어의 습득과 활용이 체계적이듯이 오류분석 역시 상당히 체계적이다. 그래서 인간의 언어습득과 언어습득장치를 두고 결정론(Determinismus)이 지배적이다. 이러한 의미에서 언어습득의 3대 요소, 즉 언어습득장치를 구비한 인간으로 태어나고, 해당 언어를 통한 일관된 언어체험/학습으로 언어최소량을 충족해야 한 언어를 정복할 수 있다는 것은 결정적인 사실이다. 학생고객에게 다가서는 책임교육으로 교육개방에 대비하는 일 역시 시대적인 상황이요 또한 결정적인 단계임엔 틀림이 없을 것이다.

  • PDF

BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템 (Korean Contextual Information Extraction System using BERT and Knowledge Graph)

  • 유소엽;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.123-131
    • /
    • 2020
  • 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서 좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의 한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

한국어 대인관계 단어의 친숙성과 적절성에 관한 연구 (A Study on the Familiarity and Appropriateness of Korean Interpersonal Words)

  • 장혜진;김영근
    • 감성과학
    • /
    • 제24권3호
    • /
    • pp.91-114
    • /
    • 2021
  • 본 연구는 한국어 대인관계 단어 도구를 제작하는 것으로, 그 첫 과정으로서 대인관계 단어 목록에 포함시킬 적절한 단어를 수집하는 것이 매우 중요하다. 먼저, 생소하지만 의미를 짐작해볼 수 있고 대인관계를 나타내는 것으로 판단되는 모든 어휘를 3종의 국어사전으로부터 수집하였다. 그 결과, 총 2,725개의 단어로 구성된 대인관계 단어 총집을 제작하였고, 중복되는 단어를 선별하여 총 910개의 단어를 선정하였다. 그 중에서도 문법적인 형태가 다를 뿐, 의미가 비슷하거나 동일한 단어가 발견되어 이를 반영한 재분류 작업이 요구되었다. 이러한 절차는 총 7회 반복하여 실시하였으며 그 결과, 총 249개의 단어를 선별하였다. 한편, 대표 단어 도구를 개발하는 본 연구의 특성 상, 단어의 의미가 보다 구체화되고 집약되어 전체적인 대인관계 양상을 하나로 잘 나타낼 수 있는 단어 구성이 필요하므로, 단어의 수를 축약시킬 필요가 있었다. 따라서 단어 선별의 마지막 단계로, 앞서 추출한 총 249개의 대인관계 단어에 대한 친숙성과 적절성 평가에 따라 재선별하는 절차를 수행한 후, 친숙성과 적절성의 평정치 결과가 서로 공통적으로 가장 높게 나타난 단어들을 최종적으로 선별하였다.

프로그래밍 초보자를 위한 비주얼 기반의 C 프로그래밍 통합 환경 (An Integrated C Programming Environment for Novices Based on Visuals)

  • 김행임;박은경;김현주;배종민
    • 컴퓨터교육학회논문지
    • /
    • 제16권6호
    • /
    • pp.111-120
    • /
    • 2013
  • 프로그래밍 초보자는 C언어를 처음 배울 때 여러 가지 면에서 어려움을 겪는다. 그 이유 중의 하나는 C 언어 문법 이해에 대한 학생들의 학습 부담이 크고, 문제 해결보다는 문법에 치중하는 경향이 있다. 또한 소프트웨어 개발에 대한 흥미를 유발시킬 수 있는 프로그래밍 도메인이 필요하다. 본 논문에서는 문제 해결 중심의 C언어 교육을 지원하는 프로그래밍 환경을 제시한다. 이를 위하여 첫째, NXT 로봇프로그래밍용 간단한 비주얼 프로그래밍 언어 Tiny-VPL을 정의하고, Tiny-VPL로 로봇프로그래밍을 할 수 있는 환경을 제시하며, 둘째 간단한 C 언어인 Mini-C언어를 사용하여 NXT 로봇 프로그래밍을 할 수 있는 환경을 제시한다. 그리고 Tiny-VPL을 Mini-C로 변환하며, 변환결과를 대화형으로 제공하는 그래픽 인터페이스를 제시한다. 개발된 프로그래밍 환경은 로봇 프로그래밍을 통하여 학생들의 흥미를 유발할 수 있고, 비주얼언어와 C언어 사이의 관계를 그래픽으로 제공하여 문제 해결 중심의 C 언어 교육에 효과적으로 활용될 수 있다.

  • PDF

대학생 영어 읽기 성취도에 따른 읽기 불안 하위요소 간 관계 분석 (Analysis on Relationships of Subcategories in English Reading Anxiety based on College Students' TOEIC Achievement)

  • 주대환
    • 한국콘텐츠학회논문지
    • /
    • 제20권11호
    • /
    • pp.492-500
    • /
    • 2020
  • 본 연구의 목적은 영어 읽기 불안 하위요소 간 상관관계와 인과관계를 분석하고 그 결과를 바탕으로 읽기 불안 요인이 학습에 미치는 부정적인 영향을 최소화할 수 있는 수업 설계와 교수 방법에 대한 방향성을 제시하여 효과적인 읽기 학습에 기여하는 것이다. 연구 참여자의 읽기 불안 정도는 설문지를 통해 측정하였고, SPSS 프로그램을 활용하여 설문 결과를 분석하였다. 본 연구를 통해 밝혀진 사실은 다음과 같다. 첫째, 평균 점수 이상·미만 향상집단 모두에서 영어 읽기 불안 하위요소 간 유의미한 상관관계가 나타났다. 두 번째, 두 집단 모두에서 자신감 결여 불안이 전체 읽기 불안에 가장 큰 영향을 주는 요인으로 나타났으며 다음으로는 장문 읽기, 평가 그리고 문법·어휘와 관련된 일반읽기 불안 순으로 전체 읽기 불안에 영향을 주는 것으로 나타났다. 본 연구 결과를 토대로 영어 읽기 교수 학습에 시사하는 바는 다음과 같다. 학습을 준비하는 교사나 학습의 주체인 학습자는 읽기 불안 요소가 서로 독립적으로 분리된 것이 아니라 상호 연관되어 있음을 인식하고, 교사는 학습자가 영어 읽기 학습에서 느끼는 불안감을 최소화할 수 있는 학습 환경을 제공함으로써 성공적인 읽기 학습의 가능성을 높일 수 있을 것으로 기대된다.

문장 성분의 의미 관계를 이용한 한국어 오류 문자 교정 시스템 (The error character Revision System of the Korean using Semantic relationship of sentence component)

  • 박현재;박해선;강원일;손영선
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.28-32
    • /
    • 2004
  • 현재 구현되어 있는 한국어 철자 교정 시스템은 문장의 문법 정보나 연어 관계로부터 문장의 오류를 처리하는 방식을 쓰고 있다. 본 논문에서는. 홑문장에서 의미소 사이의 관계를 이용하여 오타 문자를 교정하고, 오타에 의한 의미적인 오류가 있을 때에는 적절한 의미를 가지는 단어로 대체하는 시스템을 제안한다. 상기의 제안된 시스템을 이용하여 의미소들 간의 의미가 통하는 여러 개의 문장들이 제공된다. 단어의 뜻에 따라 체언은 의미 트리를 형성하고, 서술어는 주어 및 목적어의 체언과 의미 관계를 정의한다. 오류가 포함된 문장에서, 의미 관계를 비교, 분석하여 주어 및 목적어의 체언이 틀렸을 경우에는 서술어로부터, 서술어가 틀렸을 경우에는 주어 및 목적어의 체언으로부터, 수식어가 틀렸을 경우에는 체언 또는 서술어로부터 정의된 상호 의미 관계를 이용하여 한 문자에 대한 오타를 교정하고 오타에 의한 의미적 오류가 발견될 때에는 상기와 같은 철자 교정 방법을 적용하였다.