• 제목/요약/키워드: 언어학적 문법

검색결과 50건 처리시간 0.027초

통계적 언어 모델의 clustering 알고리즘과 음성인식에의 적용 (A clustering algorithm of statistical langauge model and its application on speech recognition)

  • 김우성;구명완
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-152
    • /
    • 1996
  • 연속음성인식 시스템을 개발하기 위해서는 언어가 갖는 문법적 제약을 이용한 언어모델이 요구된다. 문법적 규칙을 이용한 언어모델은 전문가가 일일이 문법 규칙을 만들어 주어야 하는 단점이 있다. 통계적 언어 모델에서는 문법적인 정보를 수작업으로 만들어 주지 않는 대신 그러한 모든 정보를 학습을 통해서 훈련해야 하기 때문에 이를 위해 요구되는 학습 데이터도 엄청나게 증가한다. 따라서 적은 양의 데이터로도 이와 유사한 효과를 보일 수 있는 것이 클래스에 의거한 언어 모델이다. 또 이 모델은 음성 인식과 연계시에 탐색 공간을 줄여 주기 때문에 실시간 시스템 구현에 매우 유용한 모델이다. 여기서는 자동으로 클래스를 찾아주는 알고리즘을 호텔예약시스템의 corpus에 적용, 분석해 보았다. Corpus 자체가 문법규칙이 뚜렷한 특성을 갖고 있기 때문에 heuristic하게 클래스를 준 것과 유사한 결과를 보였지만 corpus 크기가 커질 경우에는 매우 유용할 것이며, initial map을 heuristic하게 주고 그 알고리즘을 적용한 결과 약간의 성능향상을 볼 수 있었다. 끝으로 음성인식시스템과 접합해 본 결과 유사한 결과를 얻었으며 언어모델에도 음향학적 특성을 반영할 수 있는 연구가 요구됨을 알 수 있었다.

  • PDF

한글 문헌 자동축약 시스템에 관한 연구 (The Study of Automatic Extracting System on Korean Full text)

  • 김세중;조성호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.27-38
    • /
    • 1992
  • 본 연구는 한글 문헌을 컴퓨터를 이용하여 축약하는 시스템 구축에 관한 연구로서, 기존의 '완전 자동축약'에 따른 축약문 생성의 편협성을 해결하기 위하여 '자동축약 + 후통제 처리'라는 절충형 시스템 관리 형태로 실제 실현 가능한 시스템을 설계한다는데 그 큰 목적이 있다. 대상 문헌에 대한 구체적 적응 문법은 언어학적 문법 이론인 '격문법 이론'과 '성분 이론'을 그 핵심으로 이용하여 문장을 '의미 있는 어절' 단위로 추출, 해당 문헌을 축약하는 방법을 택하였다.

  • PDF

모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발 (Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory)

  • 우순조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

유형상속 결합범주문법에서의 격현상 구현 (Implementation of Case Phenomena in the Korean TCCG System)

  • 이화윤;이용훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.118-122
    • /
    • 2010
  • 격현상은 한국어의 여러 가지 문법현상들을 분석하고 이를 전산학적으로 구현하는데 아주 중요한 부분 중의 하나이다. 결합범주문법(Combinatory Categorial Grammar; CCG)을 이용한 대부분의 기존 연구들에서는 격조사나 보조사들에도 별도의 통사범주들을 할당한 후, 이들 조사들이 명사와 결합하여 하나의 명사구를 구성하는 것으로 조사들을 처리하고 있다. 그러나 이러한 방법들은 이론적인 문제점들뿐만 아니라 전산적 구현에 있어서도 문제점을 안고 있다. 본 논문에서는 이러한 문제점들을 해결하면서도 한국어의 격현상을 효과적으로 구현할 수 있는 방법을 소개한다. 본 논문에서 사용하려고 하는 문법공학 시스템은 한국어를 위한 유형상속 결합범주문법(Type-inherited Combinatory Categorial Grammar; TCCG)이다. 이 시스템 안에서는 명사구의 격조사나 보조사들이 별도의 통사범주들을 할당받지 않고, 명사의 굴절규칙(inflectional rules)에 의하여 명사와 결합하게 된다. 따라서 국어의 기본적인 격조사들을 효율적으로 구현할 수 있을 뿐만 아니라 보조사나 격조사 탈락현상들도 효과적으로 분석하고 구현할 수 있게 된다.

  • PDF

독일어와 한국어를 비교한 언어 유형적 분석 (Sprachtypologische Fehleranalyse - Im Vergleich der deutschen und koreanischen Sprache -)

  • 박진길
    • 한국독어학회지:독어학
    • /
    • 제7집
    • /
    • pp.1-24
    • /
    • 2003
  • 우리는 지금까지 독일어와 한국어 두 언어간의 오류분석을 논의해 왔다. 특히 언어유형학적인 측면에서 몇 가지 오류유형과 분석을 시도했다. 그 결과는 대체로 다음과 같이 요약될 수 있다. 독일어와 한국어가 서로 근본적으로 상반되는 언어현상과 더불어 약간의 공통성을 나타내며 일정한 유형을 나타낸다. 이는 두로 인간의 언어습득장치에 기인된 언어습득의 결정주의(Determinismus)에서 비롯될 것이다. 언어특성/문제의 체계성/규칙성 또는 일관성은 이를 반영한다. 거대한 언어자료 중에 극히 미미한 일부, 즉 언어최소량를 정복함으로써 그 효용성을 극대화할 수 있는 것은 매우 중요한 의미를 지닌다. 이를 연구 이용하는 경우에는 엄청난 효과와 가능성을 기대할 수 있을 것이다. (1) 독일어와 한국어의 학습 및 오류분석에서 가장 핵심적인 것은 언어유형학적으로 드러난 언어특성, 즉 전치성(독일어/영어)과 후치성(한국어)이다. 이를 토대로 형성된 대립적인 면과 공통적인 문제를 체계화하는 것이 역시 오류분석 문제의 관건이다. 또한 독일어가 아직 후치성 언어(한국어(TXV))에서 출발해서 전치성 언어(영어(SVX))로 발전/변화해 가는 과정, 즉 중간단계인 TVX에 머물고 있다는 사실이 중요한 의미를 지닌다. 즉 그들의 대극성과 유사성을 연결하는 실마리로 볼 수 있기 때문이다. (2) 일치(Kongruenz)/상관(Korrelation) 및 반복(Wiederholung) 현상, 그리고 격변화와 인칭변화 현상은 어순문제와 더불어 형태론적 문제를 통해 문법적인 확인수단으로 작용한다. 이들은 대부분 체계적/구조적으로 나타나기 때문에 학습자는 흔히 같은 유형에서 반복적으로 오류를 범하기 마련이다. 이를 극복하기 위해서 언어 유형학적 오류분석을 이해하고 또한 이를 통해 오류를 줄이거나 예방하는 학습이 필요하다. (3) 명사가 한정사구 안에서 성/수/격에 따라 변화하는 것과 동사가 동사구에서 주어의 인칭/수에 따라 인칭변화 하는 것은 우리 한국인에게는 아주 이색적인 현상이다. 이는 양면적인 수식구조에 대한 확인수단 및 원자가에 의한 강력한 형식위주 언어인 독일어와 전위적인 단일 수식구조와 부정형 동사를 특성으로 형성된 핵/최소문 언어간의 필연적인 적응관계 및 결과라고 볼 수 있다. 이 두 가지 유형 역시 언어특성에 따라 도식화/공식화 할 수 있다. (4) 괄호현상, 즉 으뜸머리(Hauptkopf)가 버금머리(Nebenkopf)와 분리하는 것은 우리 한국인에게는 아주 이색적인 언어현상이다. 한국어에는 머리의 이동이 없기 때문이다. 긴 구문에서 버금머리를 잊어버리거나 실수하는 것은 모든 괄호구문에서 예견되는 결과이다. 그러나 이는 정치성과 후치성 언어간의 전이 과정으로 이해될 수 있다. 으뜸머리가 원래의 자리를 박차고 소속 구/문의 앞자리로 도약한 것처럼 느껴지기 때문이다. (5) 전치 및 후치 수식이 유동적으로 작용하는 독일어는 전치 수식만으로 고정된 한국어보다 복잡하지만 균형적인 언어구조이다. 이러한 수식구조에서 한국인은 흔히 형태 및 어순에서, 그리고 번역에서 오류를 범하고 만다. (6) 그러나 가장 중요한 것은 아는 것을 제대로 이용하는 문제이다. 모국어/L2를 자유로이 말하고 쓸 때까지, 즉 언어습득에는 일체이 문법이나 도표/도식을 이용할 필요가 없다는 사실이다. 이는 17세기 서구의 이성주의 철학자들의 한결같은 경고이다. 오늘날 초고속 과학문명에서 더욱 빛을 발하는 것은 당연한 결과이다. 한 언어 속에 들어있는 문법체계를 익혀 가는 것이 곧 언어습득 과정이지만, 이를 달성하는 가능성 내지 첩경은 실제적인 언어자료와 체험이지 결코 문법이나 추상적인 개념적 접근이 아님을 웅변하고 있기 때문이다. 핵심적인 문제는 모국어교육에서도 최대 장점인 대화를 통한 언어연습/대화 기회를 최대한 보장하는 데 있다. 또한 언어간섭 현상을 조장하는 분위기를 막아야 할 것이다. 이러한 의미에서 교수법 개발이 외국어/L2 성공의 관건일 것이다. (7) 언어학습에서 오류를 극복하는 데는 일차적인 실제 상황에 부합하는 대화적인 연습, 그리고 효과적인 언어자료 접촉, 즉 독서와 모방이 중요하다. 이차적이고 직접적인 것은 통사(Syntax) 및 형태론(Morphologie)를 익힐 수 있는 말/문을 끊임없이 익히는 일이다. 이것이 또한 언어최소량을 충족시켜 언어습득에 이르는 첩경이다. 자연 생태적인 모국어 학습 또는 조정 및 제도적인 언어학습에서도 실제상황에 어긋나는 문법적인 체계에 얽매이는 도식 및 도표 위주의 텟스트는 일시적인 기대일 뿐이다. 인간의 언어습득장치를 이해하지 못한 결과이기 때문이다. 문법적인 개념위주 접근은 상당한 설명이 필요해서 절박한 자료와 체험까지 앗아가기 마련이다. 더구나 이를 위해 수준을 무시하고 모국어로 일관하여 벙어리와 문맹을 자초하는 것은 참으로 어리석은 일이다. 지식 정보화 시대 및 세계화 시대에는 무엇보다도 교육 및 언어정책이 국가 발전의 원동력이다. 특히 영어를 비롯한 외국어 학습능력과 학습방법은 매우 중요하다. 학습자에게 말하고 쓰는 기본 능력을 보장하는 것이 급선무이다. 이를 위한 작업의 하나가 바로 언어간의 오류분석일 것이다. 언어의 습득과 활용이 체계적이듯이 오류분석 역시 상당히 체계적이다. 그래서 인간의 언어습득과 언어습득장치를 두고 결정론(Determinismus)이 지배적이다. 이러한 의미에서 언어습득의 3대 요소, 즉 언어습득장치를 구비한 인간으로 태어나고, 해당 언어를 통한 일관된 언어체험/학습으로 언어최소량을 충족해야 한 언어를 정복할 수 있다는 것은 결정적인 사실이다. 학생고객에게 다가서는 책임교육으로 교육개방에 대비하는 일 역시 시대적인 상황이요 또한 결정적인 단계임엔 틀림이 없을 것이다.

  • PDF

제한 논리 프로그래밍 언어에서 DCG를 이용한 생물학적 서열의 구조 검색 (Structure Searching of Biological Sequence using DCG in Constraint Logic Programming Language)

  • 이근우;이수현;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.352-354
    • /
    • 2001
  • 생물학적 서열의 구조 검색은 생물학적 특성을 예측하는데 많은 도움을 주며, 서열에서 나타나는 구조의 패턴은 촘스키의 형식 언어로 기술 가능하다. 본 논문에서는 문맥무관문법의 확장된 표기법인 DCG를 이용하여 구조 검색을 위한 구조 패턴의 생성 규칙을 정의하였다. 또한 구조 검색의 효율향상을 위하여 구조와 관련한 제한(constraint)을 정의하였고 이를 제한 논리 프로그래밍 언어로 구현하였다. 구현된 구조 검색 엔진은 웹 인터페이스를 통하여 접근할 수 있다.

  • PDF

적절한 동사 대역어 선택을 위한 한영 변환 사전 구성 (The Composition of Korean-English Transfer Dictionary for Proper Selection of Verb Translation)

  • 송정근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-301
    • /
    • 2001
  • 기계번역이 인간의 언어 능력을 기계로 구현한다는 점에서 전산학적 성격이 강하다면, 변환 사전은 인간의 어휘부(lexicon) 정보를 그대로 기계에 표상한다는 점에서 언어학적 성격이 강하다. 여기서는 다양한 어휘부 정보 중에서 한영 기계번역에서 필요한 언어학적 정보를 추출하고 이러한 정보를 바탕으로 적절한 동사 대역어 선택을 위한 변환 사전의 모형을 만들어 보고자 하였다. 한영 기계번역에서 적절한 동사 대역어 선택의 어려움은 한국어 동형어 처리 문제와 한국어에서는 포착되지 않지만 영어로 번역하는 과정에서 발생하는 영어 표현의 특수성 때문에 기인한 것으로 볼 수 있다. 이 논문에서는 이러한 문제를 논항과 문법 형태소, 선택제약, 개별 어휘 등의 기초적인 언어학적 개념을 이용한 변환사전을 통해 해결한다. 또한 동사 대역어 선택에 영향을 미치는 이러한 개별적인 요인들은 실제 변환사전의 기술에 있어서는 복합적으로 적용됨을 동사 '먹다'의 기술을 통해 확인할 수 있다.

  • PDF

수화 자동 생성을 위한 한국어 문장 분석과 처리 (Analysis and Computational Processing of Sentences in Korean for Automatic Sign Language Generation)

  • 최지원;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-226
    • /
    • 2003
  • 한국 수화는 한국어에 대한 기본적인 유사성을 가지고 있지만, 교착어이자 청각-음성 체계 언어인 한국어와는 달리 고립어이자 시각-운동 체계 언어로서의 특성을 동시에 나타내고 있다. 그러므로 텍스트 형태의 한국어 문장으로부터 수화를 자동 생성하기 위해서는 한국어를 위해 미리 정의된 문법에 수화 표현을 무리하게 연계시키려고 하기 보다, 수화 고유의 의미 전달 체계를 분석하고 활용하여야 할 필요가 있다. 본 논문에서는 수화 표현상의 언어학적 특징을 재현 생략 변형 이동의 네 가지로 구분하여 분석하고 결합범주문법을 이용한 이 같은 형상의 처리 방법 및 구현 방안에 대하여 논의한다.

  • PDF

언어 유형학적 견지에서 본 독일어 관계 대명사와 한국어의 대응구조 (Relativpronomen im Deutschen und deren Entsprechung im Koreanischen - Aus der sprachtypologischen Perspektive -)

  • 박진길
    • 한국독어학회지:독어학
    • /
    • 제5집
    • /
    • pp.53-65
    • /
    • 2002
  • 독일어의 관계대명사는, 선행사의 반복과 그에 결부된 일치 규정을 철저하게 따름으로써 가능한 한, 언어의 모호성을 배제하려 한다. 이에 반해 한국어에서는 그런 것이 전혀 필요하지 않다. 독일어의 관계대명사에 해당하는 부가어 문장이 항상 그의 관계어/선행사 앞에 위치하기 때문이다. 이 때문에 양측의 (모국어)화자는 심각한 언어간섭 현상에 빠지기 마련이다 그들의 차이가 서로에게 너무 큰 까닭이다. 이러한 대립적인 어려운 문제들은, 일면에서는 전치성과 후치성이란 언어 특성을 익히고, 다른 일면에서는 한국인이 번역에서 독일어의 관계대명사에 결부된 구조를 완전히 생략함으로써 극복될 수 있다. 독일어나 한국어처럼 상호 대립적으로 발달한 언어를 정복하기 위해서, 가장 좋은 방법으로는 문장 자체를 한 단어처럼 익히는 것이다. 이것은 또한 서술을 위한 표현능력을 신장하는데도 효과적이다. 이에 따른 문법을 따로 배워야 한다는 생각은 전혀 필요하지 않다. 왜냐하면 언어습득장치는 모든 것을 언제나 문법적/체계적/분석적으로 수용하기 때문이다.

  • PDF