• Title/Summary/Keyword: language grammar

Search Result 386, Processing Time 0.024 seconds

Feature-based Korean Phrase Structure Grammar adjusting X-bar Theory (X-바 이론을 변형한 자질기반의 한국어 구구조 문법)

  • Park, So-Young;Hwang, Young-Sook;Chung, Hoo-Jung;Kwak, Yong-Jae;Rim, Hae-Chabg
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.222-229
    • /
    • 1998
  • 본 논문에서는 X-바 이론을 한국어에 적용하여 서로 다른 범주들간의 구조적 일반성을 파악하고, 한국어에 가능한 규칙만을 허용하여 불가능한 규칙을 배제시킬 수 있는 틀을 제시하고자 한다. 한국어가 비중심어간 어순이 자유롭고 기능어가 발달했다는 점을 고려하여, 중심어와 보충어 관계 중심의 기존 X-바 이론을 통사적 파생과 의미적 파생, 수식 및 하위범주의 관계를 중심으로 변형한다. 또한, 한국어의 빈번한 생략현상과 부분 자유 어순에 효과적으로 대응할 수 있도록 이진결합 중심의 CNF(Chomsky Normal Form)를 따른다. 제안하는 자질기반의 한국어 구구조 문법은 직관적이고 간단하면서도 대부분의 문장을 처리할 수 있을 만큼 표현력이 뛰어나다는 장점이 있다. 신문기사에서 454문장을 추출하여 실험한 결과, 약 97%의 문장에 대해 올바른 구문 분석 결과를 생성할 수 있음을 보였다.

  • PDF

LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts (SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전)

  • Choi, Seong-Yong;Shin, Dong-Hyok;Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

Some Issues on Causative Verbs in English

  • Cho, Sae-Youn
    • Language and Information
    • /
    • v.13 no.1
    • /
    • pp.77-92
    • /
    • 2009
  • Geis (1973) has provided various properties of the subjects and by + Gerund Phrase (GerP) in English causative constructions. Among them, the two main issues of Geis's analysis are as follows: unlike Lakoff (1965; 1966), the subject of English causative constructions, including causative-inchoative verbs such as liquefy, first of all, should be acts or events, not persons, and the by + GerP in the construction is a complement of the causative verbs. In addition to these issues, Geis has provided various data exhibiting other idiosyncratic properties and proposed some transformational rules such as the Agent Creation Rule and rule orderings to explain them. Against Geis's claim, I propose that English causative verbs require either Proper nouns or GerP subjects and that the by + GerP in the constructions as a Verbal Modifier needs Gerunds, whose understood Affective-agent subject is identical to the subject of causative verbs with respect to the semantic index value. This enables us to solve the two main issues. At the same time, the other properties Geis mentioned also can be easily accounted for in Head-driven Phrase Structure Grammar (HPSG) by positing a few lexical constraints. On this basis, it is shown that given the few lexical constraints and existing grammatical tools in HPSG, the constraint-based analysis proposed here gives a simpler explanation of the properties of English causative constructions provided by Geis without transformational rules and rule orderings.

  • PDF

Deep Analysis of Question for Question Answering System (질의 응답 시스템을 위한 질의문 심층 분석)

  • Shin Seung-Eun;Seo Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.3
    • /
    • pp.12-19
    • /
    • 2006
  • In this paper, we describe a deep analysis of question for question answering system. It is difficult to offer the correct answer because general question answering systems do not analyze the semantic of user's natural language question. We analyze user's question semantically and extract semantic features using the semantic feature extraction grammar and characteristics of natural language question. They are represented as semantic features and grammatical morphemes that consider semantic and syntactic structure of user's questions. We evaluated our approach using 100 questions whose answer type is a person in the web. We showed that a deep analysis of questions which are comparatively short but enough to mean can analysis the user's intention and extract semantic features.

  • PDF

To Constrain Korean Compound Nouns using Semantic Information for Korean Grammar Checker (한국어 문법검사기에서 의미정보를 이용한 복합명사의 분석제약)

  • Won, Sang-Yun;Kim, Su-Nam;Kim, Kwang-Young;Nam, Hyun-Suk;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.288-293
    • /
    • 1999
  • 일반적으로 두 개의 명사가 결합하여 하나의 명사 기능을 하는 어구를 복합명사라고 한다. 한국어는 복합명사 내의 명사를 붙여볼 수도 있고 띄어쓸 수도 있으므로 복합명사의 형태적 분석에 많은 어려움이 있다. 이 연구에서는 각 명사의 복합명사 결합을 최대한 제약하여 문법검사기에서 복합명사와 관련된 오류의 발생을 최소화할 수 있는 방범을 개발했다. 이 논문에서 복합명사 분석 기능을 제약하는 방법으로 형태적 제약 방법과 의미정보에 따라 복합명사의 결합관계를 제약하는 방법을 이용했다. 어휘 정보만으로 복합명사를 분석하면 의미관계에 의한 오류는 찾기 어려우므로 복합명사의 구조적 결합관계와 의미 결합관계를 밝혀 복합명사를 잘못 분석하는 문제점을 극복한다. 복합명사의 결합제약은 명사의 왼쪽과 오른쪽에 올 수 있거나 올 수 없는 명사를 의미, 형태적 특성과 명사가 나타나는 분포(distribution)에 따라 분류하여 규칙베이스화하였다. 의미정보를 이용한 복합명사 결합제약 알고리즘도 구현하였다.

  • PDF

A Study on the Report Assessment Patterns of International Undergraduate Students and Instructors (대학보고서에 대한 외국인 학부 유학생과 교수자의 평가 양상 연구)

  • Jang, Mijung;Park, Jung-eun
    • Journal of Korean language education
    • /
    • v.29 no.3
    • /
    • pp.293-324
    • /
    • 2018
  • The purpose of this study was to identify differences in the report assessment patterns of international undergraduate students and instructors. Based on two sample reports, the following differences were confirmed between international students and instructors' assessments of reports. First, instructors and students showed no differences in their assessments of the well-formatted report. However, the two groups exhibited differences in their assessments of the report that was not well formatted in that students evaluated the report more highly than instructors did. Second, instructors and students exhibited notable differences in their assessments of items such as citation, logic, and expression. This may have been because students lacked knowledge on citation methods and the use of grounds for arguments based on citation methods and topics. Third, students and instructors showed differences in their areas of focus when evaluating reports. Instructors mostly focused on the main topics of each report, whereas students focused on supporting details for the main topics. Based on these findings, instructors need to emphasize the following areas in educating international undergraduate students on report writing. First, they should stress proper source citation. They should provide frequent guidance on how to accurately cite sources. Second, they should help students to first think about the overall form and content of their reports. Instructors should emphasize that having a logical overall report structure and content that is relevant to the subject is more important in general than grammar or accuracy of vocabulary.

A Comparative Study on Korean Reading Comprehension by Adjusting Vocabulary Levels (수준별 어휘 조정에 따른 한국어 읽기 텍스트 이해도 비교 연구)

  • Ju, Jae-hwan
    • Journal of Korean language education
    • /
    • v.29 no.4
    • /
    • pp.201-223
    • /
    • 2018
  • The purpose of this study is to observe the effects of text modification by comparing differences in Korean reading comprehension levels that arise from differences in vocabulary levels in texts. This study intends to use simplified texts with the vocabulary difficulty adjusted differently from the original text to measure reading comprehension levels of Korean learners and analyze the result. To measure reading comprehension, the researcher divided 55 Korean learners of intermediate to advanced level of fluency into two groups; the control group read the original text and the treatment group read a simplified text in which complex vocabulary were substituted with easier words of medium difficulty. Then the two groups were tested with the same questionnaire to measure comprehension levels of each group. The result showed that the groups that read simplified texts scored higher than the control group; this suggests that the reading comprehension level was increased in the treatment group. The experiment confirmed that unknown vocabulary density has direct impact on Korean reading comprehension. The result shows that the proportion of unknown vocabulary should be reduced for meaning-focused reading. It also demonstrates that comprehension of the learner was enhanced with lexical simplification rather than structural simplification i.e. simplification of grammar or sentences. Thus, diverse reading materials adjusted to the learners' level of fluency should be developed to enable reading for learning Korean. By reducing the burden of understanding the meaning of each vocabulary, learners will be able to achieve the initial goal of reading.

Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model (한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법)

  • Hoonrae Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

DecoFESA: A Hybrid Platform for Feature-based Sentiment Analysis Based on DECO-LGG Linguistic Resources with Parser and LSTM (DECO-LGG 언어자원 및 의존파서와 LSTM을 활용한 하이브리드 자질기반 감성분석 플랫폼 DecoFESA 구현)

  • Hwang, Changhoe;Yoo, Gwanghoon;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.321-326
    • /
    • 2020
  • 본 연구에서는 한국어 감성분석 성능 향상을 위한 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph) 패턴문법 기술 프레임에 의존파서 및 LSTM을 적용하는 하이브리드 방법론을 제안하였다. 본 연구에 사용된 DECO-LGG 언어자원을 소개하고, 이에 기반하여 의미 정보를 의존파서(D-PARS)와 페어링하는 한편 OOV(Out Of Vocabulary)의 문제를 LSTM을 통해 해결하여 자질기반 감성분석 결과를 제시하였다. 부트스트랩 방식으로 반복 확장될 수 있는 LGG 언어자원 및 알고리즘을 통해 수행되는 자질기반 감성분석 프로세스는 전용 플랫폼 DecoFESA를 통해 그 범용성을 확장하였다. 실험을 위해서 네이버 쇼핑몰의 '화장품 구매 후기글'을 크롤링하였으며, DecoFESA 플랫폼을 통해 현재 구축된 DECO-LGG 언어자원 기반의 감성분석 성능을 평가하였다. 이를 통해 대용량 언어자원의 구축과 이를 활용하기 위한 어휘 시퀀스 처리 알고리즘의 구현이 보다 정확한 자질기반 감성분석 결과를 제공할 수 있음을 확인하였다.

  • PDF

A Probing Task on Linguistic Properties of Korean Sentence Embedding (한국어 문장 임베딩의 언어적 속성 입증 평가)

  • Ahn, Aelim;Ko, ByeongiI;Lee, Daniel;Han, Gyoungeun;Shin, Myeongcheol;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF