• Title/Summary/Keyword: 문법 제시

Search Result 225, Processing Time 0.023 seconds

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

A Morpheme-unit Korean Feature-Based Brammer (KFG) with the X-bar Theoretic Notion of Headedness (X-바 이론의 중심어 개념을 도입한 형태소 단위의 한국어 자질 기반 문법)

  • Park, So-Yeong;Hwang, Yeong-Suk;Im, Hae-Chang
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1247-1259
    • /
    • 1999
  • 본 논문에서는 한국어 문장형성원리를 간결하게 제시할 수 있도록 X-바 이론의 중심어 개념을 도입한 한국어 자질기반 문법을 제안한다. 제안하는 문법은 어절에 관계없이 나타나는 한국어의 문법현상을 명확히 설명할 수 있도록 어절 대신 형태소를 기본단위로 한다. 그리고, 한국어의 구문범주가 지닌 의미정보와 기능정보를 자질을 이용하여 독립적으로 표현하며, 구문범주간의 결합관계를 바탕으로 하는 자질연산을 수행하여 문장을 분석한다. 또한, 한국어의 부분자유어순과 생략현상에 대해 견고하게 분석할 수 있도록 자질연산을 이진결합중심의 CNF(Chomsky Normal Form)로 제한한다. 이렇게 구성된 한국어 자질기반 문법은 규칙을 직관적이고도 간단하게 기술하며, 한국어의 다양한 문장들을 견고하게 분석한다. SERI Test Suites 97과 신문기사에서 746문장을 추출하여 실험한 결과 94%~99%의 적용율을 보였다.Abstract In this paper, we propose a Korean feature-based grammar(KFG) which adopts the X-bar theoretic notion of headedness for a precise representation of Korean syntactic structure. In order to explain various language phenomena in a given sentence, we use not the word but the morpheme as a constituent unit of KFG. We use features manifesting both the syntactic information and the semantic information of Korean syntactic categories, and feature operations based on the association relationship between two categories. In addition, we restrict feature operations to CNF(Chomsky Normal Form) binary form, which provides a robust representation for properties in Korean such as the frequent ellipsis and the partial free-order. The KFG is intuitive, simple, and versatile in representing most Korean sentences. The experimental result shows 94%~99% coverage on 746 sentences extracted from SERI Test Suites 97 and newspaper sentences.

Combinatory Categorial Grammar for the Syntactic, Semantic, and Discourse Analyses of Coordinate Constructions in Korean (한국어 병렬문의 통사, 의미, 문맥 분석을 위한 결합범주문법)

  • Cho, Hyung-Joon;Park, Jong-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.4
    • /
    • pp.448-462
    • /
    • 2000
  • Coordinate constructions in natural language pose a number of difficulties to natural language processing units, due to the increased complexity of syntactic analysis, the syntactic ambiguity of the involved lexical items, and the apparent deletion of predicates in various places. In this paper, we address the syntactic characteristics of the coordinate constructions in Korean from the viewpoint of constructing a competence grammar, and present a version of combinatory categorial grammar for the analysis of coordinate constructions in Korean. We also show how to utilize a unified lexicon in the proposed grammar formalism in deriving the sentential semantics and associated information structures as well, in order to capture the discourse functions of coordinate constructions in Korean. The presented analysis conforms to the common wisdom that coordinate constructions are utilized in language not simply to reduce multiple sentences to a single sentence, but also to convey the information of contrast. Finally, we provide an analysis of sample corpora for the frequency of coordinate constructions in Korean and discuss some problematic cases.

  • PDF

A Trustworthiness Improving Link Evaluation Technique for LOD considering the Syntactic Properties of RDFS, OWL, and OWL2 (RDFS, OWL, OWL2의 문법특성을 고려한 신뢰향상적 LOD 연결성 평가 기법)

  • Park, Jaeyeong;Sohn, Yonglak
    • Journal of KIISE:Databases
    • /
    • v.41 no.4
    • /
    • pp.226-241
    • /
    • 2014
  • LOD(Linked Open Data) is composed of RDF triples which are based on ontologies. They are identified, linked, and accessed under the principles of linked data. Publications of LOD data sets lead to the extension of LOD cloud and ultimately progress to the web of data. However, if ontologically the same things in different LOD data sets are identified by different URIs, it is difficult to figure out their sameness and to provide trustworthy links among them. To solve this problem, we suggest a Trustworthiness Improving Link Evaluation, TILE for short, technique. TILE evaluates links in 4 steps. Step 1 is to consider the inference property of syntactic elements in LOD data set and then generate RDF triples which have existed implicitly. In Step 2, TILE appoints predicates, compares their objects in triples, and then evaluates links between the subjects in the triples. In Step 3, TILE evaluates the predicates' syntactic property at the standpoints of subject description and vocabulary definition and compensates the evaluation results of Step 2. The syntactic elements considered by TILE contain RDFS, OWL, OWL2 which are recommended by W3C. Finally, TILE makes the publisher of LOD data set review the evaluation results and then decide whether to re-evaluate or finalize the links. This leads the publishers' responsibility to be reflected in the trustworthiness of links among the data published.

Automated Query based on SQL BNF Grammar for Testing DBMS (SQL BNF 문법 기반의 자동 질의 생성기를 이용한 DBMS 테스트)

  • Kim, Jeong-Kyeom;Hwang, Min-Ho;Kwon, Sook-Youn;Lim, Jong-Hyeok;Bae, Yu-Jin;Ha, Man-Jae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.138-143
    • /
    • 2010
  • 현대의 데이터베이스 서버는 거대하고 복잡한 소프트 시스템의 구조이다. 복잡한 SQL(Structured query language) 언어는 점점 늘어가고 ANSI 표준을 바탕으로 새로운 형태로 발달하고 있다. 데이터베이스 서버를 테스트하는 작업은 꾸준히 진행되어 왔으며 앞으로도 계속 도전하고 있는 과제중 하나이다. 그 과제에 적합한 새로운 테스트 기법의 개발을 위해서는 보편적으로 막대한 인력과 비용이 요구된다. 본 논문에서는 수동적인 테스트에서의 막대한 인력과 비용의 문제로부터의 해결책을 제공하기 위해서 자동화된 SQL 쿼리 테스트 프레임워크를 제시한다. 본 프레임워크는 SQL의 기본이 되는 SQL BNF(Backus-Naur Format) 문법을 기본으로 하여 문법적, 의미적으로 정확한 "지능적인" SQL 쿼리를 랜덤하게 자동적으로 생성 한다. 생성된 "지능적인" 쿼리는 논리적 모델에서 얻어지고, 통계적인 정보를 통해 사용자에게 유용한 체크리스트를 제공한다. 각각의 데이터베이스 개발업체는 그들의 데이터베이스와 새롭게 개발되는 데이터베이스를 통합적으로 테스트 환경을 제공함에 따라 테스트 과정에서의 인력과 비용의 문제를 해결하고, 데이터베이스의 장단점을 파악하는 기준을 제공하여 품질 향상에 도움이 될 것이다.

  • PDF

Improvement of Korean Grammar Checker Using Partial Parsing based on Dependency Grammar and Disambiguation Rules (어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 성능 향상)

  • So, Kil-Ja;Nam, Hyeon-Sook;Kim, Su-Nam;Won, Sang-Yeon;Kwon, Hyuck-Chul;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.253-260
    • /
    • 1998
  • 한국어 문서에는 여러 어절을 검증해야만 처리할 수 있는 의미 오류와 문체 오류가 있다. 다수 어절 사이에 있는 오류는 부분 문장 분석을 한다. 논문에서는 의미 오류와 문체 오류를 처리할 때 어휘적 중의성 때문에 생기는 문제점을 제시하고 해결방법을 제안한다. 어휘적 중의성이란 한 단어가 두 가지 이상의 형태소 정보를 가짐을 뜻한다. 철자검사기와는 달리 문법 검사기에서는 어휘적 중의성을 제거하지 않으면 여러 가지 검사 오류가 발생한다. 이 논문에서는 의미, 문체 시스템에서 어휘적 중의성 때문에 검사 오류가 발생할 수 있는 과정을 크게 세 단계로 분류하였다. 연어 오류가 발생할 수 있는 검사단어가 어휘적 중의성을 가지면 표제어가 다른 규칙이 여러 개 존재한다. 이 때 규칙 선택 문제가 생긴다. 중의성 문제는 부분 문장분석 과정에서도 지배소와 의존소 사이의 의존관계를 정확하게 설정하기 어렵게 한다. 본 논문에서는 각 단계에서 발생한 문제를 최소화하여 문법 검사기의 성능을 향상시킨다.

  • PDF

A Study on the Korean Parts-of-Speech for Korean-English Machine Translation (기계번역용 한국어 품사에 관한 연구)

  • 송재관;박찬곤
    • Journal of the Korea Society of Computer and Information
    • /
    • v.5 no.4
    • /
    • pp.48-54
    • /
    • 2000
  • This Paper classified korean Parts-of-speech for korean-english machine translation and investigated morphological characters of each parts-of-speech. Korean standard grammar classified parts-of-speech by semantic, functional and formal character. Many rules make a difficulties the understanding of grammar structure and parts-of-speech classification and it is necessary to preprocess at machine translation. This paper classified korean parts-of-speech by one rule. The parts-of-speech suggested in this paper have a same syntactic role and same parts-of-speech with english dictionary, and express the structure of korean sentence. And also it can make target language by pattern matching in korean-english translation.

  • PDF

Incremental Interpreter based on Action Equations (작용 식 기반 점진 해석기)

  • Han, Jeong-Ran;Lee, Gi-Ho
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.8
    • /
    • pp.1018-1027
    • /
    • 1999
  • 속성 문법은 언어의 정적인 의미구조를 표현하는 형식적인 표기법으로 동적인 의미구조를 표현하기는 부적절하다. 동적 의미구조를 잘 명세하고 명세된 언어를 구현하기 위해서 기존의 속성 문법을 확장하여 언어 구현에 필요한 동적인 작용들(actions)을 잘 표현해야 한다. 본 논문에서는 속성 문법을 확장하여 정적이고 동적인 의미구조를 잘 표현할 수 있는 새로운 작용 식(action equation)을 제시한다. 제시된 작용 식(action equation)의 동적인 의미 구조로 부터 SIMP 언어의 점진 해석기(incremental interpreter)를 설계하고 구현한다. 점진 해석기는 언어 기반의 프로그래밍 환경에서 수정된 부분만을 번역하여 프로그램의 전체 실행 결과를 얻는 해석기를 의미한다. 본 해석기는 SUN 1000에서 Lex와 Yacc을 사용해서 C 언어로 설계하고 구현하였다. 예제 프로그램을 실행시켰을 때 배정 문이나 IF문의 경우는 매우 효율적이었고 Loop의 경우는 재실행될 필요가 있는 영향받는 명령문들이 적을수록 점진 해석이 더 효율적으로 수행된다.Abstract Attribute grammars are a formal notation which expresses the static semantics of programming languages, but they are not suitable for expressing dynamic semantics. To describe dynamic semantics and implement a specified language, we extend attribute grammars and present new action equations which describe static and dynamic semantics. The incremental interpreter of a SIMP language is designed and implemented from the dynamic semantics of presented action equations. The incremental interpreter is to translate only modified part in the language-based programming environments and have results of whole program.Our interpreter is implemented in C with Lex and Yacc on SUN 1000. When we execute example programs, the incremental evaluation of any assignment and IF statements executes efficiently. But in the case of loop, we execute efficiently when the effected statements to be reexecuted in the loop are of small number.

Multiresolutional Reconstruction from Contours (윤곽선을 이용한 다중해상도적 복원)

  • 민경하;이인권
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.30 no.11
    • /
    • pp.629-654
    • /
    • 2003
  • A new multiresolutional scheme that reconstructs a polygonal mesh from the set of contours is presented. In the first step, we apply a radial gradient method to extract the contours on the sampled slices from a volume data. After classifying the types of the edges on the contours, we represent the contour using the context-free grammar. The polygons between two neighboring contours are generated through the traversal of the derivation trees of the context-free grammar. The polygonal surface of the coarsest resolution is refined through the refinement of the contours, which is executed by casting more rays on the slices. The topologies between the polygonal surfaces of various resolutions are maintained from the fact that the radial gradient method preserves the topologies of the contours of various resolutions. The proposed scheme provides efficient computation and compression methods for the tiling procedure with the feature preservation.

한국에 문장분석의 생성 어휘론적 접근

  • 최병진
    • Language and Information
    • /
    • v.4 no.1
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메니카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF