• Title/Summary/Keyword: 정규문법

Search Result 25, Processing Time 0.029 seconds

Inlined Regular Tree Grammar (인라인 정규트리문법)

  • Yoo Ga-Yeon;Lee Eun-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.105-108
    • /
    • 2006
  • 형식 언어에서 XML 문서를 정의하는 방법으로 정규트리문법을 이용할 수 있다. 한편 XML 데이터에서 재귀와 반복과 같이 필요한 경우만을 제외하고 터미널 노드를 상위 노드의 직접 자식으로 여기는 것을 인라인이라고 한다. 본 논문에서는 XML 데이터 처리에서 사용되는 인라인 기법을 정규트리문법에 적용하여 터미널 노드만으로 이루어진 터미널 언어를 정의하고, 정규트리문법에 대응하는 인라인 정규트리문법을 소개한다. 또한 일반적인 정규트리문법으로부터 인라인 정규트리문법으로의 변환 알고리즘을 소개한다.

  • PDF

Generalized Binary Second-order Recurrent Neural Networks Equivalent to Regular Grammars (정규문법과 동등한 일반화된 이진 이차 재귀 신경망)

  • Jung Soon-Ho
    • Journal of Intelligence and Information Systems
    • /
    • v.12 no.1
    • /
    • pp.107-123
    • /
    • 2006
  • We propose the Generalized Binary Second-order Recurrent Neural Networks(GBSRNNf) being equivalent to regular grammars and ?how the implementation of lexical analyzer recognizing the regular languages by using it. All the equivalent representations of regular grammars can be implemented in circuits by using GSBRNN, since it has binary-valued components and shows the structural relationship of a regular grammar. For a regular grammar with the number of symbols m, the number of terminals p, the number of nonterminals q, and the length of input string k, the size of the corresponding GBSRNN is $O(m(p+q)^2)$ and its parallel processing time is O(k) and its sequential processing time, $O(k(p+q)^2)$.

  • PDF

Maximum Epoch for Learning Improvement of Second-Order Recurrent Neural Network Inferring Regular Grammars (이차 순환신경망에서 정규문법의 학습을 위한 최대 epoch 결정)

  • 정현기;정순호
    • Journal of Korea Multimedia Society
    • /
    • v.2 no.4
    • /
    • pp.468-475
    • /
    • 1999
  • Learning algorithm of SRNN doesn't use analytic maximum epoch, so that its performance is inefficient and its cost is high. In this paper, with the proper maximum epoch, we improve teaming efficiency. We first describe cost function of maximum epoch and computation time theoretically Then, using it, we propose that maximum epoch must be between 400 and 500. Estimated maximum epoch is verified by experiment.

  • PDF

A Design of the Java Library for Combined Hangul Regular Expression (조합형 한글 정규식 Java 라이브러리 설계)

  • Jeong, Jae-Yong;Woo, Gyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.31-34
    • /
    • 2015
  • 현재의 한글 정규식은 완성형 한글에 맞춰 글자단위로 사용할 수밖에 없으므로 사용이 불편하다. 따라서 이러한 불편함을 해결하기 위해 자모단위로 처리 가능한 조합형 한글 정규식 Java 라이브러리를 설계하였다. 조합형 한글 정규식 Java 라이브러리를 통해서 단순히 '가'로 시작하는 글자가 아니라 'ㄱ'으로 시작하는 글자나, 종성이 없는 단어 등을 처리할 수 있으며 기존의 정규식 문법 또한 사용할 수 있다. 이를 위해서 초성, 중성, 종성 각각에 조건을 주는 규칙을 한글 정규식 문법에 추가하였으며, 기존의 Java 정규식 라이브러리와 해당 라이브러리에서 이용하는 유니코드 표현상에서의 한글 인코딩 특징을 이용하였다.

Effects and Evaluations of URL Normalization (URL정규화의 적용 효과 및 평가)

  • Jeong, Hyo-Sook;Kim, Sung-Jin;Lee, Sang-Ho
    • Journal of KIISE:Databases
    • /
    • v.33 no.5
    • /
    • pp.486-494
    • /
    • 2006
  • A web page can be represented by syntactically different URLs. URL normalization is a process of transforming URL strings into canonical form. Through this process, duplicate URL representations for a web page can be reduced significantly. A number of normalization methods have been heuristically developed and used, and there has been no study on analyzing the normalization methods systematically. In this paper, we give a way to evaluate normalization methods in terms of efficiency and effectiveness of web applications, and give users guidelines for selecting appropriate methods. To this end, we examine all the effects that can take place when a normalization method is adopted to web applications, and describe seven metrics for evaluating normalization methods. Lastly, the evaluation results on 12 normalization methods with the 25 million actual URLs are reported.

A Clustering Method using Dependency Structure and Part-Of-Speech(POS) for Japanese-English Statistical Machine Translation (일영 통계기계번역에서 의존문법 문장 구조와 품사 정보를 사용한 클러스터링 기법)

  • Kim, Han-Kyong;Na, Hwi-Dong;Lee, Jin-Ji;Lee, Jong-Hyeok
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.12
    • /
    • pp.993-997
    • /
    • 2009
  • Clustering is well known method and that can be used in statistical machine translation. In this paper we propose a corpus clustering method using syntactic structure and POS information of dependency grammar. And using this cluster language model as additional feature to phrased-based statistical machine translation system to improve translation Quality.

A Dictionary Composition for Syntactic Analyzer from Corpus (코퍼스로부터 구문 분석을 위한 사전 구성)

  • 정민수;정규철;박기홍
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

An Analysis on the Phoneme Duration Modeling For the Trainable TTS System (Trainable TTS System을 위한 음운 지속시간 모델링)

  • Seo Jiln;Lee Yanghee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.109-112
    • /
    • 2001
  • 본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.

  • PDF

Human Action Recognition by Inference of Stochastic Regular Grammars (확률적 정규 문법 추론법에 의한 사람 몸동작 인식)

  • Cho, Kyung-Eun;Cho, Hyung-Je
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.7 no.3
    • /
    • pp.248-259
    • /
    • 2001
  • This paper proposes a human action recognition scheme to recognize nonverbal human communications automatically. Based on the principle that a human body action can be defined as a combination of multiple articulation movements, we use the method of inferencing stochastic grammars to understand each human actions. We measure and quantize each human action in 3D world-coordinate, and make two sets of 4-chain-code for xy and zy projection plane. Based on the fact that the neighboring information among articulations is an essential element to distinguish actions, we designed a new stochastic inference procedure to apply the neighboring information of hands. Our proposed scheme shows better recognition rate than that of other general stochastic inference procedures. ures.

  • PDF