• 제목/요약/키워드: Context-Free Grammar

검색결과 35건 처리시간 0.035초

Bracketing Input for Accurate Parsing

  • No, Yong-Kyoon
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.358-364
    • /
    • 2007
  • Syntax parsers can benefit from speakers' intuition about constituent structures indicated in the input string in the form of parentheses. Focusing on languages like Korean, whose orthographic convention requires more than one word to be written without spaces, we describe an algorithm for passing the bracketing information across the tagger to the probabilistic CFG parser, together with one for heightening (or penalizing, as the case may be) probabilities of putative constituents as they are suggested by the parser. It is shown that two or three constituents marked in the input suffice to guide the parser to the correct parse as the most likely one, even with sentences that are considered long.

  • PDF

Why Korean Is Not a Regular Language: A Proof

  • No, Yong-Kyoon
    • 한국언어정보학회지:언어와정보
    • /
    • 제5권2호
    • /
    • pp.1-8
    • /
    • 2001
  • Natural language string sets are known to require a grammar with a generative capacity slightly beyond that of Context Free Grammars. Proofs regarding complexity of natural language have involved particular properties of languages like English, Swiss German and Bambara. While it is not very difficult to prove that Korean is more complex than the simplest of the many infinite sets, no proof has been given of this in the literature. I identify two types of center embedding in Korean and use them in proving that Korean is not a regular set, i.e. that no FSA's can recognize its string set. The regular language i salam i (i salam ul$)^j$ michi (key ha)^k$ essta is intersected with Korean, to give {i salam i (i salam ul$)^j$ michi (key ha$)^k$ essta i $$\mid$$ j, k $\geq$ 0 and j $\leq$ k}. This latter language is proved to be nonregular. As the class of regular sets is closed under intersection, Korean cannot be regular.

  • PDF

정보 검색을 위한 숫자의 해석에 관한 구문적.의미적 판별 기법 (Syntactic and Semantic Disambiguation for Interpretation of Numerals in the Information Retrieval)

  • 문유진
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.65-71
    • /
    • 2009
  • 월드 와이드 웹의 정보 검색에서 산출되어지는 수많은 정보를 효율적으로 검색하기 위해서 자연어 정보처리가 필수적이다. 이 논문은 텍스트에서 숫자의 의미 파악을 위한 판별기법을 제안한 것이다. 숫자 의미 판별기법은 챠트 파싱 기법과 함께 문맥자유 문법을 활용하여 숫자 스트링과 연관된 접사를 해석하였으며, N-그램 기반의 단어에 의거하여 조직화된 의미 파악을 하도록 설계되었다. 그리고 POS 태거를 사용하여 트라이그램 단어의 제한조건이 자동 인식되도록 시스템을 구성하여, 점진적으로 효율적인 숫자의 의미 파악을 하도록 하였다. 이 논문에서 제안한 숫자 해석 시스템을 실험한 결과, 빈도수 비례 방법은 86.3%의 정확률을 나타냈고 조건수 비례 방법은 82.8%의 정확률을 나타냈다.

음성인식을 위한 의사(疑似) N-gram 언어모델에 관한 연구 (A Study on Pseudo N-gram Language Models for Speech Recognition)

  • 오세진;황철준;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.16-23
    • /
    • 2001
  • 본 논문에서는 대어휘 음성인식에서 널리 사용되고 있는 N-gram 언어모델을 중규모 어휘의 음성인식에서도 사용할 수 있는 의사(疑似) N-gram 언어모델을 제안한다. 제안방법은 ARPA 표준형식 N-gram 언어모델의 구조를 가지면서 각 단어의 확률을 임의로 부여하는 비교적 간단한 방법으로 1-gram은 모든 단어의 출현확률을 1로 설정하고, 2-gram은 허용할 수 있는 단어시작기호 와 WORD 및 WORD와 단어종료기호 의 접속확률만을 1로 설정하며, 3-gram은 단어 시작기호 와 WORD, 단어종료기호 만의 접속을 허용하며 접속확률을 1로 설정한다. 제안방법의 유효성을 확인하기 위해 사전실험으로서 국어공학센터(KLE) 단어음성에 대해 오프라인으로 평가한 견과, 남성 3인의 452 단어에 대해 평균 97.7%의 단어인식률을 구하였다. 또한 사전실험결과를 바탕으로 1,500단어의 중규모 어휘의 증권명을 대상으로 온라인 인식실험을 수행한 결과, 남성 20명이 발성한 20단어에 대해 평균 92.5%의 단어인식률을 얻어 제안방법의 유효성을 확인하였다.

  • PDF

잘못 형성된 입력문장에 대한 CHART PARSER (CHART PARSER FOR ILL-FORMED INPUT SENTENCES)

  • 민경호
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.177-212
    • /
    • 1993
  • 본 연구는 잘못 형성된 입력에 대한 멜리쉬의 연구(1989)에 기반하고 있다. 이 글은 chart-based parser를 이용하여 구문론적 차원에서 잘못 형성된 입력 문자의 복구에 촛점을 둔다. 멜리쉬의 체계는 두가지 분석기, 즉 잘형성된 입력 분석기와 잘못 형성된 입력 분석기로 구성되는데, 필자의 연구는 그에 생각을 따르고 있다. 이글에서는 주로 chartparsing의 개념, 잘못형성된 입력에 대한 분석전략이 논의된다. 또한 필자가 제시하는 체계의 디자인과 구현, 필자의 체계를 멜리쉬의 체계와의 비교와 같은 사항들이 다루어질 것이다.