• Title/Summary/Keyword: Hong Jung Ha(洪正夏)

Search Result 13, Processing Time 0.016 seconds

Benford's Law in Linguistic Texts: Its Principle and Applications (언어 텍스트에 나타나는 벤포드 법칙: 원리와 응용)

  • Hong, Jung-Ha
    • Language and Information
    • /
    • v.14 no.1
    • /
    • pp.145-163
    • /
    • 2010
  • This paper aims to propose that Benford's Law, non-uniform distribution of the leading digits in lists of numbers from many real-life sources, also appears in linguistic texts. The first digits in the frequency lists of morphemes from Sejong Morphologically Analyzed Corpora represent non-uniform distribution following Benford's Law, but showing complexity of numerical sources from complex systems like earthquakes. Benford's Law in texts is a principle reflecting regular distribution of low-frequency linguistic types, called LNRE(large number of rare events), and governing texts, corpora, or sample texts relatively independent of text sizes and the number of types. Although texts share a similar distribution pattern by Benford's Law, we can investigate non-uniform distribution slightly varied from text to text that provides useful applications to evaluate randomness of texts distribution focused on low-frequency types.

  • PDF

Processing Korean Relative Adnominal Clauses (한국어 관계관형절의 전산처리)

  • Hong, Jung-Ha;Lee, Ki-Yong
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.265-271
    • /
    • 1999
  • 이 논문은 한국어 관계관형절(relative adnominal clause)의 전산처리에 적합한 통사 의미 표상 모형을 제시하고, 그 결과를 전산적 구현을 통해서 검증하는 것이 목적이다. 이를 위해 이 논문에서는 다음의 두 가지 문제를 중심으로 관계관형절의 통사 의미 표상과 전산적 구현 문제를 다룬다. 첫째, 관계관형절의 수식을 받는 머리 명사(head noun)는 관계관형절과 모문(matrix sentence)에서 각각 다른 의미역할을 하는 논항이다. 즉, 하나의 논항이 두 개의 의미역을 표상한다. 이 논문의 첫째 과제는 이러한 관계관형절 구문에서 머리 명사의 이중의미역을 표상하는 방법을 모색하는 것이다. 둘째, 관계관형절이 일항술어로 구성될 때, 서술어 단독으로 머리 명사를 수식할 수 있을 뿐만 아니라, 주격중출 구문을 관계화하여 미리 명사를 수식할 수도 있다. 그러나 모든 일항술어가 주격중출 구문을 구성할 수 있는 것은 아니기 때문에 주격중출 구문의 관계화가 가능한 경우와 그렇지 않은 경우를 구별할 필요가 있다. 이 논문의 둘째 과제는 이러한 주격중출 구문의 관계화와 그 표상의 문제를 다루는 것이다. 이 논문에서는 이러한 문제들을 단순히 기술하는 데 그치지 않고 전산 구현을 통해 문제해결을 제시한다. 이를 위해 구현 도구로 C-언어를 보강하여 개발한 문법개발 도구언어인 말라가(Malaga)를 사용하며, 분석결과를 자질구조(feature structure)로 명시하여 그 타당성을 검토한다.

  • PDF

Processing Korean Passives for Database Semantics (데이터베이스 의미론을 위한 한국어 피동형의 전산적 처리)

  • Hong, Jung-Ha;Choe, Seung-Chul;Lee, Ki-Yong
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.411-418
    • /
    • 2000
  • Hausser (1999)와 이기용 (1999a, 1999c)에서는 데이터베이스 관리 시스템(DBMS)을 이용하여 자연언어의 의미를 다루는 데이터베이스 의미론을 제안하였다. 특히 이기용 (1999c)에서는 수형도(tree), 논리 형태(logical fomulas), 자질 구조(feature structure)와 같은 다양한 언어 표상 형식들을 관계형 데이터베이스 관리 시스템(RDBMS)의 표상 형식인 테이블 형식으로 전환 가능함을 보임으로써 데이터베이스 의미론에 관계형 데이터 베이스 관리 시스템을 도입할 수 있음을 제시하였다. 한편, Lee (2000)에서 제시한 데이터베이스 의미론 모형에서는 데이터베이스 관리 시스템과 사용자(end-user)를 연결하는 언어 정보 처리 시스템(LIPS; Linguistic Information Processing System)을 제안하였다. 이 언어정보 처리 시스템은 사용자에 의해 입력된 언어 자료를 처리하여 그 분석 결과를 데이터베이스 관리 시스템에 전달하고, 이를 통해 구축된 데이터베이스에서 추출한 정보를 다시 사용자에게 전달하는 시스템이다. 이 논문은 한국어 '이, 히, 리, 기' 피동형을 전산처리를 할 수 있도록, 데이터베이스 의미론에서 핵심 요소인 언어정보 처리 시스템과 데이터베이스 관리 시스템을 구현하는 것 이 목적이다.

  • PDF