• Title/Summary/Keyword: 어휘 체인

Search Result 56, Processing Time 0.02 seconds

Implementation of Sentence Construction using Lexical Information (어휘 정보를 이용한 문장완성의 구현)

  • 황인정;이은실;민홍기
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2003.06a
    • /
    • pp.10-13
    • /
    • 2003
  • 본 연구는 어휘 정보를 이용하여 구어체 문장구성을 하였다. 구어체 문장구성의 목적은 언어생활이 불편한 사람들을 위한 통신보조기기에 사용하기 위해서이다. 통신보조기기는 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 그러므로 문장을 구성하기 위해서 어휘 정보를 통신보조기기의 개념에 맞도록 변형하여 도입하였다. 어휘는 도메인별로 발췌하고 분류하였으며, 각 어휘에 대해 시소러스와 하위범주화사전을 만들었다. 어휘정보에 관한 상세한 정보는 문장구성과 재사용 그리고 문맥상 어색한 문장검출을 위해 중요한 자료가 된다.

  • PDF

A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition (대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구)

  • Kang ByungOk
    • Proceedings of the KSPS conference
    • /
    • 2003.10a
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

Vocabulary Improvement in EFL Writing through Narrative and Expository Texts (외국어교육 상황에서 텍스트 유형별 읽기에 따른 어휘력향상 연구)

  • Shin, Kyu-Cheol
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.1
    • /
    • pp.201-209
    • /
    • 2020
  • The purpose of this study is to investigate the effect of narrative and expository texts on incidental vocabulary learning of Korean university EFL learners while reading. The experimental groups were divided into 3 groups. The first experimental group were exposed to narrative texts and second group received expository texts. And the third group were administered narrative and expository texts alternately. The vocabulary tests were conducted after the last session to assess the incidental vocabulary gains of the learners. The results indicated the superiority of the expository texts over narratives in terms of enhancing learners' incidental acquisition of unknown words. Moreover, the results showed that the blended reading group of expository and narrative texts did better on the vocabulary gains than those of narrative reading group and expository reading group. However, in the essay writing assessment, the expository group committed the most vocabulary errors in writing.

Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon (구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축)

  • Kang, Seung-Shik;Won, HyeJin;Lee, Minhaeng
    • Smart Media Journal
    • /
    • v.9 no.4
    • /
    • pp.144-151
    • /
    • 2020
  • In a mobile environment, communication takes place via SMS text messages. Vocabularies used in SMS texts can be expected to use vocabularies of different classes from those used in general Korean literary style sentence. For example, in the case of a typical literary style, the sentence is correctly initiated or terminated and the sentence is well constructed, while SMS text corpus often replaces the component with an omission and a brief representation. To analyze these vocabulary usage characteristics, the existing colloquial style corpus and the literary style corpus are used. The experiment compares and analyzes the vocabulary use characteristics of the colloquial corpus SMS text corpus and the Naver Sentiment Movie Corpus, and the written Korean written corpus. For the comparison and analysis of vocabulary for each corpus, the part of speech tag adjective (VA) was used as a standard, and a distinctive collexeme analysis method was used to measure collostructural strength. As a result, it was confirmed that adjectives related to emotional expression such as'good-','sorry-', and'joy-' were preferred in the SMS text corpus, while adjectives related to evaluation expressions were preferred in the Naver Sentiment Movie Corpus. The word embedding was used to automatically construct a sentiment lexicon based on the extracted adjectives with high collostructural strength, and a total of 343,603 sentiment representations were automatically built.

Automatic Summarization based on Lexical Chains considering Word Assocication (단어간의 연관성을 고려한 어휘 체인 기반 자동 요약)

  • Song, Young-In;Han, Kyoung-Soo;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.300-305
    • /
    • 2002
  • 자동 문서 요약 분야에서 대상 문서를 컴퓨터가 이해할 수 있는 형태로 어떻게 파악하고 구조화할 것인가는 중요한 이슈가 되어 왔다. 문서에 출현한 단어들은 Bag of Words 가정처럼 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간의 의미적, 혹은 지시적으로 연관되어 있다. 이러한 단어간의 연관성은 결속성(cohesion)이라고 표현하며, 이를 이용한 자동 방법으로 Barzilay의 어휘 체인(lexical chain)을 사용한 자동 방법이 대표적이다. 본 연구에서는 단어간의 연관성과 영문 시소러스인 워드넷(wordnet)에서 단어의 위치 정보를 사용하여 어휘 체인의 성능을 개선하였고, 대상 문서의 개념을 어휘 체인에 기반해 표현하여 자동의 성능을 개선하는 방안을 제시한다.

  • PDF

Automatic Construction of Lexical Classification Net for Two Languages (양국어 어휘분류망의 자동 구축)

  • Hwang, Geum-Ha;Choi, Gi-Seon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.389-396
    • /
    • 1999
  • 본 연구에서는 이미 만들어진 양국어 단일 언어 어휘 분류체계를 이용하여 양국어 어휘 분류등급 간의 개념유사도에 의한 양국어 분류체계간의 연관 관계를 구축하고자 한다. 중국어 유의어사전과 한국어 분류어휘표를 이용하여 양국어 어휘 분류체계에서의 분류등급 간의 개념유사성 및 양국어간의 어휘 유사성에 의하여 어휘분류망을 자동 구축한다. 자동 구축된 어휘분류망을 통하여 한국어 분류어휘표의 어휘 구성 및 분류체계에 대한 분석 평가를 진행할 것이며 나아가 한국어 분류어휘표에 대한 어휘 및 분류체계에 대한 보완을 시도하고자 한다. 본 연구는 한국어 자체 어휘 분류체계의 구축 방법론의 연구에도 어느 정도 도움될 것으로 기대한다.

  • PDF

Changes in mathematics pedagogical lexicons: Extension research of the International Classroom Lexicon using a text mining approach (수학 교수학적 어휘의 변화: 텍스트 마이닝 기법을 이용한 교실수업 어휘 연구의 확장)

  • Lee, Gima;Kim, Hee-jeong
    • The Mathematical Education
    • /
    • v.61 no.4
    • /
    • pp.559-579
    • /
    • 2022
  • Research on lexicon and language provides insights into the interests, values and practices of a community where individuals use the language. The International Classroom Lexicon Project, in which ten countries participated, identified own country's mathematics teaching and learning lexicons by investigating mathematics classroom instruction from teachers' perspectives in a speaking-oriented community. This study, as an extension of the International Classroom Lexicon Project research, investigated pedagogical lexicons used in 「Mathematics and Education」 journals specialized for Korean professional mathematics teachers published by the Korean Society of Teachers of Mathematics. Using the text mining approach, we also traced how these pedegogical lexicons have changed quantitatively over the past 10 years with a diachronic perspective. As a results, several novel terms were found in the writing-oriented community, which were not identified in the speaking-oriented community. In addition, we could discover some pedagogical lexicons have increased statistically significantly and some lexicons appeared(increased) rapidly across years. This implies the teacher community's values and zeitgeist by reflecting these changes in the sociocultural, incidental and social changing (i.e., periodical change) contexts. This study has value as a first step in understanding zeitgeist for mathematics education in Korean mathematics teacher community according to changes of times over the past 10 years. Also, this study contributes to the methodological insights: the text mining technique provides a methodological contribution to researching changes in interests, values and zeitgeist according to these changes in the times.

A Diachronic Lexical Analysis of the North Korean English Textbooks (북한 영어 교과서 어휘의 통시적 분석)

  • Kim, Jiyoung;Lee, Je-Young;Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.4
    • /
    • pp.331-341
    • /
    • 2017
  • This paper aims to analyze English vocabulary of the North Korean textbooks diachronically using the constructed English textbook corpus. The North Korea English textbooks attained from Information Center on North Korea of the Ministry of Unification are divided into before and after Kim Jong-Il era for the year of 1996 in which the curriculum revision has been conducted. They are stored as text files to analyse vocabularies using WordSmith Tools 7.0. The vocabulary size of the revised textbooks increased after the curriculum reorganization, but the number of vocabulary types and vocabulary diversity decreased. After the curriculum revision, it was found that lots of vocabulary related to the establishment of the Kim Jong-Il system appeared as the keyword. It was also found that some vocabularies reflected the economic and social life of North Korea. In addition, through comparison of the 100 high-frequency word list and keywords, it can be concluded that the vocabulary of the English textbooks of North Korea is gradually changing into communicative contents from contents related with written language.

Semantic Indexing Using Concept Space (개념 공간을 이용한 의미 인덱싱)

  • 강보영;김혜정;황선옥;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.380-382
    • /
    • 2003
  • 본 논문은 문서내의 의미적인 관계에 기반하여, 문서의 내용을 보다 잘 추측할 수 있는 의미 인덱스 추출 및 가중치 부여 시스템을 제안하고자 한다. 문서 내의 개념 추출에 있어서는 기존의 어휘 체인(lexical chains)에 관한 연구를 확장하여 적용였다. 또한, 추출된 개념에서 중요 어휘에 가중치를 부여하기 위해서, 개념 벡터 공간을 이용한 정보성(information quantity)과 정보비(information ratio)를 정의하고, 인덱스의 가중치를 측정할 수 있는 정량화 할 수 있는 척도로 제시하였다.

  • PDF

Spontaneous Speech and Prosody DB (대화체 음성 및 운율 DB)

  • 이호영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.298-301
    • /
    • 1995
  • 자연스런 대화체 발화를 합성해 낼 수 있는 음성합성기를 개발하고, 무한대 어휘의 대화체 발화를 인식할 수 있는 음성인식기를 개발하기 위해서는 정교하게 제작된 방대한 양의 대화체 음성 및 운율 DB를 필수적으로 갖춰야한다. 이 논문에서는 대화체 음성 자료의 수집 방법과 대화체 음성 및 운율 DB 제작 방법에 관해 자세하게 논의한다.

  • PDF