• 제목/요약/키워드: American English corpus

검색결과 23건 처리시간 0.02초

문법화와 코퍼스의 관점에서 본 영어 분리부정사 통사구조 (Syntactic Structure of English Split Infinitives from the Perspectives of Grammaticalization and Corpus)

  • 김양순
    • 문화기술의 융합
    • /
    • 제6권3호
    • /
    • pp.245-251
    • /
    • 2020
  • 영어의 분리부정사구문을 통시적 연구인 문법화의 관점에서 중세영어이후 출현 동기를 살펴보고 COHA, COCA와 같은 코퍼스에 기반하여 주로 미국영어에 나타나는 현재영어(PDE)의 분리부정사의 정당성을 논의하는 것이 연구의 목표이다. 중세영어 이전에는 비문법적이었던 부정사 첨사인 to와 원형동사 사이에 부사 등이 위치하는 [to + 부사 + 동사] 형태의 분리부정사가 어떻게 현재영어에서는 문법적 구문이 되었는지에 대한 출현 동기와 정당성을 살펴본다. 문법화와 코퍼스의 실증적 자료에 기초하여 분리부정사구문의 문법성을 입증하고 영어 분리부정사구문의 출현에 관한 통시적 분석인 문법화 과정을 그 증거로 제시한다. 분리부정사가 왜 만들어지는가의 질문에 대한 답으로 동사이동의 소멸이라는 통시적 문법화를 들 수 있다. 코퍼스 자료에 기초한 통사·화용적인 이유는 표현의 명확성 즉, 탈중의성을 위한 것이거나 분리자인 부사를 통해 인상적인 강조를 하기 위한 것이다. 결론적으로 부사가 to와 원형동사를 분리할 것인가 말 것인가의 문제는 더 이상 문법적 논의의 대상이 아니며 앞으로도 분리부정사의 형태는 자연스러운 문법적 구문으로 문맥상 필요한 경우 더욱 증가하는 추세를 보일 것이다.

벅아이 코퍼스 오류 수정과 코퍼스 활용을 위한 프랏 스크립트 툴 (Error Correction and Praat Script Tools for the Buckeye Corpus of Conversational Speech)

  • 윤규철
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.29-47
    • /
    • 2012
  • The purpose of this paper is to show how to convert the label files of the Buckeye Corpus of Spontaneous Speech [1] into Praat format and to introduce some of the Praat scripts that will enable linguists to study various aspects of spoken American English present in the corpus. During the conversion process, several types of errors were identified and corrected either manually or automatically by the use of scripts. The Praat script tools that have been developed can help extract from the corpus massive amounts of phonetic measures such as the VOT of plosives, the formants of vowels, word frequency information and speech rates that span several consecutive words. The script tools can extract additional information concerning the phonetic environment of the target words or allophones.

브렉시트 캠페인 기간 동안 영어 미디어에 나타난 이민자들 (Migrant Representation in the English-language Media during the Brexit Campaign)

  • 이재승
    • 비교문화연구
    • /
    • 제45권
    • /
    • pp.325-348
    • /
    • 2016
  • 본 논문은 브렉시트 캠페인 기간 동안 영어권 국가, 영국, 미국, 캐나다, 그리고 호주의 미디어에서 이민자들이 어떻게 표현되는지 살펴본다. 코퍼스 지원 담화연구의 틀을 사용한 본 연구는 브렉시트 국민투표 캠페인이 시작된 날부터 국민투표가 실시되기 전 날까지(2016년 4월 15일-6월 22일) 검색기간으로 설정하고, 검색어 'Brexit'가 포함된 모든 기사를 수집하여 브렉시트 캠페인 코퍼스를 구축하였다. 수집된 코퍼스 자료를 통해서 이민자를 나타내는 어휘들, IMMIGRANT, MIGRANT, 그리고 REFUGEE의 빈도를 관찰하고, 이 어휘들과 함께 나타나는 연어를 분석하였다. 또한 세 어휘의 연어들을 사회적 행위자 범주에 따라 분류 및 분석하였다. 분석 결과, IMMIGRANT의 연어는 법적 상태 및 출신지역 어휘들과 연관성이 있고, MIGRANT는 경제적인 용어들과 주로 연어 관계에 있으며, REFUGEE는 큰 수를 나타내는 어휘와 관련성이 있는 것으로 나타났다. 그리고 이민자들은 기능범주, 유형범주, 그리고 평가범주를 통해서 묘사되며, 특히 영국과 미국의 미디어에서 이민자들이 부정적으로 그려지고 있는 것으로 관찰되었다. 본 연구를 통하여 특정 현상 및 특정 집단의 사람들을 가리킬 때 특정 어휘가 사용되며, 코퍼스 지원 언어분석이 해당 사회의 사회 문화 정치적 상황을 파악하는데 도움이 된다는 것을 확인할 수 있었다.

벅아이 코퍼스를 이용한 미국 영어의 /l/ 연구개음화 연구 (A study of /l/ velarization in American English based on the Buckeye Corpus)

  • 사재진
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.19-25
    • /
    • 2021
  • 설측음의 변이음에는 어두운 [l]과 밝은 [l]이 있다고 알려져 왔으나 최근 설측음의 변이음의 종류가 언어마다 다르다는 주장이 제기되고 있다. 본 연구에서는 영어 설측음 /l/이 음절 내 출현 위치에 따라 연구개음화의 실현 정도가 유의미하게 다른 변이음이 있는지 확인하기 위해 자연발화 음성 데이터베이스인 벅아이 코퍼스를 이용하였다. 먼저, 설측음의 음절 내 출현 위치에 따라 측정한 포만트 주파수를 비교한 결과 음절 내 모든 위치에서 유의미한 차이를 보이는 F2 주파수를 근거로 연구개음화 정도가 유의미하게 다른 변이음이 어두운 [l]과 밝은 [l] 이외에도 존재한다고 판단할 수 있었다. 또한 인접 모음의 후설성이 설측음의 연구개음화에 미치는 영향으로 인해 표준적인 어두운 [l]과 표준적인 밝은 [l] 이외의 변이음이 존재하는지 확인하기 위해 포만트 주파수를 측정하고 이에 대해 분산분석을 한 결과 음절 말 위치에서 연구개음화될 때에도 인접 모음이 후설모음인 경우 인접 모음이 전설모음인 경우와 비교했을 때 유의미하게 차이나는 F2 주파수를 보여 연구개음화되는 정도에 차이가 있음을 확인할 수 있었다. 이는 음절 초 위치에서 설측음이 실현될 경우에도 마찬가지로 인접 모음의 종류에 무관하게 모든 설측음이 음절 초 위치에서는 표준적인 밝은 [l]로 발음될 것이라고 예측했지만 실제 F2 주파수는 음절 말 위치에서 선행모음이 전설모음일 경우의 설측음과 유사한 결과를 나타냈다. 이를 통해 음절 내의 위치뿐만 아니라 인접 모음의 후설성이 설측음의 연구개음화 정도에 미치는 영향이 매우 크다는 점을 확인할 수 있고, 이러한 논문의 결과는 설측음의 변이음의 종류가 언어마다 다르고 미국 영어의 경우 다양하게 나타난다는 주장에 대한 하나의 음성학적 근거로 사용될 수 있을 것이다.

조음자질을 이용한 한국인 학습자의 영어 발화 자동 발음 평가 (Automatic pronunciation assessment of English produced by Korean learners using articulatory features)

  • 류혁수;정민화
    • 말소리와 음성과학
    • /
    • 제8권4호
    • /
    • pp.103-113
    • /
    • 2016
  • This paper aims to propose articulatory features as novel predictors for automatic pronunciation assessment of English produced by Korean learners. Based on the distinctive feature theory, where phonemes are represented as a set of articulatory/phonetic properties, we propose articulatory Goodness-Of-Pronunciation(aGOP) features in terms of the corresponding articulatory attributes, such as nasal, sonorant, anterior, etc. An English speech corpus spoken by Korean learners is used in the assessment modeling. In our system, learners' speech is forced aligned and recognized by using the acoustic and pronunciation models derived from the WSJ corpus (native North American speech) and the CMU pronouncing dictionary, respectively. In order to compute aGOP features, articulatory models are trained for the corresponding articulatory attributes. In addition to the proposed features, various features which are divided into four categories such as RATE, SEGMENT, SILENCE, and GOP are applied as a baseline. In order to enhance the assessment modeling performance and investigate the weights of the salient features, relevant features are extracted by using Best Subset Selection(BSS). The results show that the proposed model using aGOP features outperform the baseline. In addition, analysis of relevant features extracted by BSS reveals that the selected aGOP features represent the salient variations of Korean learners of English. The results are expected to be effective for automatic pronunciation error detection, as well.

영어 강세 교정을 위한 주변 음 특징 차를 고려한 강조점 검출 (Prominence Detection Using Feature Differences of Neighboring Syllables for English Speech Clinics)

  • 심성건;유기선;성원용
    • 말소리와 음성과학
    • /
    • 제1권2호
    • /
    • pp.15-22
    • /
    • 2009
  • Prominence of speech, which is often called 'accent,' affects the fluency of speaking American English greatly. In this paper, we present an accurate prominence detection method that can be utilized in computer-aided language learning (CALL) systems. We employed pitch movement, overall syllable energy, 300-2200 Hz band energy, syllable duration, and spectral and temporal correlation as features to model the prominence of speech. After the features for vowel syllables of speech were extracted, prominent syllables were classified by SVM (Support Vector Machine). To further improve accuracy, the differences in characteristics of neighboring syllables were added as additional features. We also applied a speech recognizer to extract more precise syllable boundaries. The performance of our prominence detector was measured based on the Intonational Variation in English (IViE) speech corpus. We obtained 84.9% accuracy which is about 10% higher than previous research.

  • PDF

Acoustic correlates of prosodic prominence in conversational speech of American English, as perceived by ordinary listeners

  • Mo, Yoon-Sook
    • 말소리와 음성과학
    • /
    • 제3권3호
    • /
    • pp.19-26
    • /
    • 2011
  • Previous laboratory studies have shown that prosodic structures are encoded in the modulations of phonetic patterns of speech including suprasegmental as well as segmental features. Drawing on a prosodically annotated large-scale speech data from the Buckeye corpus of conversational speech of American English, the current study first evaluated the reliability of prosody annotation by a large number of ordinary listeners and later examined whether and how prosodic prominence influences the phonetic realization of multiple acoustic parameters in everyday conversational speech. The results showed that all the measures of acoustic parameters including pitch, loudness, duration, and spectral balance are increased when heard as prominent. These findings suggest that prosodic prominence enhances the phonetic characteristics of the acoustic parameters. The results also showed that the degree of phonetic enhancement vary depending on the types of the acoustic parameters. With respect to the formant structure, the findings from the present study more consistently support Sonority Expansion Hypothesis than Hyperarticulation Hypothesis, showing that the lexically stressed vowels are hyperarticulated only when hyperarticulation does not interfere with sonority expansion. Taken all into account, the present study showed that prosodic prominence modulates the phonetic realization of the acoustic parameters to the direction of the phonetic strengthening in everyday conversational speech and ordinary listeners are attentive to such phonetic variation associated with prosody in speech perception. However, the present study also showed that in everyday conversational speech there is no single dominant acoustic measure signaling prosodic prominence and listeners must attend to such small acoustic variation or integrate acoustic information from multiple acoustic parameters in prosody perception.

  • PDF

CHILDES 코퍼스를 기반으로 한 아동의 영어 굴절형태소 발달 연구 (A Study on the Development of English Inflectional Morphemes Based on the CHILDES Corpus)

  • 민명숙;전종섭;이선영
    • 인지과학
    • /
    • 제24권3호
    • /
    • pp.203-235
    • /
    • 2013
  • 본 연구의 목적은 선행 연구에서 보고된 영어 모국어 아동의 굴절형태소 습득 과정을 대규모 언어습득 데이터베이스를 활용하여 검증하는 것이다. 이를 위해, 우리는 CHILDES(Child Language Data Exchange System) 데이터베이스에 등장하는 1-7세 영국 및 미국 아동 1,630명이 발화한 470만 어절 말뭉치를 대상으로 굴절형태소의 발달 과정을 분석하였다. 본 논문에서는 동사의 현재분사 -ing, 과거형 -(e)d, 형용사의 비교/최상급 -er/est 등의 형태소에 대해 어휘 유형(Type)과 사례(Token) 빈도, 전체 사례(Token)에 대한 유형(Type) 비율인 TTR(Type per Token Ratio), 어휘 다양성 척도인 Lexical Diversity(D) 값을 구하여 이를 국가 및 연령별로 비교, 분석하였다. 그 결과, 굴절형태소별로 연령과 D 값의 상관관계가 다르게 나타났다. 특히, 현재분사 -ing와 D 값 사이에는 주목할 만한 상관관계가 나타나지 않은 반면, 과거형 -(e)d의 경우 양의 상관관계 경향성이 보였고, 비교/최상급 -er/-est는 유의미한 상관관계를 보였다. 이는 현재진행형이 과거형보다 먼저 습득된다고 보고한 Brown(1973)의 견해를 지지한다. 다음으로, 과잉일반화에 따른 오류 표현이 2-3세 사이에 많이 나타나면서 U자형 발달 양상을 보였다. 과잉일반화도 현재분사보다 과거형에서 많이 나타났는데, 이것 또한 현재분사가 과거형보다 일찍 습득된다는 주장을 지지한다. 영국과 미국 아동의 연령별 굴절형태소 사용 양상을 비교한 결과, 미국 아동의 D 값이 영국 아동보다 높았다. 이는 미국 아동이 영국 아동보다 더 많은 어휘 유형에 대해 굴절형태소를 사용했음을 의미한다. 본 연구는 소수의 아동을 대상으로 수행된 선행 연구의 다양한 논점을 대규모 데이터베이스로 검증하고, CHILDES 코퍼스를 효율적으로 분석하는 연구 방법론을 제안했다는 점에서 의의가 있다.

  • PDF

의학용 영어 품사 태거 구현 (Implementation of an English POS Tagger for Medical)

  • 이현구;안혁주;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-156
    • /
    • 2015
  • 자연어처리의 여러 분야에서 기본요소로 사용되는 영어 품사 태거를 UMLS의 의학용어 어휘정보와 OANC(Open American National Corpus) 말뭉치를 이용해 의학용 문서도 분석 가능한 의학용 영어 품사 태거를 제안한다. TRIE구조를 이용한 단어 묶음 모델로 여러 어절의 의학용어를 하나로 묶고 HMM(Hiden Markov Model)을 이용한 품사 태거로 해당하는 품사를 부착한다.

  • PDF

The effect of word frequency on the reduction of English CVCC syllables in spontaneous speech

  • Kim, Jungsun
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.45-53
    • /
    • 2015
  • The current study investigated CVCC syllables in spontaneous American English speech to find out whether such syllables are produced as phonological units with a string of segments, showing a hierarchical structure. Transcribed data from the Buckeye Speech Corpus was used for the analysis in this study. The result of the current study showed that the constituents within a CVCC syllable as a phonological unit may have phonetic variations (namely, the final coda may undergo deletion). First, voiceless alveolar stops were the most frequently deleted when they occurred as the second final coda consonants of a CVCC syllable; this deletion may be an intermediate process on the way from the abstract form CVCC (with the rime VCC) to the actual pronunciation CVC (with the rime VC), a production strategy employed by some individual speakers. Second, in the internal structure of the rime, the proportion of deletion of the final coda consonant depended on the frequency of the word rather than on the position of postvocalic consonants on the sonority hierarchy. Finally, the segment following the consonant cluster proved to have an effect on the reduction of that cluster; more precisely, the following contrast was observed between obstruents and non-obstruents, reflecting the effect of sonority: when the segment following the consonant cluster was an obstruent, the proportion of deletion of the final coda consonant was increased. Among these results, the effect of word frequency played a critical role for promoting the deletion of the second coda consonant for clusters in CVCC syllables in spontaneous speech. The current study implies that the structure of syllables as phonological units can vary depending on individual speakers' lexical representation.