• 제목/요약/키워드: high-frequency vocabulary

검색결과 23건 처리시간 0.027초

A Study on the Diachronic Evolution of Ancient Chinese Vocabulary Based on a Large-Scale Rough Annotated Corpus

  • Yuan, Yiguo;Li, Bin
    • 아시아태평양코퍼스연구
    • /
    • 제2권2호
    • /
    • pp.31-41
    • /
    • 2021
  • This paper makes a quantitative analysis of the diachronic evolution of ancient Chinese vocabulary by constructing and counting a large-scale rough annotated corpus. The texts from Si Ku Quan Shu (a collection of Chinese ancient books) are automatically segmented to obtain ancient Chinese vocabulary with time information, which is used to the statistics on word frequency, standardized type/token ratio and proportion of monosyllabic words and dissyllabic words. Through data analysis, this study has the following four findings. Firstly, the high-frequency words in ancient Chinese are stable to a certain extent. Secondly, there is no obvious dissyllabic trend in ancient Chinese vocabulary. Moreover, the Northern and Southern Dynasties (420-589 AD) and Yuan Dynasty (1271-1368 AD) are probably the two periods with the most abundant vocabulary in ancient Chinese. Finally, the unique words with high frequency in each dynasty are mainly official titles with real power. These findings break away from qualitative methods used in traditional researches on Chinese language history and instead uses quantitative methods to draw macroscopic conclusions from large-scale corpus.

교과서 분석 기반 수학교육용 어휘 선정 연구: 초등학교 1~2학년을 중심으로 (Textbooks Analysis to Select Vocabulary for Mathematics Education: Focusing on 1st and 2nd Graders in the Elementary School)

  • 권미선
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권4호
    • /
    • pp.675-695
    • /
    • 2023
  • 어휘에 대한 이해는 효과적인 수학 학습을 위한 필수적인 요소이다. 이에 수학을 학습할 때 자주 사용되는 어휘를 수학교육용 어휘로 선정하고자 2009 개정 1~2학년 수학 교과서와 2015 개정 1~2학년 수학 교과서에서 공통적으로 사용된 고빈도 어휘를 추출하고 어휘 난이도와 유형에 따라 분류하였다. 이때 학교 현장에서 효과적으로 사용하기 위하여 학년 공통 어휘와 학기별 집중 어휘로 구분하여 제시하였다. 분석 결과, 1학년 공통 어휘는 수, 몇, 알아보다, 읽다, 모양, 쓰다, 만들다, 말하다, 나타내다, 덧셈, 뺄셈 등이 있으며, 2학년 공통 어휘는 수, 알아보다, 몇, 모형, 나타내다, 길이, 방법, 만들다, 모양, 모두 등이 있다. 2009 개정 수학 교과서와 2015 개정 수학 교과서의 고빈도 어휘는 유사한 경향을 보였으며, 이를 통해 수학교육용 어휘 선정에 실효성을 엿볼 수 있었다. 선정된 어휘는 1~5등급까지 난이도가 다양하였으며, 어휘 유형 중 사고도구어의 비중은 점차 증가하였으나 수학 전문어의 비중은 2학년 1학기 때 가장 높은 것으로 나타났다. 어휘에 대한 이해는 수학 학습에 많은 영향을 미치나 지금까지 수학교육용 어휘 목록은 제시된 바가 없다. 이 연구에서 제시된 수학교육용 어휘를 바탕으로 수학교육을 위한 다양한 어휘 자료가 개발 될 수 있을 것이다.

Designing a large recording script for open-domain English speech synthesis

  • Kim, Sunhee;Kim, Hojeong;Lee, Yooseop;Kim, Boryoung;Won, Yongkook;Kim, Bongwan
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.65-70
    • /
    • 2021
  • This paper proposes a method for designing a large recording script for open domain English speech synthesis. For read-aloud style text, 12 domains and 294 sub-domains were designed using text contained in five different news media publications. For conversational style text, 4 domains and 36 sub-domains were designed using movie subtitles. The final script consists of 43,013 sentences, 27,085 read-aloud style sentences, and 15,928 conversational style sentences, consisting of 549,683 tokens and 38,356 types. The completed script is analyzed using four criteria: word coverage (type coverage and token coverage), high-frequency vocabulary coverage, phonetic coverage (diphone coverage and triphone coverage), and readability. The type coverage of our script reaches 36.86% despite its low token coverage of 2.97%. The high-frequency vocabulary coverage of the script is 73.82%, and the diphone coverage and triphone coverage of the whole script is 86.70% and 38.92%, respectively. The average readability of whole sentences is 9.03. The results of analysis show that the proposed method is effective in producing a large recording script for English speech synthesis, demonstrating good coverage in terms of unique words, high-frequency vocabulary, phonetic units, and readability.

2022 개정 교육과정에 따른 초등학교 1~2학년 수학 교과서 현장검토본의 어휘 적정성 분석 및 개선 연구 (A study to analyze and improve vocabulary adequacy of field-reviewed textbooks for 1st and 2nd grade elementary school mathematics according to the 2022 revised curriculum)

  • 이대현;권미선;이미진;성창근
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제27권1호
    • /
    • pp.75-90
    • /
    • 2024
  • 본 연구의 목적은 2022 개정 교육과정에 따른 초등학교 1~2학년 수학 교과서 현장검토본에 제시된 어휘를 9등급 어휘 체계로 분석하고, 그 결과를 토대로 교과서에 사용된 어휘를 개선하는 것이다. 9등급 어휘 체계에 따른 분석 결과, 학생들의 수준에 적합하지 않은 어휘 빈도수의 비율은 1학년 1학기 6.67%, 2학기 12.17%로 나타났으며, 2학년 1학기 11.73%, 2학기 14.19%로 나타났다. 이를 통해 학생들에게 어려울 수 있는 어휘가 전체 어휘 빈도수의 약 6%~15%를 차지하고 있음을 알 수 있다. 분석 결과를 토대로 학생들에게 어려울 수 있는 어휘는 삭제, 수정, 보완하였다. 구체적으로 난도가 높은 어휘 중 수업 내용과 관련없는 어휘는 삭제하였다. 수업 내용과 관련 있는 어휘인 경우 난도가 낮은 유사어로 수정하거나 학생들의 이해를 도울 수 있는 그림을 추가로 제시하였다. 이 연구를 통해 교과서에 사용된 어휘의 양상을 파악하고 어휘를 적절히 수정하여, 효과적인 수학 학습을 위한 수준 높은 교과서 개발에 도움이 될 것으로 기대한다.

19세기 말 20세기 초 질병 어휘와 언어횡단적 실천 (Disease-Related Vocubulary and its translingual practice in Late 19th to Early 20th century)

  • 이은령
    • 사상체질의학회지
    • /
    • 제31권1호
    • /
    • pp.65-78
    • /
    • 2019
  • Objectives This study aims to investigate how the Korean disease-related vocabulary is established or changed when it is translated into French or English. Through this, we examine changes in the meaning of diseases and the ecosystem of disease-related vocabulary in transition period of $19^{th}$ to $20^{th}$ century. Methods Korean disease-related vocabulary are extracted from a total of 148,000 Korean headwords included in our corpus of three bilingual dictionaries. Among them, the scope of analyisis is limited to group of vocabularies that include a high frequency words, disease(病) and symptom(症). Results The first type of change is the emergence of a neologism. In this case, coexistence of existing vocabulary and new words is observed. The second change is the appearance of loan words written in Hangul. The third is the case where the interpretation of meaning is changed while maintaining the word form. Finally, the fourth change is that the orthographic variants are displayed while maintaining the meaning of the existing vocabulary. Discussion Disease-related vocabulary increased greatly between 1897 and 1931. The increasing factor of vocabulary was the emergence of coined words, compound words and the influx of foreign words. The Korean language and the Western language made a new lexical form in order to introduce a new unknown concept to the Korean. We could also confirm that the way in which English word expanded its semantic field by modifying the way of representing the meaning of Korean Disease-related vocabulary.

A Comparison of Korean EFL Learners' Oral and Written Productions

  • Lee, Eun-Ha
    • 영어어문교육
    • /
    • 제12권2호
    • /
    • pp.61-85
    • /
    • 2006
  • The purpose of the present study is to compare Korean EFL learners' speech corpus (i.e. oral productions) with their composition corpus (i.e. written productions). Four college students participated in the study. The composition corpus was collected through a writing assignment, and the speech corpus was gathered by audio-taping their oral presentations. The results of the data analysis indicate that (i) As for error frequency, young adult low-intermediate Korean EFL learners showed high frequency in determiners (mostly, indefinite articles), vocabulary (mostly, semantic errors), and prepositions. The frequency order did not show much difference between the speech corpus and the composition corpus; and (ii) When comparing the oral productions with the written productions, there were not many differences between them in terms of the contents, a style (i.e., colloquial vs. literary), vocabulary selection, and error types and frequency. Therefore, it is assumed that the proficiency in oral presentation of EFL learners at this learning stage heavily depends on how much/how well they are able to write. In other words, EFL learners' writing and speaking skills are closely co-related. It implies that the teacher does not need to separate teaching how to speak from teaching how to write. The teacher may use the same methods or strategies to help the learners improve their English speaking and writing skills. Furthermore, it will be more effective to teach writing before speaking since they have more opportunities to write than speak in the EFL contexts.

  • PDF

북한 영어 교과서 어휘의 통시적 분석 (A Diachronic Lexical Analysis of the North Korean English Textbooks)

  • 김지영;이제영;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.331-341
    • /
    • 2017
  • 본 연구는 북한의 영어 교과서에 나타난 어휘의 시대적인 변화를 파악하기 위해 통시적인 관점에서 코퍼스 기반 어휘 분석을 실시하였다. 이를 위해 통일부의 북한자료센터에 소장되어 있는 북한의 중등학교 영어 교과서 중 1996년 교육과정이 적용된 시기를 기준으로 김정일 시대 이전과 이후의 교과서를 구분지어 코퍼스를 구축한 후, 워드스미스 툴스 7.0을 통해 해당 코퍼스를 분석하여 각 교과서들의 어휘 변화 양상을 살펴보았다. 연구 결과 해당 교과서들의 어휘 규모는 개편 후의 교과서가 개편 전에 비해 증가했지만, 어휘 유형과 어휘 다양성은 감소하였다. 교육과정 개편 이전에 비해 개편 이후의 교과서에서 더 자주 등장하는 핵심어(keyword)를 분석한 결과 김정일 체제를 확고히 하기 위한 관련 이념 어휘와 북한의 경제 및 생활상을 반영하는 어휘들이 나타남을 확인할 수 있었다. 또한 다빈도 어휘 100개 목록과 핵심어를 비교한 결과 북한의 영어 교과서의 어휘가 문법과 문어체 위주의 텍스트에서 조금씩 실질적인 의사소통과 관련된 구어체 내용이 증가하고 있었다.

아동영문어휘책에 제시된 그림과 문자의 사용에 대한 분석 (Analysis on the Use of Picture and Letter Used in the Books of English Vocabulary for Children)

  • 이미영
    • 한국콘텐츠학회논문지
    • /
    • 제14권1호
    • /
    • pp.150-157
    • /
    • 2014
  • 본 논문은 현재 출간된 아동영문어휘책의 현황분석을 통해 그림과 문자의 관계적 속성을 이해하고 사용자인 아동을 고려해 시각적 심상을 얼마나 잘 활용하고 있는가를 파악하고자 하였다. 이에 아동영문어휘책에 사용된 그림의 유형과 그림의 활용도, 그림과 문자의 결합 형태, 그림과 문자와의 의미일치도 정도를 살펴보았다. 분석결과 그림의 활용도는 일러스트, 만화, 일러스트와 만화의 혼용 순으로 전반적으로 높은 것으로 나타났다. 그림과 문자의 결합 형태에서는 그림+어휘형, 일러스트가 없는 문자형, 그림문자형 순으로 나타났다. 특히나 그림과 문자의 의미일치도가 높을수록 학습에 효과적인데 반해 의미일치도는 전반적으로 낮게 나타났다. 의미일치도가 높게 나타난 5개의 그룹 중 그림문자형이 가장 높은 결합형태 빈도를 보이고 있었다. 따라서 현재 출간된 아동영문어휘책에 나타난 그림과 문자의 제시형태는 비슷한 형태로 출판사별로 출간되고 있음을 알 수 있었고 아동의 다양한 수준을 바탕으로 한 효과적인 디자인연구가 필요하다고 보아진다.

Korean Broadcast News Transcription Using Morpheme-based Recognition Units

  • Kwon, Oh-Wook;Alex Waibel
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권1E호
    • /
    • pp.3-11
    • /
    • 2002
  • Broadcast news transcription is one of the hardest tasks in speech recognition because broadcast speech signals have much variability in speech quality, channel and background conditions. We developed a Korean broadcast news speech recognizer. We used a morpheme-based dictionary and a language model to reduce the out-of·vocabulary (OOV) rate. We concatenated the original morpheme pairs of short length or high frequency in order to reduce insertion and deletion errors due to short morphemes. We used a lexicon with multiple pronunciations to reflect inter-morpheme pronunciation variations without severe modification of the search tree. By using the merged morpheme as recognition units, we achieved the OOV rate of 1.7% comparable to European languages with 64k vocabulary. We implemented a hidden Markov model-based recognizer with vocal tract length normalization and online speaker adaptation by maximum likelihood linear regression. Experimental results showed that the recognizer yielded 21.8% morpheme error rate for anchor speech and 31.6% for mostly noisy reporter speech.

Relative Difficulty of Various English Writings by Fuzzy Reasoning and Its Application to Selecting Teaching Materials

  • Ban, Hiromi;Dederick, Toby;Nambo, Hidetaka;Oyabu, Takashi
    • Industrial Engineering and Management Systems
    • /
    • 제3권1호
    • /
    • pp.85-91
    • /
    • 2004
  • The writing styles of TIME and Newsweek are analyzed using a specially developed linguistic program. These two news magazines were chosen because of their wide popularity. As for the results, it became obvious that both the frequency curve of words and that of characters have not changed for the past 60 years. Also, we have found that the frequency curves have some inflection points and that the genre of English writings can be identified by these points. After counting the percentage of required vocabulary for junior high school students and high school students in English writings, we can derive the relative difficulties of them using fuzzy reasoning. Fuzzy rules are constructed using features of the characteristic curves. We feel it would be a good guide index when selecting textbooks or supplementary readers.