• 제목/요약/키워드: word coverage

검색결과 24건 처리시간 0.017초

2020년 EBS 연계교재와 대학수학능력시험의 듣기 및 읽기 어휘 분석 (Vocabulary Analysis of Listening and Reading Texts in 2020 EBS-linked Textbooks and CSAT)

  • 강동호
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.679-687
    • /
    • 2020
  • 본 연구의 목적은 BNC 어휘목록과 2015 교육부 기본 어휘를 중심으로 EBS 연계교재와 대학 수능시험의 어휘를 분석하고자 한다. 어휘점유율과 빈도를 분석하기 위해서 AntWordProfiler 어휘 분석프로그램이 사용되었다. 결과를 보면, 2020 EBS 수능 영어 듣기와 읽기 연계 교재는 각각 BNC 3,000 단어와 4,000 단어를 가지고 약 95%를 이해할 수 있다는 것을 보여준다. 그러나 EBS 듣기와 읽기 교재의 98%의 단어를 이해하기 위해서는 각각 4,000과 8,000 단어가 필요하다는 것을 알 수 있다. 다른 한편으로 2020 수능영어시험 듣기와 읽기의 95%를 이해하기위해서는 각각 2,000과 4,000 단어가 요구되며, 98%의 경우에는 추가적으로 4,000과 7,000의 단어가 필요하다. 결과적으로 EBS 연계교재가 대입수능영어시험보다 더 많은 어휘의 양을 요구한다는 것을 알 수 있다.

품사 부착 말뭉치를 이용한 임베디드용 연속음성인식의 어휘 적용률 개선 (Vocabulary Coverage Improvement for Embedded Continuous Speech Recognition Using Part-of-Speech Tagged Corpus)

  • 임민규;김광호;김지환
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.181-193
    • /
    • 2008
  • In this paper, we propose a vocabulary coverage improvement method for embedded continuous speech recognition (CSR) using a part-of-speech (POS) tagged corpus. We investigate 152 POS tags defined in Lancaster-Oslo-Bergen (LOB) corpus and word-POS tag pairs. We derive a new vocabulary through word addition. Words paired with some POS tags have to be included in vocabularies with any size, but the vocabulary inclusion of words paired with other POS tags varies based on the target size of vocabulary. The 152 POS tags are categorized according to whether the word addition is dependent of the size of the vocabulary. Using expert knowledge, we classify POS tags first, and then apply different ways of word addition based on the POS tags paired with the words. The performance of the proposed method is measured in terms of coverage and is compared with those of vocabularies with the same size (5,000 words) derived from frequency lists. The coverage of the proposed method is measured as 95.18% for the test short message service (SMS) text corpus, while those of the conventional vocabularies cover only 93.19% and 91.82% of words appeared in the same SMS text corpus.

  • PDF

Designing a large recording script for open-domain English speech synthesis

  • Kim, Sunhee;Kim, Hojeong;Lee, Yooseop;Kim, Boryoung;Won, Yongkook;Kim, Bongwan
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.65-70
    • /
    • 2021
  • This paper proposes a method for designing a large recording script for open domain English speech synthesis. For read-aloud style text, 12 domains and 294 sub-domains were designed using text contained in five different news media publications. For conversational style text, 4 domains and 36 sub-domains were designed using movie subtitles. The final script consists of 43,013 sentences, 27,085 read-aloud style sentences, and 15,928 conversational style sentences, consisting of 549,683 tokens and 38,356 types. The completed script is analyzed using four criteria: word coverage (type coverage and token coverage), high-frequency vocabulary coverage, phonetic coverage (diphone coverage and triphone coverage), and readability. The type coverage of our script reaches 36.86% despite its low token coverage of 2.97%. The high-frequency vocabulary coverage of the script is 73.82%, and the diphone coverage and triphone coverage of the whole script is 86.70% and 38.92%, respectively. The average readability of whole sentences is 9.03. The results of analysis show that the proposed method is effective in producing a large recording script for English speech synthesis, demonstrating good coverage in terms of unique words, high-frequency vocabulary, phonetic units, and readability.

지식베이스를 이용한 임베디드용 연속음성인식의 어휘 적용률 개선 (Vocabulary Coverage Improvement for Embedded Continuous Speech Recognition Using Knowledgebase)

  • 김광호;임민규;김지환
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.115-126
    • /
    • 2008
  • In this paper, we propose a vocabulary coverage improvement method for embedded continuous speech recognition (CSR) using knowledgebase. A vocabulary in CSR is normally derived from a word frequency list. Therefore, the vocabulary coverage is dependent on a corpus. In the previous research, we presented an improved way of vocabulary generation using part-of-speech (POS) tagged corpus. We analyzed all words paired with 101 among 152 POS tags and decided on a set of words which have to be included in vocabularies of any size. However, for the other 51 POS tags (e.g. nouns, verbs), the vocabulary inclusion of words paired with such POS tags are still based on word frequency counted on a corpus. In this paper, we propose a corpus independent word inclusion method for noun-, verb-, and named entity(NE)-related POS tags using knowledgebase. For noun-related POS tags, we generate synonym groups and analyze their relative importance using Google search. Then, we categorize verbs by lemma and analyze relative importance of each lemma from a pre-analyzed statistic for verbs. We determine the inclusion order of NEs through Google search. The proposed method shows better coverage for the test short message service (SMS) text corpus.

  • PDF

고집적 메모리에서 Word-Line과 Bit-Line에 민감한 고장을 위한 테스트 알고리즘 (A Test Algorithm for Word-Line and Bit-line Sensitive Faults in High-Density Memories)

  • 강동철;양명국;조상복
    • 대한전자공학회논문지SD
    • /
    • 제40권4호
    • /
    • pp.74-84
    • /
    • 2003
  • 기존의 테스트 알고리즘은 대부분 셀간의 고장에 중심이 맞추어져 있어 메모리의 집적도의 증가와 더불어 일어나는 word-line 과 bit-line 결합 잡음에 의한 고장을 효과적으로 테스트 할 수 없다 본 논문에서는 word-line 결합 capacitance에 의한 고장의 가능성을 제시하고 새로운 고장 모델인 WLSFs(Word-Line Sensitive Faults)을 제안하였다. 또한 word-line 과 bit-line 결합 잡음을 동시에 고려한 알고리즘을 제시하여 고장의 확률을 높였고 고장의 원인을 기존의 고장 모델로는 되지 않음을 보여준다. 제안된 알고리즘은 기존의 기본적인 고장인 고착고장, 천이고장, 그리고 결합고장을 5개의 이웃셀 내에서 모두 검출할 수 있음을 보여준다.

코퍼스 기반 영어 통사론 학술 어휘목록 구축 및 어휘 분포 분석 (A Corpus-based English Syntax Academic Word List Building and its Lexical Profile Analysis)

  • 이혜진;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.132-139
    • /
    • 2021
  • 본 코퍼스 기반 연구는 통사론 영역에서 자주 등장하는 학술어휘들을 목록화하고 추출된 단어 목록을 Coxhead(2000)의 학술어휘 목록(AWL) 및 West(1953)의 기본어휘 목록(GSL)과 비교하여 통사론 코퍼스 내의 어휘 분포와 범위를 조사하였다. 이를 위해 영어교육 전공자들이 주로 사용하는 필수 통사론 전공 서적을 546,074 단어 수준의 전문 코퍼스로 구축한 다음 AntWordProfiler 1.4.1로 분석하였다. 빈도를 기준으로 분석한 결과 16회 이상 등장한 학술어휘는 288개(50.5%), 15회 이하 등장한 학술어휘는 218개(38.2%)로 나타났다. AWL과 GSL의 출현 범위는 각각 9.19%와 78.92%로 나타났으며 GSL과 AWL을 포함한 비중은 전체 토큰의 88.11%에 달하였다. AWL이 광범위한 학술 요구를 충족시키는데 중추적인 역할을 할 수 있다는 점을 감안할 때, 본 연구는 학문 문식성과 학업 능력을 향상시키기 위한 방안으로 학문 분야별 학술 어휘목록을 편성할 필요가 있음을 강조하였다.

SOP Image SRAM Buffer용 다양한 데이터 패턴 병렬 테스트 회로 (Parallel Testing Circuits with Versatile Data Patterns for SOP Image SRAM Buffer)

  • 정규호;유재희
    • 대한전자공학회논문지SD
    • /
    • 제46권9호
    • /
    • pp.14-24
    • /
    • 2009
  • System on panel 프레임 버퍼를 위한 메모리 셀 어레이와 주변회로가 설계되었다. 또한, system on panel 공정의 낮은 yield를 극복하기 위해, 블럭 단위의 parallel test 방안이 제안되었다. 기존의 메모리 테스트 보다 빠르게 fault detection이 가능하며, 다양한 embedded memory나 일반 SRAM 테스트 분야에도 적용 가능하다. 또한 기존의 다양한 test vector pattern이 그대로 적용될 수 있어 fault coverage가 높고, 최근의 추세인 hierarchical bit line과 divided word line 구조에도 적용될 수 있다.

어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템 (Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word)

  • 박희근;안영민;서영훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.427-431
    • /
    • 2007
  • 본 논문에서는 어절별 중의성 해소 규칙과 trigram 통계 정보를 이용하는 혼합형 한국어 품사 태깅 시스템에 대하여 기술한다. 어절별 중의성 해소 규칙은 중의성을 가지는 어절들 각각에 대해 정의된 중의성 해소 규칙으로, 현재 중의성을 가지는 어절의 50%에 대해 작성되어 있다. 본 논문의 태깅 시스템은 먼저 보조용언, 숙어, 관용적 표현 등에 해당하는 공통규칙을 적용하고, 그 후에 어절별 중의성 해소 규칙을 적용한다. 마지막으로 중의성이 해소되지 않은 어절은 각 어절을 중심으로 하는 trigram 통계 정보를 이용하여 중의성을 해소한다. 실험 결과는 본 논문에서 제안하는 어절별 중의성 해소 규칙과 trigram 통계 정보를 혼합하여 중의성을 해소 시키는 방법이 높은 정확률과 넓은 처리 범위를 가지고 있다는 것을 보여준다.

빅데이터를 활용한 통합교육 언론보도에 대한 인식분석 (An Analysis of the Perception of News coverage about Inclusive Education Using Big Data)

  • 김주향;김정랑
    • 정보교육학회논문지
    • /
    • 제26권6호
    • /
    • pp.543-552
    • /
    • 2022
  • 본 연구에서는 빅데이터 분석기법을 활용하여 통합교육에 대한 언론보도의 사회적 인식을 분석하고자 하였다. 특수교육 발전 5개년 정책 시기에 따라 관련 뉴스 기사를 수집하여, 뉴스 빅데이터를 분석하였다. 그 결과 1차년도 1998년부터 5차년도 2022년까지 특수교육 발전 5개년 정책기간의 언론보도 빈도는 꾸준히 증가한 것으로 나타났다. 이 시기 동안 언론보도의 상위 주제어는 단순한 정의를 개념화하는 단어들로부터 장애 당사자의 실질적교육권에 대한 적극적 의지를 드러내는 단어로 변화가 나타났다. 또한 통합교육 뉴스 기사의 전체적인 키워드 감성 분석 결과 긍정적인 단어 비율이 높은 것으로 나타났다. 본 연구를 통해 특수교육 정책 변화에 따라 통합교육에대한 언론보도의 관심이 양적으로 증가하고 통합교육의 요구가 장애 당사자의 실질적인 교육권을 보장하는 방향으로 구체화되고 있음을 알 수 있다.

대용량 Dynamic RAM의 Data Retention 테스트 회로 설계 (Design of Data Retention Test Circuit for Large Capacity DRAMs)

  • 설병수;김대환;유영갑
    • 전자공학회논문지A
    • /
    • 제30A권9호
    • /
    • pp.59-70
    • /
    • 1993
  • An efficient test method based on march test is presented to cover line leakage failures associated with bit and word lines or mega bit DRAM chips. A modified column march (Y-march) pattern is derived to improve fault coverage against the data retention failure. Time delay concept is introduced to develop a new column march test algorithm detecting various data retention failures. A built-in test circuit based on the column march pattern is designed and verified using logic simulation, confirming correct test operations.

  • PDF