• 제목/요약/키워드: Corpus Compilation

검색결과 4건 처리시간 0.018초

한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 (Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students)

  • 이석재;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제14권11호
    • /
    • pp.1019-1029
    • /
    • 2014
  • 최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.

특수목적영어 교육을 위한 해사영어코퍼스 구축 (A Compilation of Maritime English Corpus for English for Specific Purposes Education)

  • 이성민;김재훈;장세은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-164
    • /
    • 2015
  • 본 연구는 특수목적영어분인 해사영어코퍼스의 구축을 목적으로 한다. 구축과정에서 코퍼스 구축에 필요한 대표성과 균형성을 고려하여 네 가지 장르인 학술, 뉴스, 법, 책으로 나누고 각 하위코퍼스를 백만 단어씩 구축하였다. 코퍼스 구축과정에서 웹사이트와 PDF형태의 자료에서 텍스트만을 수집하고 정제하기 위하여 파이썬(Python) 프로그래밍 코딩을 하였고 무료 공개 프로그램도 병행하였다. 앞으로 해사영어코퍼스는 해사영어어휘교육에 필요한 단어목록제공이나 예문 검색 등을 통한 자료중심학습법에 활용될 수 있을 것이다. 또한 본 연구의 코퍼스구축 과정은 다른 분야의 ESP코퍼스 구축에도 응용 될 수 있을 것이다.

  • PDF

『동의보감사전』 편찬을 위한 표제어 추출에 관한 연구 - 코퍼스 분석방법을 바탕으로 - (Study on Extraction of Headwords for Compilation of 「Donguibogam Dictionary」 - Based on Corpus-based Analysis -)

  • 정지훈;김도훈;김동율
    • 한국의사학회지
    • /
    • 제29권1호
    • /
    • pp.47-54
    • /
    • 2016
  • This article attempts to extract headwords for complication of "Donguibogam Dictionary" with Corpus-based Analysis. The computerized original text of Donguibogam is changed into a text file by a program 'EM Editor'. Chinese characters of high frequency of exposure among Chinese characters of Donguibogam are extracted by a Corpus-based analytical program 'AntConc'. Two-syllable, three-syllable, four-syllable, and five-syllable words including each Chinese characters of high frequency are extracted through n-cluster, one of functions of AntConc. Lastly, The output that is meaningful as a word is sorted. As a result, words that often appear in Donguibogam can be sorted in this article, and the names of books, medical herbs, disease symptoms, and prescriptions often appear especially. This way to extract headwords by this Corpus-based Analysis can suggest better headwords list for "Donguibogam Dictionary" in the future.

코퍼스 기반 영어 통사론 학술 어휘목록 구축 및 어휘 분포 분석 (A Corpus-based English Syntax Academic Word List Building and its Lexical Profile Analysis)

  • 이혜진;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.132-139
    • /
    • 2021
  • 본 코퍼스 기반 연구는 통사론 영역에서 자주 등장하는 학술어휘들을 목록화하고 추출된 단어 목록을 Coxhead(2000)의 학술어휘 목록(AWL) 및 West(1953)의 기본어휘 목록(GSL)과 비교하여 통사론 코퍼스 내의 어휘 분포와 범위를 조사하였다. 이를 위해 영어교육 전공자들이 주로 사용하는 필수 통사론 전공 서적을 546,074 단어 수준의 전문 코퍼스로 구축한 다음 AntWordProfiler 1.4.1로 분석하였다. 빈도를 기준으로 분석한 결과 16회 이상 등장한 학술어휘는 288개(50.5%), 15회 이하 등장한 학술어휘는 218개(38.2%)로 나타났다. AWL과 GSL의 출현 범위는 각각 9.19%와 78.92%로 나타났으며 GSL과 AWL을 포함한 비중은 전체 토큰의 88.11%에 달하였다. AWL이 광범위한 학술 요구를 충족시키는데 중추적인 역할을 할 수 있다는 점을 감안할 때, 본 연구는 학문 문식성과 학업 능력을 향상시키기 위한 방안으로 학문 분야별 학술 어휘목록을 편성할 필요가 있음을 강조하였다.