• 제목/요약/키워드: 코퍼스 규모

검색결과 17건 처리시간 0.029초

코퍼스 규모에 따른 타입과 토큰의 상관성 연구 (The Statistical Relationship between Types and Tokens)

  • 양경숙;박병선;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-85
    • /
    • 2003
  • 이 논문의 목적은 코퍼스 크기에 따른 타입과 토큰간의 관계를 엄밀한 통계적 방법으로 그 특징을 밝히고자 하는 것이다. 지금까지 코퍼스를 구축하는 데 있어서, 자료의 다양성을 고려한 자료 균형성을 문제와 더불어 코퍼스 구축 규모의 문제는 매우 중요한 고려사항이었다. 이런 문제는 일찍이 영어 코퍼스를 중심으로 많은 연구가 진행된 바가 있지만 한국어를 대상으로 한 엄밀한 연구는 많이 이루어지지 않았다. 이 연구에서는 현재까지 구축한 현대 한국어 말뭉치 1억여 어절을 대상으로 말뭉치 크기 증가에 따른 타입과 토큰간의 통계적 관계를 3가지 모형에 대해 비교하였으며 최종적으로 ARIMA모형을 이용하여 그 함수적 관계를 밝혀보았다. 연구 결과에 따르면 한국어 자료는 약 1천만 어절의 토큰을 기준으로 타입의 변화가 다소 둔화되는 결과를 보인다. 연구에 의해 도출된 함수식을 이용하면 소규모의 자료를 이용하더라도, 대규모 자료에서의 타입수를 계산해 낼 수 있으므로, 더욱 다양하고 정확한 통계처리의 근거를 제시할 수 있게 된다.

  • PDF

한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 (Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students)

  • 이석재;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제14권11호
    • /
    • pp.1019-1029
    • /
    • 2014
  • 최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.

SiTEC의 공동 이용을 위한 음성 코퍼스 구축 현황 및 계획 (Current States and Future Plans at SiTEC for Speech Corpora for Common Use)

  • 김봉완;최대림;김영일;이광현;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.27-31
    • /
    • 2003
  • 음성정보기술 산업을 효과적으로 지원하기 위해서는 상품 및 기술의 개발을 위한 표준화된 음성 코퍼스의 구축 및 보급이 필수적이라고 할 수 있다. 본 논문에서는 음성정보기술산업지원센터(SiTEC)의 1∼2차년도 (2001. 5. 1 ∼ 2003. 4. 30)의 사업기간 중에 구축된 음성 코퍼스의 현황 및 향후 계획을 소개한다. 전통산업분야에 대한 음성정보기술 적용확산을 위한 자동차 소음 및 대규모 다채널 자동차 음성 코퍼스, 수출지원을 위한 다양한 외국어 음성 코퍼스, 방음실 환경에서의 인식 및 운율 합성 연구용 코퍼스, Dictation용 음성 코퍼스, 아동용 음성 코퍼스 등의 구축 내용이 소개된다.

  • PDF

SGML 기반 비교 가능 코퍼스 구축 (The Contruction of the Comparable Corpus Based on SGML)

  • 이창열;김용순;김성혁
    • 정보관리학회지
    • /
    • 제15권3호
    • /
    • pp.7-26
    • /
    • 1998
  • 대규모 문헌 자료는 정보원으로써 다양한 목적에 사용될 수 있다. 언어간 정보검색에서 한 언어의 단어가 다의미적(polymorphic)일 경우 대상 언어로 정확한 번역을 위하여 언어간 대응 구조를 제공하는 다국어 코퍼스가 필요하다. 본 논문에서는 언어간 정보검색에서 대응 구조로 사용될 수 있는 비교 가능한 코퍼스를 구축하였다. 구축된 코퍼스(KFCM)는 유럽 6개 국어로 구축된 금융 관련 기사 자료인 MLCC 코퍼스에 대응되는 코퍼스로 다양한 목적에 사용되며, MLCC 코퍼스로부터 독립적으로 구축한 SGML 기반 코퍼스이다. 본 논문에서는 KFCM의 응용과 코퍼스 구축 과정에서 발생하는 기술적 사항을 기술하였으며, 구축된 자료를 웹에 공개하였다.

  • PDF

코퍼스 빈도 정보 활용을 위한 적정 통계 모형 연구: 코퍼스 규모에 따른 타입/토큰의 함수관계 중심으로 (The Statistical Relationship between Linguistic Items and Corpus Size)

  • 양경숙;박병선
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권2호
    • /
    • pp.103-115
    • /
    • 2003
  • In recent years, many organizations have been constructing their own large corpora to achieve corpus representativeness. However, there is no reliable guideline as to how large corpus resources should be compiled, especially for Korean corpora. In this study, we have contrived a new statistical model, ARIMA (Autoregressive Integrated Moving Average), for predicting the relationship between linguistic items (the number of types) and corpus size (the number of tokens), overcoming the major flaws of several previous researches on this issue. Finally, we shall illustrate that the ARIMA model presented is valid, accurate and very reliable. We are confident that this study can contribute to solving some inherent problems of corpus linguistics, such as corpus predictability, corpus representativeness and linguistic comprehensiveness.

  • PDF

한국어-한국수화 병렬 코퍼스의 효율적 제작 (An Effective Construction of a Korean-to-KSL Parallel Corpus)

  • 김정호;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-17
    • /
    • 2014
  • 본 연구에서는 한국어와 한국수화 간의 병렬 코퍼스 제작과 함께 이에 따른 문제를 다룬다. 본 연구에서는 병렬 코퍼스를 효율적으로 제작하기 위해 키넥트와 립모션을 이용하였고, 이의 성능을 검증하기 위해 기존 연구에서 제시하고 있는 장갑을 통한 동작 인식 및 수집 방법과 본 연구에서 제시하고 있는 수집 방법을 비교하였으며, 비교 결과 장갑을 통해 수집한 결과와 유의미하게 차이가 나지 않음을 확인하였다. 이는 본 연구의 동작 수집 방식이 상대적으로 고비용인 장갑 수집 방식과 비교하여 경쟁력이 있음을 시사하고 있으며, 특히 보편적인 자료 수집 방식을 사용하는 특징까지 가지고 있어서 동시적으로 자료를 수집할 수 있어 규모가 있는 병렬 코퍼스 구축을 더욱 효율적으로 진행할 수 있을 것으로 기대된다.

  • PDF

Ko-ATOMIC 2.0: 한국어 상식 지식 그래프 구축 (Ko-ATOMIC 2.0: Constructing Commonsense Knowledge Graph in Korean)

  • 이재욱;서재형;정다현;박찬준;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.319-323
    • /
    • 2023
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 수집하고 구조화하는 지식의 표현 방법이다. 일반 상식 기반의 지식 그래프는 코퍼스 내에 포함되어 있는 다양한 일반 상식의 형태와 관계를 모델링하며, 주로 질의응답 시스템, 상식 추론 등의 자연어처리 하위 작업에 활용할 수 있다. 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ConceptNet [1], ATOMIC [2]이 있다. 하지만 한국어 기반의 일반 상식 기반의 지식 그래프에 대한 연구가 존재했지만, 자연어처리 태스크에 활용하기에는 충분하지 않다. 본 연구에서는 대규모 언어 모델과 프롬프트의 활용을 통해 한국어 일반 상식 기반의 지식 그래프를 효과적으로 구축하는 방법론을 제시한다. 또한, 제안하는 방법론으로 구축한 지식 그래프와 기존의 한국어 상식 그래프의 품질을 양적, 질적으로 검증한다.

  • PDF

Bayes 정리에 기반한 개선된 동형이의어 분별 모델 (An Improved Homonym Disambiguation Model based on Bayes Theory)

  • 이왕우;이재흥;이수동;옥철영;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-471
    • /
    • 2001
  • 본 연구에서는 동형이의어 분별을 위하여 허정(2000)이 제시한 "사전 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템" 이 가지는 문제점과 향후 연구과제로 제시한 문제들을 개선하기 위하여 Bayes 정리에 기반한 동형이의어 분별 모델을 제안한다. 의미 분별된 사전 뜻풀이말 코퍼스에서 동형이의어를 포함하고 있는 뜻풀이말을 구성하는 체언류(보통명사), 용언류(형용사, 동사) 및 부사류(부사)를 의미 정보로 추출한다. 동형이의어의 의미별 사전 출현 빈도수가 비교적 균등한 기존 9개의 동형이의어 명사를 대상으로 실험하여 비교하였고, 새로 7개의 동형이의어 용언(형용사, 동사)을 추가하여 실험하였다. 9개의 동형이의어 명사를 대상으로 한 내부 실험에서 평균 99.37% 정확률을 보였으며 1개의 동형이의어 용언을 대상으로 한 내부 실험에서 평균 99.53% 정확률을 보였다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 9개의 동형이의어 명사를 대상으로 평균 84.42% 정확률과 세종계획의 350만 어절 규모의 외부 코퍼스를 이용하여 7개의 동형이의어 용언을 대상으로 평균 70.81%의 정확률을 보였다.

  • PDF

북한 영어 교과서 어휘의 통시적 분석 (A Diachronic Lexical Analysis of the North Korean English Textbooks)

  • 김지영;이제영;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.331-341
    • /
    • 2017
  • 본 연구는 북한의 영어 교과서에 나타난 어휘의 시대적인 변화를 파악하기 위해 통시적인 관점에서 코퍼스 기반 어휘 분석을 실시하였다. 이를 위해 통일부의 북한자료센터에 소장되어 있는 북한의 중등학교 영어 교과서 중 1996년 교육과정이 적용된 시기를 기준으로 김정일 시대 이전과 이후의 교과서를 구분지어 코퍼스를 구축한 후, 워드스미스 툴스 7.0을 통해 해당 코퍼스를 분석하여 각 교과서들의 어휘 변화 양상을 살펴보았다. 연구 결과 해당 교과서들의 어휘 규모는 개편 후의 교과서가 개편 전에 비해 증가했지만, 어휘 유형과 어휘 다양성은 감소하였다. 교육과정 개편 이전에 비해 개편 이후의 교과서에서 더 자주 등장하는 핵심어(keyword)를 분석한 결과 김정일 체제를 확고히 하기 위한 관련 이념 어휘와 북한의 경제 및 생활상을 반영하는 어휘들이 나타남을 확인할 수 있었다. 또한 다빈도 어휘 100개 목록과 핵심어를 비교한 결과 북한의 영어 교과서의 어휘가 문법과 문어체 위주의 텍스트에서 조금씩 실질적인 의사소통과 관련된 구어체 내용이 증가하고 있었다.

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF