• 제목/요약/키워드: 코퍼스 규모

검색결과 17건 처리시간 0.021초

Bayes 정리에 기반한 개선된 동형이의어 분별 모텔 (An Improved Homonym Disambiguation Model based on Bayes Theory)

  • 김창환;이왕우
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1581-1590
    • /
    • 2001
  • 본 연구에서는 동형이의어 분별을 위하여 허정(2000)이 제시한 "사전 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템"이 가지는 문제점과 향후 연구과제로 제시한 문제들을 개선하기 위하여 Bayes 정리에 기반한 동형이의어 분별 모델을 제안한다. 의미 분별된 사전 뜻풀이말 코퍼스에서 동형이의어를 포함하고 있는 뜻풀이말을 구성하는 체언류(보통 명사), 용언류(형용사, 동사) 및 부사류(부사)를 의미 정보로 추출한다. 동형이의어의 의미별 사전 출현 빈도수가 비교적 균등한 기존 9개의 동형이의어 명사를 대상으로 실험하여 비교하였고, 새로 7개의 동형이의어 용언(형용사, 동사)을 추가하여 실험하였다. 9개의 동형이의어 명사를 대상으로 한 내부 실험에서 평균 99.37% 정확률을 보였으며 7개의 동형이의어 용언을 대상으로 한 내부 실험에서 평균 99.53% 정확률을 보였다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 9개의 동형이의어 명사를 대상으로 평균 84.42% 정확률과 세종계획의 350만 어절 규모의 외부 코퍼스를 이용하여 7개의 동형이의 어 용언을 대상으로 평균 70.81%의 정확률을 보였다. 정확률을 보였다.

  • PDF

백과사전 질의응답 시스템을 위한 어휘개념망 구축 (Constructing Korean Lexical Concept Network for Encyclopedia Question-Answering System)

  • 최미란;오효정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.99-105
    • /
    • 2004
  • 백과사전 질의응답 시스템은 사용자의 자연어 질문과 검색 대상 문서인 백과사전 내용의 의미를 파악하기 위한 고정밀 자연어 처리 기술이 요구된다. 이러한 고정밀 자연어 처리 기술을 위한 중요한 언어자원을 제공하기 위하여 한국어 명사와 동사로 구성되는 대규모 어휘개념망을 구축하였다. 한국어 어휘개념망은 명사와 동사의 상하위 관계를 주요 계층구조로 하여 다양한 한국어 어휘 기초 자료를 바탕으로 구축되었다. 구축된 규모는 일반명사 약 6만 어휘와 동사 약 2만 어휘를 포함한다. 이 논문에서는 어휘개념망을 구축하기 위한 방법과 과정을 소개하고 지금까지 구축된 어휘개념망의 특성에 대해 기술하며, 백과사전 질의응답 시스템에서 어떻게 활용되는지 시스템 구성요소의 예를 들어서 설명한다. 또한 현재 구축된 어휘개념망의 성능 평가를 위해 일반 코퍼스에 대한 커버리지 측정 결과를 기술한다.

  • PDF

KE-T5: 한국어-영어 대용량 텍스트를 활용한 이중언어 사전학습기반 대형 언어모델 구축 (Construction of bilingually pre-trained language model from large-scaled Korean and English corpus)

  • 신사임;김산;서현태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.419-422
    • /
    • 2021
  • 본 논문은 한국어와 영어 코퍼스 93GB를 활용하여 구축한 대형 사전학습기반 언어모델인 KE-T5를 소개한다. KE-T5는 한국어와 영어 어휘 64,000개를 포함하는 대규모의 언어모델로 다양한 한국어처리와 한국어와 영어를 모두 포함하는 번역 등의 복합언어 태스크에서도 높은 성능을 기대할 수 있다. KE-T5의 활용은 대규모의 언어모델을 기반으로 영어 수준의 복잡한 언어처리 태스크에 대한 연구들을 본격적으로 시작할 수 있는 기반을 마련하였다.

  • PDF

$\mathcal{K}o$-ATOMIC: 일반 상식 기반의 한국어 지식 그래프 ($\mathcal{K}o$-ATOMIC: Korean Commonsense Knowledge Graph)

  • 이재욱;서재형;이승준;박찬준;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.412-417
    • /
    • 2022
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 그래프로 표현하여, 자연어 처리의 하위 작업들에 적용할 수 있도록 하는 구조화된 지식 표현 방법이다. 현재 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ATOMIC [1]이 있다. 하지만 한국어를 주요 언어로 하는 일반 상식 기반의 지식 그래프에 대한 연구는 아직 활발하지 않다. 따라서 본 연구에서는 기존에 존재하는 영어 기반의 지식 그래프와 일반 상식 기반의 한국어 데이터셋을 활용해서 한국어 일반 상식 기반 지식 그래프를 구축하는 방법론을 제시한다. 또한, 제작한 지식 그래프를 평가하여 구축하는 방법론에 대한 타당성을 검증한다.

  • PDF

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

CHILDES 코퍼스를 기반으로 한 아동의 영어 굴절형태소 발달 연구 (A Study on the Development of English Inflectional Morphemes Based on the CHILDES Corpus)

  • 민명숙;전종섭;이선영
    • 인지과학
    • /
    • 제24권3호
    • /
    • pp.203-235
    • /
    • 2013
  • 본 연구의 목적은 선행 연구에서 보고된 영어 모국어 아동의 굴절형태소 습득 과정을 대규모 언어습득 데이터베이스를 활용하여 검증하는 것이다. 이를 위해, 우리는 CHILDES(Child Language Data Exchange System) 데이터베이스에 등장하는 1-7세 영국 및 미국 아동 1,630명이 발화한 470만 어절 말뭉치를 대상으로 굴절형태소의 발달 과정을 분석하였다. 본 논문에서는 동사의 현재분사 -ing, 과거형 -(e)d, 형용사의 비교/최상급 -er/est 등의 형태소에 대해 어휘 유형(Type)과 사례(Token) 빈도, 전체 사례(Token)에 대한 유형(Type) 비율인 TTR(Type per Token Ratio), 어휘 다양성 척도인 Lexical Diversity(D) 값을 구하여 이를 국가 및 연령별로 비교, 분석하였다. 그 결과, 굴절형태소별로 연령과 D 값의 상관관계가 다르게 나타났다. 특히, 현재분사 -ing와 D 값 사이에는 주목할 만한 상관관계가 나타나지 않은 반면, 과거형 -(e)d의 경우 양의 상관관계 경향성이 보였고, 비교/최상급 -er/-est는 유의미한 상관관계를 보였다. 이는 현재진행형이 과거형보다 먼저 습득된다고 보고한 Brown(1973)의 견해를 지지한다. 다음으로, 과잉일반화에 따른 오류 표현이 2-3세 사이에 많이 나타나면서 U자형 발달 양상을 보였다. 과잉일반화도 현재분사보다 과거형에서 많이 나타났는데, 이것 또한 현재분사가 과거형보다 일찍 습득된다는 주장을 지지한다. 영국과 미국 아동의 연령별 굴절형태소 사용 양상을 비교한 결과, 미국 아동의 D 값이 영국 아동보다 높았다. 이는 미국 아동이 영국 아동보다 더 많은 어휘 유형에 대해 굴절형태소를 사용했음을 의미한다. 본 연구는 소수의 아동을 대상으로 수행된 선행 연구의 다양한 논점을 대규모 데이터베이스로 검증하고, CHILDES 코퍼스를 효율적으로 분석하는 연구 방법론을 제안했다는 점에서 의의가 있다.

  • PDF

평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출 (Relation Extraction based on Extended Composite Kernel using Flat Lexical Features)

  • 최성필;정창후;최윤수;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권8호
    • /
    • pp.642-652
    • /
    • 2009
  • 본 논문에서는 기존의 관계 추출 성능을 향상시키기 위해서 기존의 자질 기반 방법에서 추구하였던 개체 주변 문맥 다양성 정보의 추출 및 적용과 커널 기반 방법의 강점인 관계 인스턴스에 대한 구문 구조적 자질 정보의 통합 활용을 통한 확장된 혼합 커널을 제안한다. ACE RDC 코퍼스를 활용한 실험에서, 기존의 합성곱 구문 트리 커널 기반 혼합 커널을 기반으로 총 9 종류의 평면적 어휘 자질 집합을 정의하고 이를 적용함으로써 성능 향상에 기여하는 어휘 자질 유형을 파악할 수 있었으며, 적은 규모의 학습 집합으로도 현재 최고 수준의 성능에 필적하는 결과를 얻을 수 있었다. 결론적으로 관계 추출을 위한 세 가지 핵심 정보, 즉 개체 자질, 구문 구조적 자질, 주변 문맥 어휘 자질을 통합 적용하면 관계 추출의 성능을 향상시킬 수 있음을 알 수 있었다.