• 제목/요약/키워드: 언어 정보

검색결과 7,925건 처리시간 0.027초

사전 학습된 Transformer 언어 모델의 이종 언어 간 전이 학습을 통한 자원 희소성 문제 극복 (Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages)

  • 이찬희;박찬준;김경민;오동석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-140
    • /
    • 2020
  • 사전 학습된 Transformer 기반 언어 모델은 자연어처리 시스템에 적용되었을 시 광범위한 사례에서 큰 폭의 성능 향상을 보여준다. 여기서 사전 학습에 사용되는 언어 모델링 태스크는 비지도 학습에 속하는 기술이기 때문에 상대적으로 데이터의 확보가 쉬운 편이다. 하지만 몇 종의 주류 언어를 제외한 대부분 언어는 활용할 수 있는 언어 자원 자체가 희소하며, 따라서 이러한 사전 학습 기술의 혜택도 누리기 어렵다. 본 연구에서는 이와 같은 상황에서 발생할 수 있는 자원 희소성 문제를 극복하기 위해 이종 언어 간 전이 학습을 이용하는 방법을 제안한다. 본 방법은 언어 자원이 풍부한 언어에서 학습된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습을 진행한다. 또한, 기존 언어와 목표 언어의 차이를 학습하는 역할을 하는 적응층들을 추가하여 이종 언어 간 전이 학습을 돕는다. 제안된 방법을 언어 자원이 희귀한 상황에 대하여 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity와 단어 예측의 정확도가 큰 폭으로 향상됨을 확인하였다.

  • PDF

다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT (ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval)

  • 김종휘;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

YDK-Term : 한국어 용언의 다국어 통합정보사전 (A Thesaurus for Korean Language)

  • 최용준;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-326
    • /
    • 1998
  • 통합정보사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어 처리 도구와 처리 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존에 출판되어 있는 사전은 자연언어처리 및 이해의 관점에서 개발된 사전이 아니며, 자연언어처리 도구 및 응용시스템에 사용되는 사전은 목적에 따라 각기 다른 체계에 의해 구축되어 있어 이용하는데 있어서 비효율적이다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이며 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 통합정보사전의 개발이 반드시 필요하다. 본 논문에서는 다국어 통합정보사전 구축을 위한 한국어 용언의 통합정보사전을 설계한다. 이를 위해 사전구축 방법론을 정립하고, 정립된 방법론을 바탕으로 하여 통합 정보사전의 개발을 위한 통합정보사전 개발 시스템을 설계하고 구현하였다.

  • PDF

언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로 (Problems in Syntactic Annotation for Building a LDB in Korean)

  • 신선경;한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

언어모델도 남녀유별을 아는가? - 'Fill-Mask' 태스크로 보는 성별과 직업의 관계 (Do language models know the distinctions between men and women? An insight into the relationships between gender and profession Through "Fill-Mask" task)

  • 비립;최재현;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-9
    • /
    • 2022
  • 본연구는 한국어 언어모델 트레이닝 단계에서 자주 사용되는 Fill-Mask 태스크와 직업 관련 키워드로 구성되는 각종 성별 유추 템플릿을 이용해 한국어 언어모델에서 발생하는 성별 편향 현상을 정량적으로 검증하고 해석한다. 결과를 봤을 때 현재 직업 키워드에서 드러나는 성별 편향은 각종 한국어 언어모델에서 이미 학습된 상태이며 이를 해소하거나 차단하는 방법을 마련하는 것이 시급한 과제이다.

  • PDF

심성구조와 과정을 반영한 이중언어 정보처리 모형의 제언 (Suggestions on bilingual models from the perspectives of mental structures and processes)

  • 염은영;정찬섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.233-239
    • /
    • 1995
  • 기존의 이중언어정보 처리 모형을 기억 모형과 상호 작용 모형으로 나누고 기억모형은 다시 발달적 관점을 지닌 모형과 개념 표상과의 관계 구조에 촛점을 둔 모형으로 분류하여 개관하였다. 이중 언어 정보 처리 과정에 관한 이상적인 모형은 심성 어휘집의 관계 구조. 언어이해와 산출의 자동성, 두 언어 체계간의 작용에 관하여 설명할 수 있어야 한다. 이러한 관점에서 지금까지 개관된 모형을 비판하였다. 일부 모형에서는 위의 가정들을 언급하고 있으나 대부분의 모형들이 각각의 가정을 체계적으로 반영하고 있지 않았다. 비판점들을 보완하여 한국인에게 적합한 외국어 교육 프로그램을 개발하고 한국어-영어 번역시스템의 효과적인 운용과 일반적인 언어 정보 처리 기제에 대한 이해를 돕기 위한 새로운 이중 언어 모형을 제안하였다.

  • PDF

효과적인 한국어 교차언어 전송을 위한 특성 연구 (Research on Features for Effective Cross-Lingual Transfer in Korean)

  • 윤태준;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.119-124
    • /
    • 2023
  • 자원이 풍부한 언어를 사용하여 훈련된 모델을 만들고 해당 모델을 사용해 자원이 부족한 언어에 대해 전이 학습하는 방법인 교차언어 전송(Cross-Lingual Transfer)은 다국어 모델을 사용하여 특정한 언어에 맞는 모델을 만들 때 사용되는 일반적이고 효율적인 방법이다. 교차언어 전송의 성능은 서비스하는 언어와 전송 모델을 만들기 위한 훈련 데이터 언어에 따라 성능이 매우 다르므로 어떤 언어를 사용하여 학습할지 결정하는 단계는 효율적인 언어 서비스를 위해 매우 중요하다. 본 연구에서는 교차언어 전송을 위한 원천언어를 찾을 수 있는 특성이 무엇인지 회귀분석을 통해 탐구한다. 또한 교차언어전송에 용이한 원천 학습 언어를 찾는 기존의 방법론들 간의 비교를 통해 더 나은 방법을 도출해내고 한국어의 경우에 일반적으로 더 나은 원천 학습 언어를 찾을 수 있는 방법론을 도출한다.

  • PDF

한국어 법률 텍스트 처리를 위한 언어 모델링 연구 (A Study on Language Modeling for Korean Legal Text Processing)

  • 강예지;비립;장연지;강혜린;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅 (Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information)

  • 임희석;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

구어 의존 구문 분석을 위한 비유창성 처리 연구 (A Study of Disfluency Processing for Dependency Parsing of Spoken)

  • 박석원;최현수;한지윤;오태환;안의정;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF