• Title/Summary/Keyword: 언어 정보

Search Result 7,925, Processing Time 0.03 seconds

Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages (사전 학습된 Transformer 언어 모델의 이종 언어 간 전이 학습을 통한 자원 희소성 문제 극복)

  • Lee, Chanhee;Park, Chanjun;Kim, Gyeongmin;Oh, Dongsuk;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.135-140
    • /
    • 2020
  • 사전 학습된 Transformer 기반 언어 모델은 자연어처리 시스템에 적용되었을 시 광범위한 사례에서 큰 폭의 성능 향상을 보여준다. 여기서 사전 학습에 사용되는 언어 모델링 태스크는 비지도 학습에 속하는 기술이기 때문에 상대적으로 데이터의 확보가 쉬운 편이다. 하지만 몇 종의 주류 언어를 제외한 대부분 언어는 활용할 수 있는 언어 자원 자체가 희소하며, 따라서 이러한 사전 학습 기술의 혜택도 누리기 어렵다. 본 연구에서는 이와 같은 상황에서 발생할 수 있는 자원 희소성 문제를 극복하기 위해 이종 언어 간 전이 학습을 이용하는 방법을 제안한다. 본 방법은 언어 자원이 풍부한 언어에서 학습된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습을 진행한다. 또한, 기존 언어와 목표 언어의 차이를 학습하는 역할을 하는 적응층들을 추가하여 이종 언어 간 전이 학습을 돕는다. 제안된 방법을 언어 자원이 희귀한 상황에 대하여 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity와 단어 예측의 정확도가 큰 폭으로 향상됨을 확인하였다.

  • PDF

ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval (다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT)

  • Jonghwi Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

A Thesaurus for Korean Language (YDK-Term : 한국어 용언의 다국어 통합정보사전)

  • Choi, Yon-Jun;Hwang, Do-Sam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.321-326
    • /
    • 1998
  • 통합정보사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어 처리 도구와 처리 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존에 출판되어 있는 사전은 자연언어처리 및 이해의 관점에서 개발된 사전이 아니며, 자연언어처리 도구 및 응용시스템에 사용되는 사전은 목적에 따라 각기 다른 체계에 의해 구축되어 있어 이용하는데 있어서 비효율적이다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이며 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 통합정보사전의 개발이 반드시 필요하다. 본 논문에서는 다국어 통합정보사전 구축을 위한 한국어 용언의 통합정보사전을 설계한다. 이를 위해 사전구축 방법론을 정립하고, 정립된 방법론을 바탕으로 하여 통합 정보사전의 개발을 위한 통합정보사전 개발 시스템을 설계하고 구현하였다.

  • PDF

Problems in Syntactic Annotation for Building a LDB in Korean (언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로)

  • Shin, Sun-Kyung;Han, Young-Gyun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

Do language models know the distinctions between men and women? An insight into the relationships between gender and profession Through "Fill-Mask" task (언어모델도 남녀유별을 아는가? - 'Fill-Mask' 태스크로 보는 성별과 직업의 관계)

  • Fei Li;Choi Jaehyeon;Kim Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.3-9
    • /
    • 2022
  • 본연구는 한국어 언어모델 트레이닝 단계에서 자주 사용되는 Fill-Mask 태스크와 직업 관련 키워드로 구성되는 각종 성별 유추 템플릿을 이용해 한국어 언어모델에서 발생하는 성별 편향 현상을 정량적으로 검증하고 해석한다. 결과를 봤을 때 현재 직업 키워드에서 드러나는 성별 편향은 각종 한국어 언어모델에서 이미 학습된 상태이며 이를 해소하거나 차단하는 방법을 마련하는 것이 시급한 과제이다.

  • PDF

Suggestions on bilingual models from the perspectives of mental structures and processes (심성구조와 과정을 반영한 이중언어 정보처리 모형의 제언)

  • Yum, Eun-Young;Chung, Chan-Sup
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.233-239
    • /
    • 1995
  • 기존의 이중언어정보 처리 모형을 기억 모형과 상호 작용 모형으로 나누고 기억모형은 다시 발달적 관점을 지닌 모형과 개념 표상과의 관계 구조에 촛점을 둔 모형으로 분류하여 개관하였다. 이중 언어 정보 처리 과정에 관한 이상적인 모형은 심성 어휘집의 관계 구조. 언어이해와 산출의 자동성, 두 언어 체계간의 작용에 관하여 설명할 수 있어야 한다. 이러한 관점에서 지금까지 개관된 모형을 비판하였다. 일부 모형에서는 위의 가정들을 언급하고 있으나 대부분의 모형들이 각각의 가정을 체계적으로 반영하고 있지 않았다. 비판점들을 보완하여 한국인에게 적합한 외국어 교육 프로그램을 개발하고 한국어-영어 번역시스템의 효과적인 운용과 일반적인 언어 정보 처리 기제에 대한 이해를 돕기 위한 새로운 이중 언어 모형을 제안하였다.

  • PDF

Research on Features for Effective Cross-Lingual Transfer in Korean (효과적인 한국어 교차언어 전송을 위한 특성 연구)

  • Taejun Yun;Taeuk Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.119-124
    • /
    • 2023
  • 자원이 풍부한 언어를 사용하여 훈련된 모델을 만들고 해당 모델을 사용해 자원이 부족한 언어에 대해 전이 학습하는 방법인 교차언어 전송(Cross-Lingual Transfer)은 다국어 모델을 사용하여 특정한 언어에 맞는 모델을 만들 때 사용되는 일반적이고 효율적인 방법이다. 교차언어 전송의 성능은 서비스하는 언어와 전송 모델을 만들기 위한 훈련 데이터 언어에 따라 성능이 매우 다르므로 어떤 언어를 사용하여 학습할지 결정하는 단계는 효율적인 언어 서비스를 위해 매우 중요하다. 본 연구에서는 교차언어 전송을 위한 원천언어를 찾을 수 있는 특성이 무엇인지 회귀분석을 통해 탐구한다. 또한 교차언어전송에 용이한 원천 학습 언어를 찾는 기존의 방법론들 간의 비교를 통해 더 나은 방법을 도출해내고 한국어의 경우에 일반적으로 더 나은 원천 학습 언어를 찾을 수 있는 방법론을 도출한다.

  • PDF

A Study on Language Modeling for Korean Legal Text Processing (한국어 법률 텍스트 처리를 위한 언어 모델링 연구)

  • Ye-Jee Kang;Fei Li;Yeon-Ji Jang;Hye-Rin Kang;Seo-Yoon Park;Han-Saem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information (언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

A Study of Disfluency Processing for Dependency Parsing of Spoken (구어 의존 구문 분석을 위한 비유창성 처리 연구)

  • Park, Seokwon;Choe, Hyonsu;Han, Jiyoon;Oh, Taehwan;Ahn, Euijeong;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF