• 제목/요약/키워드: 존재의 언어

검색결과 711건 처리시간 0.013초

검색 증강 LLM을 통한 한국어 질의응답 (Korean QA with Retrieval Augmented LLM)

  • 서민택;나승훈;임준호;김태형;류휘정;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.690-693
    • /
    • 2023
  • 언어 모델의 파라미터 수의 지속적인 증가로 100B 단위의 거대 언어모델 LLM(Large Language Model)을 구성 할 정도로 언어 모델의 크기는 증가 해 왔다. 이런 모델의 크기와 함께 성장한 다양한 Task의 작업 성능의 향상과 함께, 발전에는 환각(Hallucination) 및 윤리적 문제도 함께 떠오르고 있다. 이러한 문제 중 특히 환각 문제는 모델이 존재하지도 않는 정보를 실제 정보마냥 생성한다. 이러한 잘못된 정보 생성은 훌륭한 성능의 LLM에 신뢰성 문제를 야기한다. 환각 문제는 정보 검색을 통하여 입력 혹은 내부 표상을 증강하면 증상이 완화 되고 추가적으로 성능이 향상된다. 본 논문에서는 한국어 질의 응답에서 검색 증강을 통하여 모델의 개선점을 확인한다.

  • PDF

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

Cross-lingual Post-Training (XPT)을 통한 한국어 언어모델 구축 및 비교 실험 (Korean language model construction and comparative analysis with Cross-lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이승현;이진우;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-299
    • /
    • 2022
  • 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 존재한다. 본 논문은 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 적용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. 적은 양의 한국어 코퍼스인 400K와 4M만을 사용하여 다양한 한국어 사전학습 모델 (KLUE-BERT, KLUE-RoBERTa, Albert-kor)과 mBERT와 전반적인 성능 비교 및 분석 연구를 진행한다. 한국어의 대표적인 벤치마크 데이터셋인 KLUE 벤치마크를 사용하여 한국어 하위태스크에 대한 성능평가를 진행하며, 총 7가지의 태스크 중에서 5가지의 태스크에서 XPT-4M 모델이 기존 한국어 언어모델과의 비교에서 가장 우수한 혹은 두번째로 우수한 성능을 보인다. 이를 통해 XPT가 훨씬 더 많은 데이터로 훈련된 한국어 언어모델과 유사한 성능을 보일 뿐 아니라 학습과정이 매우 효율적임을 보인다.

  • PDF

신경망을 이용한 한국어 운율 발생에 관한 연구 (A Study on the Prosody Generation of Korean Sentences using Neural Networks)

  • 이일구;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.65-69
    • /
    • 1999
  • 합성단위, 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연음에 존재하는 운율법칙을 정확히 구현하면 합성음의 자연감을 높일 수 있으나 존재하는 모든 운율법칙을 추출하기 위해서는 방대한 분량의 언어자료 구축이 필요하다. 일반 의미 문장으로부터 운율법칙을 추출하는 것이 바람직하겠으나, 모든 운율 현상이 포함된 언어자료는 그 문장 수가 극히 방대하여 처리하기 힘들기 때문에 가능하면 문장 수를 줄이면서 다양한 운율 현상을 포함하는 문장 군을 구축하는 것이 중요하다. 본 논문에서는 음성학적으로 균형 잡힌 고립단어 412 단어를 기반으로 의미문장들을 만들었다. 이들 단어를 각 그룹으로 구분하여 각 그룹에서 추출한 단어들을 조합시켜 의미 문장을 만들도록 하였다. 의미 문장을 만들기 위해 단어 목록에 없는 단어를 첨가하였다. 단어의 문장 내에서의 상대위치에 따른 운율 변화를 살펴보기위해 각 문장의 변형을 만들어 언어자료에 포함시켰다. 자연감을 높이기 위해 구축된 언어자료를 바탕으로 음성데이타베이스를 작성하여 운율분석을 통해 신경망을 훈련시키기 위한 목표패턴을 작성하였다 문장의 음소열을 입력으로 하고 특정음소의 운율정보를 발생시키는 신경망을 구성하여 언어자료를 기반으로 작성한 목표패턴을 이용해 신경망을 훈련시켰다. 신경망의 입력패턴은 문장의 음소열 중 11개 음소열로 구성된다. 이 중 가운데 음소의 운율정보가 출력으로 나타난다. 분절요인에 의한 영향을 고려해주기 위해 전후 5음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 특정화자로 하여금 언어자료를 발성하게 한 음성시료의 운율정보를 추출하여 신경망을 훈련시킨 결과 자연음의 운율과 유사한 합성음의 운율을 발생시켰다.

  • PDF

소리시-'존재의 언어'와 지각적 의미 ('Language of Presence' and Perceptual Meaning)

  • 최문수
    • 영어영문학
    • /
    • 제57권4호
    • /
    • pp.675-693
    • /
    • 2011
  • In its restricted sense, 'sound poetry' refers to the poetic performance that rejects words and verbal meaning and instead foregrounds the aural materiality of poetry. Behind this seeking for materiality lies a quest for a 'language of presence,' which operates through a denial of signification toward an ideal of the Adamic tongue, a purely emotional and universal language. In the same light, it is argued that sound poetry is a unique and unrepeatable event devoid of meaning due to its directness to the body allowing no intervention of intellectual and semiotic process. But language may involve perceptual meaning as well as verbal or conceptual meaning ascribed to words. This implies that even though devoid of conceptual meaning by means of using grammatically non-articulated sounds, sound poetry cannot but have meaning whose articulation is differently, i.e., iconically made about the aural features of the sounds. Perceptual meaning is unavoidable because everything we are conscious of is a reduced form, a repeatable pattern that works as a sign. 'Language of presence' is then actually impossible, and therefore sound poetry should be seen rather as a fest of diverse perceptual meanings.

어휘의 공리화를 이용한 Web Ontology 추론 시스템의 설계 및 구현 (Design and Implementation of Web Ontology Inference System Using Axiomatisation)

  • 하영국;손주찬;함호상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.559-561
    • /
    • 2003
  • 최근 차세대 Web 기술로서 Semantic Web이 주목 받고 있다. Semantic Web에서는 Web상에 존재하는 문서에 Web Resource들에 대한 Ontology를 기반으로 Semantic Annotation을 하고 Ontology 추론 Agent를 통하여 의미 기반으로 Web을 검색할 수 있도록 해준다. 이와 같은 Semantic Web 기술의 핵심 요소는 Web Ontology이며 W3C에서는 이를 표현 할 수 있는 표준 언어로서 RDF기반의 OWL(Web Ontology Language) 명세를 제정하고 있다. 따라서 표준 Web Ontology 언어인 OWL을 위한 추론 시스템은 Semantic Web 검색 Agent의 구현을 위한 필수적인 기반 기술이라 할 수 있으나 아직 그 개발이 미비한 상태이다. OWL 추론 시스템을 구현하기 위해서는 OWL의 이론적인 기반을 제공하는 DL(Description Logic)을 추론할 수 있는 엔진을 사용하는 것이 한가지 방법이 될 수 있으나 OWL이 Rule과 같은 DL의 범주를 벗어나는 Vocabulary를 지원하는 언어로 확장되는 경우에 이를 처리하기가 어렵다. 또 다른 방법으로서 Logic Programming을 통하여 OWL 언어의 Semantic을 기술하고 정리 증명(Theorem Proving)을 통하여 Ontology를 추론하는 공리화(Axiomatisation) 기법이 있는데 이러한 방법의 장점은 기반이 되는 Logic의 범주 내에서 새로운 언어를 위한 Vocabulary의 확장이 용이하다는 점이다. 본 논문에서는 Axiomatisation 방법을 이용하여 OWL로 기술된 Ontology를 추론할 수 있는 시스템의 설계 및 구현에 대해 설명하기로 한다.

  • PDF

텍스트 및 전자사전 관리시스템의 설계 (The Design of Text and Dictionary Management System)

  • 이재성;최병진;이운재;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.408-414
    • /
    • 1996
  • 자연언어처리 프로그램에서 어휘지식을 제공하는 전자사전은 그 중요성에 비해 작성 및 관리에 불편함이 많다. 본 논문에서는 전자사전의 작성 및 관리를 편리하게 할 수 있도록, 다양한 형태의 어휘 자료로부터 필요한 정보를 추출, 변형하고, 편집할 수 있는 텍스트 및 사전 관리시스템(TDMS: Text and Dictionary Management System)의 설계에 관하여 소개한다. TDMS에서는 SGML(Standard General Markup Language)의 일부를 사용하여, 표준사전 표기언어(SDML: Standard Dictionary Markup Language)를 정의하고, 이를 이용하여 다양한 형태의 사전 형식을 기술하고 있다. 또, 표준사전 표기언어로 표현된 사전이나 텍스트는 각종 응용프로그램에 독립적인 형태로 존재하여, 정보의 표준화와 교환을 용이하게 한다.

  • PDF

자연어 문장을 이용한 자동 프로그래밍 시스템의 명세서에 관한 연구 (A Study on the Specification of an Automatic Programming System using Natural Language Sentence)

  • 김태용;황인환;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.479-482
    • /
    • 1994
  • 자동 프로그램이란 인간이 프로그램 언어를 습득하는데 드는 노력과 시간을 감소시키고 프로그램하는 과정의 일부나 전부를 컴퓨터가 대신하도록 하여 프로그램 환경을 개선하고 유지, 보수의 비용을 줄이는데 그 목적이 있으며, 자동 프로그램 4대 구성 요소중 프로그램 명세서를 초고급언어나 예제에 의한 방법 또는 트레이스(Trace)로 기술하는 것이 일반적이다. 그러나 이 방법은 전문가가 아니면 이해하기 어렵고, 불량이 많은 작성하기 어려운 문제점이 있다. 본 논문에서는 이런 단점을 개선하기 위해서 일반 사용자가 접하기 쉽고, 이해하기 용이한 자연어 문장으로 명세서를 작성한다. 그러나 자연어에는 많은 애매성이 존재하는데 이것을 방지하기 위해 사용자에게 미리 자연어 프로그램 틀을 제시한다. 자연어 문장으로 작성된 명세서는 형태소 분석과 구문 분석에 의해 처리되며, 구문 분석시 복합문과 내포문은 단문으로 분리한 다음, 동사를 중심으로한 격 프레임(case frame)를 만들며, 이것을 바탕으로 중간언어를 생성하는 방법을 제안한다.

  • PDF

통합 무선인터넷 서비스를 위한 시스템의 설계 및 구현 (The System Design and Implementation for Integrated Mobile Internet Service)

  • 정병수;이민석;김강희;안광선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.484-486
    • /
    • 2001
  • 인터넷 사용자의 확대와 기반 시설의 확충, 무선인터넷 기술의 발달은 무선인터넷을 통한 데이터 서비스의 시대를 확장시키고, 무선인터넷 서비스 업체의 증가를 가져 왔다. 그러나 무선인터넷의 컨텐츠 서비슬 위한 문서는 표준화되어 있지 않다. 무선인터넷에 접속사는 단말기는 하나의 형식만을 지원하는데 비해서, 무선인터넷 컨텐츠를 작성하는데 사용되는 기술언어는 WML, HDML, mHTML, sHTML, cHTML 등 다양한 마크업 언어가 존재하고 있다. 그래서 서비스를 제공하는 업체에서는 동일한 서비스를 각각의 마크업 언어로 개발해야 하는 문제점이 있다. 본 논문에서는 서비스 업체의 개발 부담을 줄이고, 기존의 무선 인터넷을 위한 마크업 언어를 완전하게 재구성할 수 있을 뿐 아니라 새로이 개발되는 마크업 언어에 적응력을 가질 수 있는 XML기반의 응용(WIML)을 제안하고, 이것을 기반으로 하는 시스템(IWIS)을 설계 및 구현한다.

프로그램 검증을 위한 중간표현 언어의 분석 (Analysis of the intermediate representation langauge for program verification)

  • 김선태;김제민;박준석;유원희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.201-204
    • /
    • 2011
  • 소프트웨어의 비중이 커짐에 따라 소프트웨어가 안전하게 실행되는 것이 보장되어야 한다. 이를 위해 다양한 검증 도구를 통해 검증이 수행된다. 하지만 소스 코드와 명세를 입력으로 받는 검증도구는 검증조건 생성이 어렵기 때문에 검증 조건 생성에 용이하도록 입력 값을 중간 표현 언어로 변환해 주는 것이 필요하다. 본 논문에서는 검증의 정확성을 위해 다양하게 존재하는 중간 표현 언어의 특성을 분석하고 예제를 통해 비교한다. 중간 표현 언어의 비교 분석 결과를 통해 검증을 수행할 때 검증의 목적과 환경에 적합한 중간 표현 언어 선택으로 검증의 효율성과 정확성을 향상시킨다.