• 제목/요약/키워드: 언어공학

검색결과 3,037건 처리시간 0.029초

대화처리를 위한 통계기반 한국어 음성언어이해 시스템 (Statistical Korean Spoken Language Understanding System for Dialog Processing)

  • 노윤형;양성일;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

한국어 형태소의 계량언어학적 연구 -신문 사설을 중심으로- (QUANTITATIVE STUDY ON KOREAN MORPHEMES IN JOURNAL EDITORIALS)

  • 배희숙;시정곤;백혜승;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.17-24
    • /
    • 2001
  • 말뭉치 기반 언어 연구에서 균형성은 매우 중요하게 대두되는 문제이다. 말뭉치의 균형성을 맞추려면 여러 유형의 말뭉치가 갖는 언어적 특성을 고려하여야 한다. 그러나 계량언어학적방법으로 접근한 한국어 말뭉치의 유형별 언어 연구는 아직 미미하다. 본 연구는 언론 매체의 주요 부분인 신문의 사설을 말뭉치로 구성하여 그 언어적 특성을 살펴보고자 한다. 계량언어학의 전형적 방법에 따라 계량화 작업을 먼저 다루고, 이어 신중한 계량화 작업으로 얻어진 자료를 조사 분석하였다.

  • PDF

한글 프로그래밍 언어(한글 포트란)의 설계에 관한 연구

  • 정순영;허용도;백두권;황종선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.32-38
    • /
    • 1990
  • 한글 프로그래밍 언어는 새로운 개념에 의해 설계되어야 하는데 그에 따른 많은 문제점이 발생하게 된다. 따라서 한글 프로그래밍 언어를 설계할 때 문제가 되는 한글의 구조적 특징, 동사가 문장의 마지막 뒤에 나오는 Postfix 적 특징, 한글의 특이한 데이타 구조 및 조사라는 첨가어가 붙으므로 인한 렉시칼 문제점등을 구조적으로 분석하고 여기에 맞는 한글 프로그래밍 언어를 개발하여야 한다. 그러나 이러한 모든 조건에 맞는 한글 프로그래밍 언어를 개발하는 것은 쉬운 일이 아니며 상당한 시간을 요하는 일이므로 본 논문에서는 과학기술용에 가장 많이 사용되는 FORTRAN 언어를 택하여 일차적으로 그 명령어를 한글화하였다.

  • PDF

한국어 처리를 위한 품사 체계 연구 (A Study on a Part of Speech for Korean Natural Language Processing)

  • 안미정;김재한;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.581-592
    • /
    • 1993
  • 지금까지의 한국어 자연언어 처리에 기반이 되는 사전 품사 체계에 대한 연구는 형태소 분석, 구문 구조 분석, 그리고 의미 분석 등의 다양한 분야에서 이루어져 왔다. 한국어 자연언어 처리 각 분야는 자체의 고유한 독립성을 가지는데, 이러한 특성은 사전 품사 체계의 다양화를 초래하였으며, 연계성있는 자연언어 처리를 위한 통합 환경 조성을 저해시켜 왔다. 본 논문에서는 한국어 자연언어 처리 전반에 걸친 통합 환경 조성을 위한 범용적인 사전 품사체계의 필요성에 따라 한국어 자연언어 분석의 각 분야에 적합한 사전 품사체계에 대하여 살펴 본 후, 한국어 자연 언어 처리 전반에 사용될 범용적이고 통합적인 기본 사전 품사체계 구축을 위한 방안을 제시한다.

  • PDF

언어 산출 과정의 몇 가지 특성: - 지식 유형, 텍스트 유형, 산출양식이 언어 산출에 미치는 효과 (Some Characteristics of Language Production Processes: The Effects of Knowledge Types, Text Types, and Production Modes)

  • 노영희;이정모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.241-247
    • /
    • 1993
  • 이 연구에서는 지식 유형, 텍스트 유형 및 언어 산출 양식이 언어 산출 과정에 미치는 효과를 알아보았다. 본 연구에서는 산출할 말글에 대한 1) 사전정보를 대형(거시적) 의미구조, 소형(미시적) 의미구조, 관련 단어들의 모음의 세 지식 유령에 의해 조작하고, 2) 산출할 말글 유형을 이야기 말글과 논술 말글의 두 유형으로 변화하고, 3) 언어 산출 양식을 말하기, 펜으로 쓰기, 컴퓨터로 쓰기의 세 양식으로 변화하였을 때에, 언어 산출 과정에 어떠한 처리 부담이 가하여지는가를 3개의 실험을 통하여 연구하였다.

  • PDF

구어 의존 구문 분석을 위한 비유창성 처리 연구 (A Study of Disfluency Processing for Dependency Parsing of Spoken)

  • 박석원;최현수;한지윤;오태환;안의정;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF

언어 모델의 뉴스 도메인 요약 성능 비교 분석 (Comparative Analysis of Language Model Performance in News Domain Summarization)

  • 류상원;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.131-136
    • /
    • 2023
  • 본 논문에서는 기존의 요약 태스크에서 주로 사용하는 인코더-디코더 모델과 디코더 기반의 언어 모델의 성능을 비교한다. 요약 태스크를 평가하는 주요한 평가 지표인 ROUGE 점수의 경우, 정답 요약문과 모델이 생성한 요약문 간의 겹치는 단어를 기준으로 평가한다. 따라서, 추상적인 요약문을 생성하는 언어 모델의 경우 인코더-디코더 모델에 비해 낮은 ROUGE 점수가 측정되는 경향이 있다. 또한, 최근 연구에서 정답 요약문 자체의 낮은 품질에 대한 문제가 되었고, 이는 곧 ROUGE 점수로 모델이 생성하는 요약문을 평가하는 것에 대한 신뢰도 저하로 이어진다. 따라서, 본 논문에서는 언어 모델의 요약 성능을 보다 다양한 관점에서 평가하여 언어 모델이 기존의 인코더-디코더 모델보다 좋은 요약문을 생성한다는 것을 보인다.

  • PDF

거대 언어 모델의 내재된 지식을 활용한 질의 응답 방법 (Question Answering that leverage the inherent knowledge of large language models)

  • 심묘섭;민경구;박민준;최주영;정해민;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-35
    • /
    • 2023
  • 최근에는 질의응답(Question Answering, QA) 분야에서 거대 언어 모델(Large Language Models, LLMs)의 파라미터에 내재된 지식을 활용하는 방식이 활발히 연구되고 있다. Open Domain QA(ODQA) 분야에서는 기존에 정보 검색기(retriever)-독해기(reader) 파이프라인이 주로 사용되었으나, 최근에는 거대 언어 모델이 독해 뿐만 아니라 정보 검색기의 역할까지 대신하고 있다. 본 논문에서는 거대 언어 모델의 내재된 지식을 사용해서 질의 응답에 활용하는 방법을 제안한다. 질문에 대해 답변을 하기 전에 질문과 관련된 구절을 생성하고, 이를 바탕으로 질문에 대한 답변을 생성하는 방식이다. 이 방법은 Closed-Book QA 분야에서 기존 프롬프팅 방법 대비 우수한 성능을 보여주며, 이를 통해 대형 언어 모델에 내재된 지식을 활용하여 질의 응답 능력을 향상시킬 수 있음을 입증한다.

  • PDF

Wanda Pruning에 기반한 한국어 언어 모델 경량화 (Wanda Pruning for Lightweighting Korean Language Model)

  • 윤준호;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.437-442
    • /
    • 2023
  • 최근에 등장한 대규모 언어 모델은 다양한 언어 처리 작업에서 놀라운 성능을 발휘하고 있다. 그러나 이러한 모델의 크기와 복잡성 때문에 모델 경량화의 필요성이 대두되고 있다. Pruning은 이러한 경량화 전략 중 하나로, 모델의 가중치나 연결의 일부를 제거하여 크기를 줄이면서도 동시에 성능을 최적화하는 방법을 제시한다. 본 논문에서는 한국어 언어 모델인 Polyglot-Ko에 Wanda[1] 기법을 적용하여 Pruning 작업을 수행하였다. 그리고 이를 통해 가중치가 제거된 모델의 Perplexity, Zero-shot 성능, 그리고 Fine-tuning 후의 성능을 분석하였다. 실험 결과, Wanda-50%, 4:8 Sparsity 패턴, 2:4 Sparsity 패턴의 순서로 높은 성능을 나타냈으며, 특히 일부 조건에서는 기존의 Dense 모델보다 더 뛰어난 성능을 보였다. 이러한 결과는 오늘날 대규모 언어 모델 중심의 연구에서 Pruning 기법의 효과와 그 중요성을 재확인하는 계기가 되었다.

  • PDF

암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가 (Evaluation of Language Model Robustness Using Implicit Unethical Data)

  • 김유진;정가연;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-637
    • /
    • 2023
  • 암시적 비윤리 표현은 명시적 비윤리 표현과 달리 학습 데이터 선별이 어려울 뿐만 아니라 추가 생산 패턴 예측이 까다롭다. 고로 암시적 비윤리 표현에 대한 언어 모델의 감지 능력을 기르기 위해서는 모델의 취약성을 발견하는 연구가 반드시 선행되어야 한다. 본 논문에서는 암시적 비윤리 표현에 대한 표기 변경과 긍정 요소 삽입이라는 두 가지 변형을 통해 모델의 예측 변화를 유도하였다. 그 결과 모델이 야민정음과 외계어를 사용한 언어 변형에 취약하다는 사실을 발견하였다. 이에 더해 이모티콘이 텍스트와 함께 사용되는 경우 텍스트 자체보다 이모티콘의 효과가 더 크다는 사실을 밝혀내었다.

  • PDF