• 제목/요약/키워드: 언어공학

검색결과 3,028건 처리시간 0.026초

한국어 맞춤법 교정을 위한 초거대 언어 모델의 잠재적 능력 탐색 (Examining the Feasibility of Utilizing a Large Language Model for Korean Grammatical Error Correction)

  • 구선민;박찬준;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-65
    • /
    • 2023
  • 최근, 대부분의 태스크가 초거대 언어 모델로 통합되고 있을 정도로 많은 관심 및 연구되고 있다. 초거대 언어 모델을 효과적으로 활용하기 위해서는 모델의 능력에 대한 분석이 선행되어야 하나, 한국어에 대한 분석 및 탐색은 상대적으로 부족하다. 본 논문에서는 한국어 맞춤법 교정 태스크를 통해 초거대 언어 모델의 능력을 탐색한다. 맞춤법 교정 태스크는 문장의 구조 및 문법을 이해하는 능력이 필요하며, 사용자의 만족도에 영향을 미칠 수 있는 중요한 태스크이다. 우리는 맞춤법 세부 유형에 따른 ChatGPT의 제로샷 및 퓨샷성능을 평가하여 초거대 언어 모델의 성능 분석을 수행한다. 실험 결과 제로샷의 경우 문장부호 오류의 성능이 가장 우수했으며, 수사 오류의 성능이 가장 낮았다. 또한, 예제를 더 많이 제공할수록 전체적인 모델의 성능이 향상되었으나, 제로샷의 경우보다 오류 유형 간의 성능 차이가 커지는 것을 관찰할 수 있었다.

  • PDF

인식(認識)의 한계(限界)와 마음 (The Limit of Cognition and Mind)

  • 이동한
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.147-154
    • /
    • 1991
  • 인간의 인식작용은 인식 주체로서 개인이 갖는 한계 속에서의 인식인바 인식의 근원인 <마음>이 작용하는 바를 도외시 하고는 옳바른 인식에 도달할 수 없겠으므로 인식문제를 다룸에 있어 언어와 논리적인 분석에만 그칠것이 아니라 <마음>의 작용에 대해 주목할 필요가 있다.

  • PDF

한글중심의 한글 로마자삼기

  • 신경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 1990
  • 이 논문은 한글 로마자 삼기의 여러가지 방법을 살펴보고, 외국인을 중심으로 정확한 음성표기를 이루려 했던 현재의 문교부 표기법의 문제점을 분석할 것이다. 아울러 우리나라 사람의 언어의식을 기준으로 하고 한글과 로마자의 일대일 대응을 바탕으로 한 로마자 삼기 방안을 제시할 것이다.

  • PDF

UIML에 기반한 통합 사용자 인터페이스 변환 모델에 관한 연구 (A Study on Integrated User Interface transfer model base on UIML)

  • 박병철;손민우;김강;신동일;신동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.865-868
    • /
    • 2004
  • 오늘날 스마트 홈, 홈오토메이션, 홈 네트워크 등의 연구 개발로 여러 기기들과 컴퓨터가 연동한다. 이에 따라 다양한 기기에 맞춰 사용자 인터페이스를 여러 번 개발해야하는 비효율적인 일이 빈번하다. 또한, 개발자에게 있어서 여러 기기에 사용되는 서로 다른 언어를 모두 익히고 개발하는 것 역시 많은 부담을 준다. 이러한 불합리함을 위해 새로운 markup language가 제시되었는데 바로 UIML(User Interface Markup Language)이다. UIML은 XML-compliant 언어로 여러 기기를 위한 사용자 인터페이스를 하나의 문서로서 구현이 가능하다. 따라서 개발자는 UIML 문서 하나만을 개발하면 HTML, WML, VoiceXML 등 다른 언어로 변환이 용이하다. 그러나 UIML도 여러 언어로의 변환을 위해 각각의 문서를 생성해야하는 번거로움이 있다. 본 연구에서는 이러한 UIML을 보완하여 통합된 사용자 인터페이스 변환의 모델을 제시한다.

  • PDF

감성 단어 등장 순서를 고려한 영화 리뷰 감성 분석 (Movie Revies Sentiment Analysis Considering the Order in which Sentiment Words Appear)

  • 김홍진;김담린;김보은;오신혁;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2020
  • 감성 분석은 문장의 감성을 분석해 긍정 또는 부정으로 분류하는 작업을 의미한다. 문장에 담긴 감성을 파악해야 하기 때문에 문장 전체를 이해하는 것이 중요하다. 그러나 한 문장에 긍정과 부정의 이중 극성이 동존하는 문장은 감성 분석에 혼동이 생길 수 있다. 본 논문에서는 이와 같은 문제를 해결하기 위해 단어의 감성 점수 예측을 통해 감성 단어 등장 순서를 고려한 감성 분석 모델을 제안한다. 또한 최근 다양한 자연어 처리 분야에서 좋은 성능을 보이는 사전 학습 언어 모델을 활용한다. 실험 결과 감성 분석 정확도 90.81%로 기존 모델들에 비해 가장 좋은 성능을 보였다.

  • PDF

문자 단위의 Neural Machine Translation (Character-Level Neural Machine Translation)

  • 이창기;김준석;이형규;이재송
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-118
    • /
    • 2015
  • Neural Machine Translation (NMT) 모델은 단일 신경망 구조만을 사용하는 End-to-end 방식의 기계번역 모델로, 기존의 Statistical Machine Translation (SMT) 모델에 비해서 높은 성능을 보이고, Feature Engineering이 필요 없으며, 번역 모델 및 언어 모델의 역할을 단일 신경망에서 수행하여 디코더의 구조가 간단하다는 장점이 있다. 그러나 NMT 모델은 출력 언어 사전(Target Vocabulary)의 크기에 비례해서 학습 및 디코딩의 속도가 느려지기 때문에 출력 언어 사전의 크기에 제한을 갖는다는 단점이 있다. 본 논문에서는 NMT 모델의 출력 언어 사전의 크기 제한 문제를 해결하기 위해서, 입력 언어는 단어 단위로 읽고(Encoding) 출력 언어를 문자(Character) 단위로 생성(Decoding)하는 방법을 제안한다. 출력 언어를 문자 단위로 생성하게 되면 NMT 모델의 출력 언어 사전에 모든 문자를 포함할 수 있게 되어 출력 언어의 Out-of-vocabulary(OOV) 문제가 사라지고 출력 언어의 사전 크기가 줄어들어 학습 및 디코딩 속도가 빨라지게 된다. 실험 결과, 본 논문에서 제안한 방법이 영어-일본어 및 한국어-일본어 기계번역에서 기존의 단어 단위의 NMT 모델보다 우수한 성능을 보였다.

  • PDF

의사 형태소 단위의 음성언어 형태소 해석 (Morphological Analysis of Spoken Korean Based on Pseudo-Morphemes)

  • 이경님;정민화
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-404
    • /
    • 1998
  • 본 논문에서는 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소(Pseudo-Morpheme)를 정의 하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 40개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다.

  • PDF

한일 기계번역을 위한 보문의 수식 Scope 해석 (The Modification Scope Analysis of the Embedded Sentences in Korean and Japanese Machine Translation)

  • 이수현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-350
    • /
    • 1996
  • 한일 양언어의 복합문은 여러가지의 통어 현상을 가지며, 주어, 목적어 등의 생략 현상으로 문장의 표층상에 나타나지 않는 것이 있기 때문에 수식구조의 처리가 복잡해지고, 구문해석에 있어서 애매성의 요인이 된다. 따라서, 본 논문에서는 DPN에 의하여 한국어와 일본어의 수식 scope를 해석하는 방법에 대하여 설명한다. 먼저, 한일 양언어의 공통점과 차이점을 찾아내어, 한국어와 일본어의 보문을 표현형식으로 나타내고, 동사의 격정보로부터 DPN을 구성하여 DPN상에서 보문의 수식 Scope를 해석하는 방법에 대해서 설명한다.

  • PDF