• 제목/요약/키워드: 존재의 언어

검색결과 711건 처리시간 0.028초

한국어의 운율구조와 통사-의미구조와의 관계

  • 이호영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.57-64
    • /
    • 1990
  • 문장을 이루는 문장 구성성분 사이에는 다른 정도의 운율적 친밀성 (운율적 구성성분관계)와 상대적이며 계층적인 운율적 강도관계가 존재하며, 이를 바탕으로 문장의 운율구조를 세울 수 있으며, 운율구조는 나무그림으로 나타내는 것이 가장 효과적이다. 운율구조는 대응하는 통사구조가 보여주는 통사적 구성성분 관계 (constituency)와 계층적 지배관계와 대부분 일치하지 않지만, 문장의 운율구조는 먼저 구단위로 운율구조를 부과하고, 그 다음 단계에서 각 구들의 운율구조를 연결하여 완성해야 하며, 통사구조가 같은 구(phrase)도 구성요소들 사이에 존재하는 의미구조의 차이에 의해서 다른 운율구조를 가질 수도 있다. 그리고 문장의 일부만이 초점을 받으면, 초점받은 부분이 가장 강한 운율강도를 갖게되어 전체초점을 받을 때의 운율적 구성성분 관계와 계층적인 운율적 강도관계가 변할 수 있다.

  • PDF

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 (A Korean POS Tagging System with Handling Corpus Errors)

  • 설용수;김동주;김규상;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

다중 작업 학습의 단계적 특징을 활용한 한국어 속성 기반 감성 분석에서의 대상 추출 (Target extraction in Korean aspect-based sentiment analysis using stepwise feature of multi-task learning model)

  • 박호민;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.630-633
    • /
    • 2022
  • 속성기반 감성 분석은 텍스트 내에 존재하는 속성에 대해 세분화된 감성 분석을 수행하는 과제를 말한다. 세분화된 감성분석을 정확하게 수행하기 위해서는 텍스트에 존재하는 감성 표현과 그것이 수식하는 대상에 대한 정보가 반드시 필요하다. 그리고 순서대로 두 가지 정보는 이후 정보를 텍스트에서 추출하기 위해 중요한 단서가 된다. 따라서 본 논문에서는 KorBERT와 Bi-LSTM을 이용한 단계적 특징을 활용한 다중 작업 학습 모델을 사용하여 한국어 감성 분석 말뭉치의 감성 표현과 대상을 추출하는 작업을 수행하였다. 제안한 모델을 한국어 감성 분석 말뭉치로 학습 및 평가한 결과, 감성 표현 추출 작업의 출력을 추가적인 특성으로 전달하여 대상 추출 작업의 성능을 향상시킬 수 있음을 보였다.

  • PDF

딥러닝 기반의 개체명 인식을 위한 효과적인 사전 자질 사용 방법 (How to Use Effective Dictionary Feature for Deep Learning based Named Entity Recognition)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.293-296
    • /
    • 2019
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간과 같이 고유한 의미를 갖는 단어들을 찾아 개체명을 부착하는 기술이다. 최근 개체명 인식기는 형태소 단위나 음절 단위의 입력을 사용하는 연구가 주로 진행되고 있다. 그러나 형태소 단위 개체명 인식은 미등록어를 처리하지 못하는 문제점이 존재하고 음절 단위 개체명 인식은 단어의 의미를 제대로 반영하지 못하는 문제점이 존재한다. 본 논문에서는 이 문제점을 보완하기 위해 품사 정보를 활용한 음절 단위 개체명 인식기를 제안한다. 또한 개체명 인식 성능에 큰 영향을 미치는 개체명 사전 자질을 더 효과적으로 사용할 수 있는 방법을 제안하며 이 방법을 사용했을 때 기존의 방법보다 향상된 개체명 인식 성능(F1-score 0.8576)을 보였다.

  • PDF

지식베이스상 뉴로 심볼릭 관계 모델을 이용한 오픈 도메인 질의응답 (Neuro-symbolic relational models on knowledge base for open-domain question answering)

  • 이영훈;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-436
    • /
    • 2020
  • 오픈 도메인 질의응답은 주로 관련된 문서를 검색하고 문서 집합에서 정답을 찾는 방식으로 문제를 해결하는 검색 기반 질의응답 방법을 사용한다. 이러한 검색 기반 질의응답은 정답이 검색된 문서 집합에 존재하지 않는 경우 정답을 찾을 수 없다는 한계가 존재하게 된다. 본 연구에서는 NIL-Aware 방법을 이용하여 Unanswerable한 질문인 경우 문서 자원이 아닌 지식 베이스 자원을 활용하는 뉴로-심볼릭 지식 베이스 질의응답과의 결합 모델을 제안하고 한국어 질의응답 데이터에 적용함으로 제안하는 결합 방법의 유의미성을 확인한다.

  • PDF

의도 정보를 활용한 다중 레이블 오픈 의도 분류 (Multi-label Open Intent Classification using Known Intent Information)

  • 박나현;조성민;송현제
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-484
    • /
    • 2023
  • 다중 레이블 오픈 의도 분류란 다중 의도 분류와 오픈 의도 분류가 합쳐져 오픈 도메인을 가정하고 진행하는 다중 의도 분류 문제이다. 발화 속에는 여러 의도들이 존재한다. 이때 사전에 정의된 의도 여부만을 판별하는 것이 아니라 사전에 정의되어 있는 의도에 대해서만이라도 어떤 의도인지 분류할 수 있어야 한다. 본 논문에서는 발화 속 의도 정보를 활용하여 다중 레이블 오픈 의도를 분류하는 모델을 제안한다. 먼저, 문장의 의도 개수를 예측한다. 그리고 다중 레이블 의도 분류기를 통해 다중 레이블 의도 분류를 진행하여 의도 정보를 획득한다. 획득한 의도 정보 속 다중 의도 개수와 전체 의도 개수를 비교하여 전체 의도 개수가 더 많다면 오픈 의도가 존재한다고 판단한다. 실험 결과 제안한 방법은 MixATIS의 75% 의도에서 정확도 94.49, F1 97.44, MixSNIPS에서는 정확도 86.92, F1 92.96의 성능을 보여준다.

  • PDF

토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법 (Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model)

  • 이정우;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

유비스크립트: 유비쿼터스 서비스 통합을 위한 언어 (Ubiscript: A Language for Ubiquitous Service Integration)

  • 이민규;한동수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (A)
    • /
    • pp.269-270
    • /
    • 2007
  • 유비쿼터스 환경에서는 사용자가 컴퓨터 및 네트워크의 존재를 의식하지 않는 상태에서 다양한 서비스를 이용하게 된다. 주변에 있는 PC, 냉장고, TV, 자동차 등의 모든 기기에 프로세서가 내장되고 네트워크가 연결되어 특정한 서비스를 제공하기 위해 함께 동작하게 된다. 이러한 장치와 서비스들을 연동하기 위한 현재의 솔루션은 클라이언트-서버 방식의 분산 컴퓨팅 모델이다. 각각의 장치가 원격 프로시듀어 흑은 원격 객체의 형태로 서버를 제공하고 이들을 하나의 클라이언트가 시나리오대로 그것들을 호출함으로써 응용을 완성할 수 있다. 하지만, 이러한 분산 컴퓨팅 모델을 지원하는 프로그래밍 환경으로는 다음과 같은 한계가 있다. 첫째, 소프트웨어 배치(deployment) 문제가 발생한다. 수 많은 시나리오를 생각해 볼 수 있는 유비쿼터스 환경에서는 특정 장치를 공장에서 생산하여 출고할 때 어떤 서버 소프트웨어가 미리 설치되어야 하는지는 가늠할 수 없는 문제이다. 둘째, 성능 문제가 발생할 수 있다. 각 장치의 함수를 호출하는 것은 대부분 원격 함수(remote procedure)이므로 한번 호출하는데 상당한 자원이 소요된다. 하지만, 시나리오를 구현하기 위해서는 특정 장치의 함수를 여러 번 호출해야 되는 상황이 자주 연출된다. 이러한 상황을 피하여 성능을 향상 시키기 위해서는 각 장치에 요구되는 부문 시나리오가 한번에 호출로 처리될 수 있어야 한다. 셋째, 유지 보수 문제가 발생할 수 있다 하나의 서비스가 여러 개의 서버 프로그램과 클라이언트 프로그램으로 구성되기 때문에 한번 업그레이드를 할 때 모든 구성 요소들이 모두 버전 업이 되어야 한다. 넷째, 유비쿼터스 환경에 적합한 추상화 개념의 부재를 들 수 있다. 다양한 장치, 웹서비스 및 데이터 들이 연동되어 하나의 서비스 시나리오를 구현함에 있어서 현재의 프로그래밍 언어는 높은 수준의 추상화 개념을 제공하지 못하고 있다. 본 연구에서는 모바일 코드 기술을 프로그래밍 언어에 적용하여 유비쿼터스 환경에서의 다양한 장치들과 서비스들을 손쉽게 통합하여 애플리케이션 시나리오를 구현할 수 있는 새로운 프로그래밍 언어인 유비스크립트(ubiscript)를 제안한다. 유비스크립트에서는 모바일 코드의 개념을 통해서 앞서 언급한 유비쿼터스 컴퓨팅 환경에서의 문제점을 해결하고자 하였다. 모바일 코드에서는 프로그램 코드가 네트워크를 통해서 컴퓨터를 이동하면서 수행되는 개념인데, 이는 물리적으로 떨어져있으면서 네트워크로 연결되어 있는 다양한 컴퓨팅 장치가 서로 연동하기 위한 모델에 가장 적합하다. 이는 기본적으로 배포(deploy)라는 단계가 필요 없게 되고, 새로운 버전의 프로그램이 작성될지라도 런타임에 코드가 직접 이동하게 되므로 버전 관리의 문제도 해결된다. 게다가 원격 함수를 매번 호출하지 않고 한번 이동된 코드가 원격지에서 모두 수행을 하게 되므로 성능향상에도 도움이 된다. 장소 객체(Place Object)와 원격 스코프(Remote Scope)는 앞서 설명한 특징을 직접적으로 지원하는 언어 요소이다. 장소 객체는 모바일 코드가 이동해서 수행될 계산 환경(computational environment)에 대한 레퍼런스이다. 원격 스코프는 원격지의 컴퓨터에 존재하는 계산 환경의 스코프(scope)를 로컬 계산 환경에 적용할 수 있도록 하는 언어 요소이다. 유비쿼터스 컴퓨팅 환경에서의 장치와 서비스들을 연동하기에는 현재의 프로그래밍 모델은 배포, 유지 보수, 성능 등의 문제점을 안고 있다. 본 연구에서는 모바일 코드 개념을 도입한 새로운 프로그래밍 언어인 유비스크립트를 제안하여 이러한 문제점들을 극복하고자 하였다. 유비스크립트에서는 유비쿼터스 환경을 직접적으로 표현할 수 있도록 새로운 언어 요소인 장소 객체와 원격 스코프 개념을 도입하였고, 프로토타입과 가상의 시나리오 구현을 통하여 기존의 프로그래밍 언어보다 유비쿼터스 환경에 더 적합하고, 단순하며 생산성이 우수하다는 것을 확인하였다.

  • PDF

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

제 2언어 학습자의 한국어 리듬 실현양상 -중국인 한국어 학습자를 중심으로- (Aspects of Korean rhythm realization by second language learners: Focusing on Chinese learners of Korean)

  • 윤영숙
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.27-35
    • /
    • 2023
  • 본 연구에서는 중국인 한국어학습자들의 한국어 낭독발화에서 나타나는 리듬의 변화양상을 한국어 모국어화자와의 비교를 통해 분석하였다. 그리고 이를 통해 모국어화자와 구별되는 리듬의 물리적 속성을 고찰하여 목표어의 리듬 습득과정에서 나타나는 중국인학습자들의 발화 특성을 고찰하고자 하였다. 한국어와 중국어는 리듬 유형론적으로 다른 범주에 속한다. 일반적으로 한국어는 음절박자언어와 강세박자언어의 모습을 모두 보이는 것으로 알려져 있으며 중국어는 음절박자언어로 분류된다. 두 언어는 음절구조, 어휘강세나 모음약화 현상의 부재 등 음운론적으로 유사한 특성을 보이지만 세부적인 차이도 존재한다. 이런 맥락에서 본다면 한국어 리듬 실현에서 모국어인 중국어의 긍정적 전이와 부정적 전이가 모두 나타날 수 있을 것이다. 본 연구에서는 표준어를 구사하는 한국어 원어민화자 5명과 한국어 숙달도 고급 수준의 중국인한국어학습자 10명이 발화문을 녹음하여 분석하였다. 분석자료는 다섯 문장으로 구성된 한 단락의 담화이다. 중국인 한국어학습자들의 한국어 리듬구조를 파악하기 위해 %V, VarcoV, nPVI_V, nPVI_S값을 측정하였다. 측정결과 %V와 VarcoV의 값에서 두 그룹은 모두 음절박자언어의 특성을 보였다. 그러나 중국인학습자들은 한국화자와는 유의미한 차이로 낮은 %V와 높은 VarcoV를 보여 보다 강세박자언어에 가까운 리듬구조를 보였다. nPVI_S값에서는 유사한 면이 관찰되었으나 nPVI_V에서 두 그룹 간 유의미한 차이가 나타났다. 두 그룹에서 나타난 리듬구조의 차이는 무엇보다 모음 길이의 변동의 차이로 귀속될 수 있고 그 원인은 중국어에 존재하는 모음 위계의 차이에서 비롯되는 것으로 판단되었다. 이러한 모국어의 발화습관이 한국어 리듬구조에 영향을 미쳐 보다 강세박자언에 가까운 속성을 보이며 이로 인해 한국어 모국어 화자와 다른 청지각적 리듬 차이를 유발한다고 할 수 있다.