• 제목/요약/키워드: 언어유형론

검색결과 81건 처리시간 0.026초

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

Mask Cognition Types of Korean in the COVID19 Era using the Q Methodology

  • Cha, Su-Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권9호
    • /
    • pp.157-167
    • /
    • 2022
  • 본 연구는 마스크 착용이 필수가 된 시대를 살고 있는 20대를 대상으로 하여 마스크에 대해서 어떤 인식을 가지고 있는지를 조사하고 그 인식을 유형화하여 유형별 특성을 알아보고자 하였다. 연구에는 Q방법론을 활용하였다. 마스크에 대한 인식유형은 3개로 유형화되었다. 유형 1은 마스크를 늘 착용하며 마스크가 비언어적 커뮤니케이션과 착용자의 이미지에 영향을 미친다고 생각하는 '상시 착용 영향 중시형'이었다. 유형 2는 마스크를 세균을 막기 위해 착용하며 마스크가 부정적 영향이 크다고 생각하는 '기능 중시 부정 인식형'이었다. 유형 3은 얼굴을 가리기 위해 마스크를 착용하고 마스크 착용 시 사람이 젊어 보인다고 생각하는 '은폐 착용 긍정 이미지형'이었다. 소비자의 니즈를 반영한 다양한 디자인과 기능의 마스크 개발이 이루어져야 할 것으로 생각된다. 디자인, 맞음새, 기능 등 소비자가 중요하게 고려하는 사항에 따라 선택할 수 있도록 여러 가지 제품이 개발·판매되어야 할 것으로 생각된다.

지시사 대조연구 (A Comparative Analysis of Demonstratives: based on Korean, English, Spanish and Russian text)

  • 김명자;채숙희;조은영
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.13-24
    • /
    • 2004
  • 본 연구는 지시사가 문맥에서 이미 언급된 개체를 대용하여 지시하는 문맥지시의 경우에 각 언어별로 어떠한 지시사가 사용되며, 어떠한 언어 요인에 의해 그 선택이 이루어지는지 구문 / 의미 / 화용적 측면에서 살펴보고자 한다. 실제 언어자료를 분석해보면 대용적 용법에 있어서 영어와 서반아어에서는 근칭 / 원칭 지시사가 직시적인 용법에서의 의미를 비교적 유지하면서 고르게 분포하는 반면, 한국어와 러시아어는 좀 더 자주 사용되는 형태와 그렇지 못한 형태의 무표 / 유표적인 분포를 보인다. 이렇듯 상이한 분포양식을 보이는 지시사 대용적 용법을 선행사와의 거리, 인지상태, 심리적 거리감, 담화구조라는 측면에서 재조명하여 비교, 대조 분석함으로써 각 언어의 지시사의 유형론적 의미를 모색한다.

  • PDF

다층 형태론과 한국어 형태소 분석 모델 (Multi-level Morphology and Morphological Analysis Model for Korean)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.140-145
    • /
    • 1994
  • 형태소 분석은 단위 형태소를 분리한 후에 변형이 일어난 형태소의 원형을 복원하고, 분리된 단위 형태소들로부터 단어 형성 규칙에 맞는 연속된 형태소들을 구하는 과정이다. 이러한 일련의 분석 과정은 독립적인 특성이 강하면서 각 모듈이 서로 밀접하게 연관되어 있으므로 Two-level 모델에서는 형태론적 변형뿐만 아니라 형태소 분리 문제를 통합 규칙으로 처리하고 있다. 그러나 한국어에 Two-level 모델을 적응해 보면 형태소 분리와 형태론적 변형이 복합되어 있어서 교착어의 특성과 관계되는 단어 유형을 분석할 때 비효율적인 요소가 발견된다. 따라서 본 논문에서는 교착어인 한국어의 형태소 분석시에 발생하는 문제점들을 해결하는데 적합한 방법론으로 다층 형태론(multi-level morphology)과 다단계 모델(multi-level model)을 제안한다.

  • PDF

언어이해과정에서의 구문/의미요소 분리에 대한 ERP특성연구 (Detection of Syntactic and Semantic Anomaly in Korean Sentences: an ERP study)

  • 김충명;이경민
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.61-67
    • /
    • 2000
  • 본고는 텍스트로 제시된 한국어 문장의 형태통사론적 오류와 의미적 논항결합시 하위범주화요건을 위배하는 논항선택 오류의 인식 및 판단에 따른 ERP(Event-Related Potential)를 검출하여, 이에 대한 문장이해과정의 시간추이적 양상을 연구의 대상으로 하였다. 참여한 피험자로부터 각각의 유형에 대한 통계분석 결과, 통사적 오류 추출에서 의미적 오류 추출에 이르기까지 기존의 연구에서 제시된 오류패턴 요소들(ELAN, N400, P600)을 확인하였으며, 아울러 한국어 문장이해과정의 특이성을 관찰할 수 있었다. 이를 통해 문장묵독시 일어나는 여러 종류의 문법오류에 대한 개별적 성격규명과 함께, 이들의 문법틀 내에서의 상호관계에 대한 일련의 가설설정이 이루어질 수 있으며, 또한 문장이해 메커니즘의 신경적 기전의 특성 규명으로 부수될 인간지능 모사가능성에 생리학적 토대가 더해 질 것으로 추정되는 바, 언어이해와 대뇌기전지형을 결정짓는 또 다른 규준이 될 것이다.

  • PDF

간접증거성과 인식양상: 기능변이의 문제를 중심으로 (Indirect Evidentiality and Epistemic Modality: With Reference to Functional Variation)

  • 홍택규
    • 비교문화연구
    • /
    • 제25권
    • /
    • pp.649-678
    • /
    • 2011
  • The purpose of this work is to explain categorial correlations between indirect evidentiality and epistemic modality on the basis of semantic, pragmatic usages of Russian so-called non-specialized lexical markers of evidentiality, such as kazhetsja, naverno, vidimo, poxozhe, dolzhno byt' etc. To do this, firstly I concentrated on the parameter of internal functional variation of a given parenthetic word. Secondly, I approached this topic from a typological perspective. Thirdly, I accepted Sweeter(1990)'s methodological assumption that etymological prototype of a given word plays a great role in grammatical, semantic, pragmatic changes. As a result, I could postulate general tendencies of grammaticalizations (or semantic, pragmatic, funtional changes) in the direction from epistemic modality to indirect evidentialty, which consists of inferentives, presumptives, and quotatives. For example, such a parenthetic word as kazhetsja can functions not only as a marker of epistemic modality of uncertainty, but also as inferentives. Besides, it is very interesting that this word lately has started to function as quotatives, too. This kind of functional variations are very characteristic in these spheres.

Poly-encoder기반의 COVID-19 질의 응답 태스크 (Poly-encoder based COVID-19 Question and Answering with Task Adaptation)

  • 이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.188-191
    • /
    • 2020
  • 본 연구는 COVID-19 질의 응답 태스크를 위한 Poly-encoder 기반의 태스크를 제안하였다. COVID-19 질의 응답 시스템은 사람들에게 최신 정보에 대해 빠르고 신뢰성이 높은 정보를 전달하는 특성을 가져야한다. 검색 기반 질의 응답 시스템은 pairwise 연산을 기반으로 수행되는데, Poly-encoder는 사전 학습된 트랜스포머(transformer)기반의 pairwise 연산 방법론 중 기존 Cross-encoder와 Bi-encoder보다 실사용 및 성능이 뛰어남을 보였다 [1]. 특히, Poly-encoder는 정확도가 높으면서도 빠른 응답속도를 가지며 검색기반의 각종 태스크에서 좋은 성능을 보였다. 따라서 본 연구는 COVID-19를 위한 Poly-encoder기반의 질의 응답 태스크를 위하여 기존 질의 응답 태스크와 페르소나 기반의 질의 응답 태스크로 두 가지 유형의 태스크를 생성하여 모델을 학습하였다. 또한 신뢰성 있는 리소스정보로부터 모델에 최신 정보 반영을 위하여 자동 크롤러를 구축하여 데이터를 수집하였다. 마지막으로 전문가를 통한 데이터셋을 구축하여 질문-응답과 질의어-질문에 대한 모델 검증을 수행하였다.

  • PDF

지식증류를 활용한 지속적 한국어 개체명 인식 (Continuous Korean Named Entity Recognition Using Knowledge Distillation)

  • 장준서;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.505-509
    • /
    • 2023
  • 개체명 인식은 주어진 텍스트에서 특정 유형의 개체들을 식별하고 추출하는 작업이다. 일반적인 딥러닝 기반 개체명 인식은 사전에 개체명들을 모두 정의한 뒤 모델을 학습한다. 하지만 실제 학습 환경에서는 지속적으로 새로운 개체명이 등장할 수 있을뿐더러 기존 개체명을 학습한 데이터가 접근이 불가할 수 있다. 또한, 새로 모델을 학습하기 위해 새로운 데이터에 기존 개체명을 수동 태깅하기엔 많은 시간과 비용이 든다. 해결 방안으로 여러 방법론이 제시되었지만 새로운 개체명을 학습하는 과정에서 기존 개체명 지식에 대한 망각 현상이 나타났다. 본 논문에서는 지식증류를 활용한 지속학습이 한국어 개체명 인식에서 기존 지식에 대한 망각을 줄이고 새로운 지식을 학습하는데 효과적임을 보인다. 국립국어원에서 제공한 개체명 인식 데이터로 실험과 평가를 진행하여 성능의 우수성을 보인다.

  • PDF

자연발화상에 나타난 단음절 단일간투사의 길이특성 분석 (Analysis of the durational characteristics of monosyllabic interjections in Natural spoken language)

  • 김기호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.95-98
    • /
    • 1994
  • 자연발화상에 포함되어, 음성언어 인식에 장애를 초래하는 간투사의 음성적 특성 중 가장 뚜렷이 구별되는 길이특성얼 분석하여 음성언어 인식에 도움을 주는 것을 목적으로 한다. 이 연구에서는 간투사의 대부분을 차지하는 단음절 단일 간투사에 한정하여, 실제 대화의 녹음자료에서 나타나는 간투사의 빈도수와, 그 길이특성을 신분별, 성별, 간투사 유형별로 분석하였다. 또 간투사를 위치에 따라, 음운구초 간투사, 음운구말 간투사로 나누고, 그 길이를 음절 평균, 음운 구초 음절이나 음운구말 음절의 길이와 비교하여 간투사의 증가율을 측정하였다. 분석결과 가장 높은 빈도수를 보이는 단음절 단일 간투사는 어 이며, 간투사 길이 증가율은, 음절평균에 대해서는 그가, 음운구초 평균에 대해서는 응이 가장 큰 증가율을 나타낸다. 전체적을 음운구초 음절길이에 대한 간투사 길이 증가율이 음절평균 길이에 대한 간투사 길이 증가율보다 더 크게 나타났다. 이러한 분석결과를 통해 하위레벨에서 제거할 수 있는 간투사와, 통사적 또는 의미론적 분석이 필요한 상위레벨에서 처리해야할 간투사를 구별할 수 있다. 이와 같은 길이 특성외에 간투사에 대한 다양한 음성적 특성과, 다음절 단일 간투사와, 이중 간투사에 대한 연구가 진척된다면 음성언어 인식에 장애가 되는 간투사의 효과적 배제가 가능할 것으로 보인다.

  • PDF

통사화용의 접합면에서 본 영어 헤지표현의 유형과 기능 (Types and Functions of English Hedges at a syntax-pragmatics Interface)

  • 홍성심
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.381-388
    • /
    • 2020
  • 본 논문의 목적은 주로 사회언어학과 화용론 분야에서 연구되어 온 영어 '헤지(Hedges)' 혹은 헤지표현을 형태통사적 관점과 화용적 관점을 연관지어 논의하는 것이다. 일반적으로, '헤지표현이 없는 자연언어는 없다'는 추론이 가능한데, 그것은 어떤 자연언어에나 공손성, 혹은 화자가 청자보다 낮은 자세로 말하고자 하는 문법기제가 있음이 널리 인정되고 있기 때문이다. 헤지에 대한 기존의 이론적 연구는 주로 화용적 관점에서 헤지의 유형 분류와 화용적 기능, 그리고 출현빈도 비교 등의 수준에 그치고 있다. 즉, 헤지표현을 형태통사적 개념인 자질로 나타내려는 시도는 거의 발견되지 않는다. 언어현상으로서의 헤지는 유무에 따라, 화용부와 통사부의 접합면에서 [+hedged]와 [-hedged]로 이분지화 가능하며, 이 화용자질은 형태통사부와 상호작용 하므로 협의의 통사부에서 분리될 수 없다. 본 논문에서, 헤지는 공손성이 표현되는 화용자질로서, 그 자질이 표시되는 접합면 영역이 구조적으로 있음을 지적하였다. 즉, CP+층위가 화용자질인 헤지자질이 인코딩되는 영역임을 제안하였다. 최근에는 범언어적 관점에서 혹은 영어교육의 학술적 EFL/ESL 글쓰기, 또는 담화분석 등에 헤지 표현의 식별 여부나 용례를 연구하는 경향이 있다. 본 논문은 그동안 간과되어온 동등접속문, 병렬종속문, 부분사 구문 등을 헤지에 포함시키고, 보다 구조적이고 이분지적(±)인 방식을 제안함으로서, 제2언어습득의 이해, 글로벌 커뮤니케이션 혹은 인공지능 자연언어 알고리즘에 화용 자질을 도입할 수 있는 구조적이고 이론적인 기반을 제공하는데 그 목적이 있다.