• 제목/요약/키워드: 언어융합

검색결과 551건 처리시간 0.027초

Con-Talky: 건설 분야 전문가의 의사소통을 위한 정보 추출 및 시각화 플랫폼 (Con-Talky: Information Extraction and Visualization Platform for Communication of Construction Industry)

  • 심미단;박찬준;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.476-481
    • /
    • 2021
  • 본 논문은 용어의 비통일성과 문서의 다양성으로 인해 발생하는 건설분야 전문가들의 의사소통 문제를 해결하기 위한 Con-Talky를 제안한다. Con-Talky는 자연언어처리의 대표적인 기술인 형태소분석, 의존구문분석, 의미역 결정 기술을 융합하여 건설분야의 "설계기준문서"를 시각화하고 핵심 정보추출을 자동으로 해주는 플랫폼이다. 해당 플랫폼을 이용하여 토목분야 전문가들의 의사소통 문제를 완화시킬 수 있으며 용어의 비통일성 및 표준화에도 기여할 수 있다. 또한 본 논문은 국내 건설 및 토목분야에 최초로 자연언어처리 기술을 적용한 논문이다. 해당 분야의 연구를 활성화 하기 위해 건설분야에 특화된 단일 말뭉치와 트리플 데이터를 자체 제작함과 동시에 전면 공개하였다.

  • PDF

언어변이와 세계영어들 (Language Variation and World Englishes)

  • 김양순
    • 문화기술의 융합
    • /
    • 제7권1호
    • /
    • pp.234-239
    • /
    • 2021
  • 본 연구는 언어의 본질인 언어변이의 주된 방향성을 탐색하고 언어변이의 결과로 나타나는 영어의 모든 방언들, 즉 세계영어들을 연구하는 것이다. 특정지역에서 사용되는 지역적, 사회적 방언의 연구인 언어변이의 특성을 규명하기 위하여 하이브리드 언어변이모델을 제안한다. 사회적 거리두기, 대면과 비대면 소통모드, 그리고 언어적 다양성이라는 세 가지 상호영향자의 관점에서 하이브리드 언어변이모델을 제안하고 언어변이의 결과로 나타나는 세계적 영어방언 현상인 세계영어들의 다양성 특질을 연구한다. 세계영어들의 문맥에서 지역화 목적으로 영어가 어떻게 사용되는가를 살펴보면, 사회적 거리두기가 높은 비대면의 상황에서는 다양성이 감소하여 좀 더 표준적이며 글로벌한 영어가 사용되며 변이가 줄어 세계영어들의 확장 속도가 완만해진다. 동시에 지역적인 사용이 줄어들어 의사소통의 오류도 줄어든다. 반면 사회적 거리두기가 낮은 대면의 상황에서는 세계영어들의 확장 속도가 빨라지고 변이의 형태가 다양해지며 의사소통의 오류 또한 증가한다. 이러한 영어변이 현상의 특성을 살펴보기 위하여 세계영어들의 핵심 원이라고 할 수 있는 영국영어, 미국영어, 그리고 캐나다영어의 언어적, 사회적 변이의 사례를 비교 분석한다.

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

형태소 수준의 한국어 상호참조해결 (Korean Coreference Resolution at the Morpheme Level )

  • 조경빈;최요한;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-333
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

  • PDF

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

Multi-level Attention Fusion을 이용한 기계독해 (Multi-level Attention Fusion Network for Machine Reading Comprehension)

  • 박광현;나승훈;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-262
    • /
    • 2018
  • 기계독해의 목표는 기계가 주어진 문맥을 이해하고 문맥에 대한 질문에 대답할 수 있도록 하는 것이다. 본 논문에서는 Multi-level Attention에 정보를 효율적으로 융합 수 있는 Fusion 함수를 결합하고, Answer module에Stochastic multi-step answer를 적용하여 SQuAD dev 데이터 셋에서 EM=78.63%, F1=86.36%의 성능을 보였다.

  • PDF

u-GIS 컨텐츠를 위한 ugcML 언어의 설계 (Design of ugcML for u-GIS contents)

  • 박장유;하태석;남광우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2008년도 공동추계학술대회
    • /
    • pp.309-312
    • /
    • 2008
  • 공간 정보 기술과 컴퓨팅 기술의 발전에 따라 사용자에게 제공되는 공간 정보 컨텐츠는 날로 다양해지고 있다. 본 논문은 u-GIS의 웹2.0 및 유비퀴토스 환경을 기반으로 하는 다양한 정보를 다양한 단말 플랫폼에서 개인 맞춤형 정보를 표출 및 활용할 수 있는 컨텐츠를 지원하기 위한 마크업 언어인 ugcML의 컨텐츠 모델과 스키마를 설계하고 있다. 제안된 ugcML 컨텐츠 모델은 KML과 유사한 다양한 지리 정보, 위치 정보, 사진 정보등의 각각의 정보를 융합하여 표현할 수 있는 장점을 갖는다.

  • PDF

언어 변화와 언어 처리 - '는게/는데' 문법 화와 자동 태깅 시스템- (The Language Change and Language Processing)

  • 최운호
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.35-43
    • /
    • 1999
  • 본 논문에서는 현대 한국어에서 나타나는 언어 변화 현상에 대한 설명과 그러한 언어 현상이 언어 처리 시스템에 미칠 수 있는 영향을 연구한다. 현대 한국어에서는〔관형형 어미 + 의존 명사 + (조사)〕와 같은 통사론적 구성이 형태론적 구성으로 변화되는 과정이 나타나고 있으며 몇몇 형태에서는 문자 언어 생활에서도 두드러지게 나타나고 있다. 이러한 예로 통사론적 구성〔관형형 어미 + 의존명사‘데’(+조사)〕이‘-는데’로,〔관형형 어미 + 의존명사‘것’+ 조사〕구성이‘-는게’로 나타나고 있으며, 음성 언어 생활에서는 더욱 두드러지고 있어서 다른 어미와 구별하기 어렵다. 이와 같은 유형의 형태는 다른 접속 문 어미나 내포문 어미처럼 복합문 구성에 관여하는 것으로 파악할 수 있는데, 다른 어미와는 달리 이 형태 자체에 문법적인 격 기능이 융합되어 있다. 따라서, 이러한 형태에 대한 분석 방법은 언어 처리 시스템의 구성에 영향을 미칠 수 있으며, 자동 태깅 시스템. 통사 분석 시스템 등에는 특히 그러하다. 그러므로, 언어 처리 시스템의 설계에 이러한 언어 변화 현상이 반영될 필요가 있다.

  • PDF

'데페이즈망(Dépaysement)'을 통해 본 회화의 시각적 아이러니(Irony)연구 (A Study of the Visual Irony of a Painting Using 'Dépaysement')

  • 문지혜
    • 한국융합학회논문지
    • /
    • 제11권4호
    • /
    • pp.165-172
    • /
    • 2020
  • 본 연구의 목적은 '아이러니(Irony)'의 특성과 이를 시각화 하는 과정들을 중점적으로 연구한다. '아이러니'의 수사법을 사용하는 방식은 미술작품에서 시각효과를 통해 시각언어를 드러내는 방식과 일치하는 지점이 있다. '아이러니'의 수사법과 유사한 방식으로 미술사에서 등장하는 '데페이즈망(Dépaysement)'을 예로 들 수 있다. '데페이즈망'은 여러 가지 혼용된 기법으로 '낯설게 하기'의 수사법을 통해 메시지를 전달하게 된다. 서로 반대되는 논리를 지닌 이미지들을 한 화면에 동시에 구성하여 '시각적 아이러니'를 구사한다. 반대되거나 모순되는 이미지들로 상황들을 연출하고, 이미 알고 있는 방식과는 다른 방식으로 비꼬아 이미지와 상황을 모호하게 만들어 나가는 공통적 특징을 지닌다. 결론적으로 '아이러니'의 특성과 '데페이즈망'의 특성은 일치하며, '시각적 아이러니'의 분석을 통해 시각언어를 이해한다.