• 제목/요약/키워드: Language convergence

검색결과 789건 처리시간 0.027초

발화 의도 예측 및 슬롯 채우기 복합 처리를 위한 한국어 데이터셋 개발 (Development of Korean dataset for joint intent classification and slot filling)

  • 한승규;임희석
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.57-63
    • /
    • 2021
  • 사람의 발화 내용을 이해하도록 하는 언어 인식 시스템은 주로 영어로 연구되어 왔다. 본 논문에서는 시스템과 사용자의 대화 내용을 수집한 말뭉치를 바탕으로 언어 인식 시스템을 훈련시키고 평가할 때 사용할 수 있는 한국어 데이터셋을 개발하고, 관련 통계를 제시한다. 본 데이터셋은 식당 예약이라는 고정된 주제 안에서 사용자의 발화 의도와 슬롯 채우기를 해야 하는 데이터셋이다. 본 데이터셋은 6857개의 한국어 문장으로 이루어져 있으며, 표기된 단어 슬롯의 종류는 총 7개이다. 본 데이터셋에서 표기된 발화의 종류는 총 5개이며, 문장의 발화 내용에 따라 최대 2개까지 동시에 기입되어 있다. 영어권에서 연구된 모델을 본 데이터셋에 적용시켜 본 결과, 발화 의도 추측 정확도는 조금 하락하였고, 슬롯 채우기 F1 점수는 크게 차이나는 모습을 보였다.

CNN기반의 온라인 수어통역 상담 시스템에 관한 연구 (CNN-based Online Sign Language Translation Counseling System)

  • 박원철;박구락
    • 융합정보논문지
    • /
    • 제11권5호
    • /
    • pp.17-22
    • /
    • 2021
  • 청각장애인들은 수어통역 없이 상담서비스를 이용하기에는 어려움이 있다. 수어 통역사 인력이 많이 부족하여 수어 통역사까지 상담이 연결되는데 많은 시간이 걸리거나 연결이 되지 않는 경우가 많이 발생하고 있다. 이에 본 논문에서는 OpenCV와 CNN(Convolutional Neural Network)을 이용하여 수어를 영상으로 촬영하고 수어 동작을 인식하여 수어가 뜻하는 의미를 텍스트 형태의 데이터로 변환하여 사용자에게 제공하는 시스템을 제안한다. 상담사는 저장된 수어번역 상담내용을 열람하여 상담을 진행할 수 있다. 전문 수어 통역사가 없어도 상담이 가능하여 수어 통역사를 기다려야 하는 부담을 줄일 수 있다. 제안 시스템을 청각장애인 상담서비스에 적용할 경우 상담 효과의 향상과 향후 청각장애인 상담에 관한 학문적 연구를 촉진하는 계기가 될 것으로 기대된다.

Improving Elasticsearch for Chinese, Japanese, and Korean Text Search through Language Detector

  • Kim, Ki-Ju;Cho, Young-Bok
    • Journal of information and communication convergence engineering
    • /
    • 제18권1호
    • /
    • pp.33-38
    • /
    • 2020
  • Elasticsearch is an open source search and analytics engine that can search petabytes of data in near real time. It is designed as a distributed system horizontally scalable and highly available. It provides RESTful APIs, thereby making it programming-language agnostic. Full text search of multilingual text requires language-specific analyzers and field mappings appropriate for indexing and searching multilingual text. Additionally, a language detector can be used in conjunction with the analyzers to improve the multilingual text search. Elasticsearch provides more than 40 language analysis plugins that can process text and extract language-specific tokens and language detector plugins that can determine the language of the given text. This study investigates three different approaches to index and search Chinese, Japanese, and Korean (CJK) text (single analyzer, multi-fields, and language detector-based), and identifies the advantages of the language detector-based approach compared to the other two.

한국어교육에서의 형태초점교수법 연구: 비판적 검토 (Research on Form-focused Instruction in Korean Language Education: A Critical Review)

  • 최선희;김대희
    • 한국융합학회논문지
    • /
    • 제8권2호
    • /
    • pp.269-276
    • /
    • 2017
  • 본 연구의 목적은 한국어 교육에서의 형태초점교수법의 효과를 검증하기 위하여 지금까지 행해진 실증적 연구를 비판적 시각으로 검토하는 것이다. 이 목적을 달성하기 위해 다수의 논문 데이터베이스를 검색하여 총 66개의 논문을 찾았으며, 이중 실증적 자료를 제시한 12개의 논문을 연구대상으로 채택하였다. 채택된 논문들을 연구 참여자, 목표 문법, 처치, 측정, 효과성을 기준으로 분석하였다. 전반적으로 형태초점교수법에 속하는 다양한 교수 전략들은 한국어를 제2언어로 가르치는데 효과가 있는 것으로 나타났다. 본 연구의 결과는 형태초점 교수법에 영향을 미치는 요인을 파악하는 데 필요한 체계를 제공할 것이며, 또한 선행 연구의 메타 분석에 필요한 정보를 제공할 것이다.

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

오픈 소스 기반의 거대 언어 모델 연구 동향: 서베이 (A Survey on Open Source based Large Language Models)

  • 주하영;오현택;양진홍
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.193-202
    • /
    • 2023
  • 최근 대규모 데이터 세트로 학습된 거대 언어 모델들의 뛰어난 성능이 공개되면서 큰 화제가 되고 있다. 하지만 거대 언어 모델을 학습하고 활용하기 위해서는 초대용량의 컴퓨팅 및 메모리 자원이 필요하므로, 대부분의 연구는 빅테크 기업들을 중심으로 폐쇄적인 환경에서 진행되고 있었다. 하지만, Meta의 거대 언어 모델 LLaMA가 공개되면서 거대 언어 모델 연구들은 기존의 폐쇄적인 환경에서 벗어나 오픈 소스화되었고, 관련 생태계가 급격히 확장되어 가고 있다. 이러한 배경하에 사전 학습된 거대 언어 모델을 추가 학습시켜 특정 작업에 특화되거나 가벼우면서도 성능이 뛰어난 모델들이 활발히 공유되고 있다. 한편, 사전 학습된 거대 언어 모델의 학습데이터는 영어가 큰 비중을 차지하기 때문에 한국어의 성능이 비교적 떨어지며, 이러한 한계를 극복하기 위해 한국어 데이터로 추가 학습을 시키는 한국어 특화 언어 모델 연구들이 이루어지고 있다. 본 논문에서는 오픈 소스 기반의 거대 언어 모델의 생태계 동향을 파악하고 영어 및 한국어 특화 거대 언어 모델에 관한 연구를 소개하며, 거대 언어 모델의 활용 방안과 한계점을 파악한다.

키넥트의 모션 인식 기능을 이용한 수화번역 시스템 개발 (Development of Sign Language Translation System using Motion Recognition of Kinect)

  • 이현석;김승필;정완영
    • 융합신호처리학회논문지
    • /
    • 제14권4호
    • /
    • pp.235-242
    • /
    • 2013
  • 청각, 언어장애인과 수화를 모르는 일반인과의 대화를 위해, 키넥트를 이용한 모션 인식을 통해 수화를 번역하여 주는 시스템을 개발하였다. 키넥트의 주요기능을 이용하여 수화를 번역하는 알고리즘들을 설계하고, 다양한 수화자에 대한 수화번역의 정확도를 높이기 위한 방법으로서 길이정규화와 팔꿈치정규화의 두 가지 정규화 방법을 사용하였다. 그리고 이러한 정규화 방법이 효과적인지 알아보기 위해서 실제 수화데이터를 차트로 비교하였다. 또한 10개의 데이터베이스를 입력하여 간단한 수화부터 복잡한 수화까지 직접 실시하고, 이를 키넥트로 인식하여 번역을 해봄으로서 프로그램의 정확도를 검증하였다. 추가적으로 다양한 체형의 수화자를 인식시켜 프로그램을 실행 시켜봄으로서 체형에 따른 오차 값의 보완을 완료하여 수화번역에 대한 신뢰도를 높였다.

DirectX 기반의 KSL 실행 플랫폼의 개발과 구현 (A Study on The Korean Sign Language platform base on DirectX)

  • 구자효;류윤규
    • 한국정보컨버전스학회논문지
    • /
    • 제1권1호
    • /
    • pp.25-32
    • /
    • 2008
  • 오늘날 디지털 기술과 멀티미디어 영상기법이 발전함에 따라 양질의 영상정보를 획득하기 쉽고 보다 사실적이고 직관적인 정보표현이 가능하여 시각적 욕구를 충족시켜왔다. 대중매체에서 애니메이션 캐릭터를 사용한 영상매체 활용이 지속적으로 늘어나고 있다. 이러한 애니메이션 캐릭터의 표현은 그래픽 기술의 발전으로 입체적이며, 사실적이고 부드러운 연출이 가능해졌다. 일반적으로 다양한 데이터 입력 장치를 이용하여 캐릭터의 섬세한 머리카락의 움직임까지도 표현할 수 있지만, 장애인들과 관련된 멀티미디어의 기술에 대한 연구는 매우 미흡하다. 본 논문에서는 MFC를 이용하여 DirectX 기반의 Korean Sign Language(KSL) 실행 플랫을 연구하였다.

  • PDF

PRAAT 소프트웨어: 교사 목소리 분석을 위한 맞춤법 상호작용 도구 (PRAAT Software: A Spech Interaction Tool to Analyze Teacher Voices)

  • 엘라 키드
    • 융합정보논문지
    • /
    • 제9권9호
    • /
    • pp.158-165
    • /
    • 2019
  • 본 논문은 음성 소프트웨어 기술의 사용을 통해 영어의 내부 영역 내에서 음성 상호 작용의 영향을 검토한다. 기본주파수(F0)는 국적, 연령, 성별을 기준으로 원어민(연령 30-55세) 음성 효과를 분석해 얻었다. 이 연구에서 밝혀진 바에 따르면, 백인 영국 여성(33세)과 백인 미국인 남성(55세)이 가장 많은 대화형 연설을 했다는 것이다. 기여 요인은 학생들이 언어 습득 연구를 통해 다양한 언어 스타일을 경험한 것이다. 이 연구의 결과는 평균 이상의 연속적인 말이 학생의 참여와 상호작용에 가장 중요하다는 데 동의한 $Traunm{\ddot{u}}eller$ & Eriksson(1995) 및 이전 연구와 양립할 수 있다.

문화융합시대의 미디어 리터러시 활성화를 위한 국어교재 연구 (Research on Korean Language Textbooks to Activate Media Literacy for the Era of Cultural Convergence)

  • 임지원
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권7호
    • /
    • pp.389-395
    • /
    • 2020
  • 본 연구는 문화융합시대를 맞이하여 올바른 미디어 리터러시 활성화를 위해 일반화된 인지환경을 기반으로 한 미디어언어 속 서사적 의미를 긍정적으로 해석할 수 있는 전략을 국어학습자의 교재 내용에 도입을 제안한 논의라 할 수 있다. 특히 문화 해석과 관련된 창조성이 가장 강화되어있는 광고콘텐츠를 활용하여 그 시대의 정보적 현시성을 파악하고 관련성을 가진 의미해석을 재생산하고자 유도하였다. 또한 인지적 해석이 가능했던 국어학습자의 작문 재생산 과정에서 논증적 글쓰기 전략을 활용하고자 했다. 공익광고 콘텐츠 개발자의 의도는 항상 사회문화적인 측면에서 긍정적인 효과를 기대하며 학습자는 그 효과를 통해 성찰과 올바른 미래를 꿈꾸게 된다. 필자가 의도한 문화융합시대의 미디어 리터러시 활성화 연구는 아직 많은 논의가 이루지고 있지 않고 있다. 본 연구의 제안적 논의가 많은 국어학습자를 위한 교재 내용의 대중매체언어 교육에 적극 활용되길 바라며 양적인 분석 내용을 담지 못한 부분을 아쉽게 생각하고 후속 논문에 그 성과를 기대한다.