• Title/Summary/Keyword: 사전 기반 모델

Search Result 856, Processing Time 0.037 seconds

A Docker-based Evaluation Program for Model Inference Performance on Heterogeneous Edge Environments (Docker 기반 이기종 엣지 환경에서의 모델 추론 성능 측정 프로그램 구현 및 평가)

  • Kim, Seong-Woo;Kim, Eun-ji;Lee, Jong-Ryul;Moon, Yong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.420-423
    • /
    • 2022
  • 최근 딥러닝 기술이 모바일 기기에 활발히 적용됨에 따라 다양한 엣지 디바이스에서 신경망 모델의 추론 성능을 측정하는 것이 중요해지고 있다. 하지만 디바이스 별 환경 구성과 런타임별 모델 변환 방식이 다르기 때문에 이를 실제로 수행하는 것은 많은 시간을 필요로 한다. 따라서 본 논문에서는 이기종 환경을 고려하여 추론 성능을 측정할 수 있는 Docker 기반의 프로그램을 구현하였고, 이를 이용하여 다양한 엣지 디바이스에서 최신 모델들의 추론 성능을 측정하였다. 또한, 본 프로그램으로 확보 가능한 추론시간 데이터 기반 추론 성능 예측 연구의 사전 연구로서, 대표적 경량모델인 MobilenetV1 에 대한 연산자별 프로파일링을 수행하여 추론시간의 변화 양상을 관찰하였다.

Context-aware and controllable natural language generation model for task-oriented dialogue systems (목적 지향 대화 시스템을 위한 문맥 기반의 제어 가능한 자연어 생성 모델 )

  • Jina Ham;Jaewon Kim;Dongil Yang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.71-76
    • /
    • 2022
  • 목적 지향 대화 시스템은 사용자가 원하는 목적을 달성하기 위해 사용하는 시스템으로 일상 대화와 다르게 시스템이 정보를 명확히 전달하는 것이 중요하다. 따라서 최근 연구에서 목적 지향 대화 시스템을 위한 자연어 생성 모델은 정해진 대화 정책에 따라 알맞은 응답을 생성할 수 있도록 의도와 슬롯 정보를 담은 대화 행위(Dialog Act)를 활용한다. 하지만 대화 행위는 생성하는 문장을 탁월하게 제어하는 반면에 대화의 흐름과 상황에 맞게 다양한 문장을 생성하기 어렵다는 문제점을 가지고 있다. 이러한 문제점을 해소하고자 본 논문에서는 목적에 부합하는 내용을 명확하게 자연어로 생성하기 위해 대화 행위를 사용하면서 동시에 일상 대화 생성 모델과 같이 문맥을 고려하여 대화 흐름에 어울리는 자연스러운 문장을 생성할 수 있는 문맥 기반의 제어 가능한 자연어 생성 모델을 제안한다. 실험에서는 KoGPT2 사전 학습 모델과 한국어 대화 데이터셋을 사용하였으며 실험을 통해 대화 행위 기반의 자연어 생성 모델과 본 연구에서 제안한 문맥 기반의 제어 가능한 자연어 생성 모델을 비교하였다. 결과적으로 대화 행위를 단독으로 학습한 모델보다 일정 문맥을 함께 학습한 모델이 유의미한 BLEU 점수 향상을 보인다는 점을 확인하였다.

  • PDF

A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer (가변어휘 음성인식기 구현에 관한 연구)

  • 황병한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

Face Super-Resolution using Adversarial Distillation of Multi-Scale Facial Region Dictionary (다중 스케일 얼굴 영역 딕셔너리의 적대적 증류를 이용한 얼굴 초해상화)

  • Jo, Byungho;Park, In Kyu;Hong, Sungeun
    • Journal of Broadcast Engineering
    • /
    • v.26 no.5
    • /
    • pp.608-620
    • /
    • 2021
  • Recent deep learning-based face super-resolution (FSR) works showed significant performances by utilizing facial prior knowledge such as facial landmark and dictionary that reflects structural or semantic characteristics of the human face. However, most of these methods require additional processing time and memory. To solve this issue, this paper propose an efficient FSR models using knowledge distillation techniques. The intermediate features of teacher network which contains dictionary information based on major face regions are transferred to the student through adversarial multi-scale features distillation. Experimental results show that the proposed model is superior to other SR methods, and its effectiveness compare to teacher model.

Development of SVR model for Visibility Forecasting by using Feature Selection based on Genetic Algorithm (유전 알고리즘 기반의 특징선택을 이용한 SVR 모델의 시정 예측 모델 개발)

  • Lim, Sung-Joon;Ahn, Kwang-Deuk;Ha, Jong-Chul;Lim, Eun-Ha;Lee, Yong Hee;Oh, Sung-Kwun
    • Proceedings of the KIEE Conference
    • /
    • 2015.07a
    • /
    • pp.1353-1354
    • /
    • 2015
  • 본 연구에서는 관측자료 기반의 안개 예보를 수행하기 위해 특징선택을 이용한 SVR 회귀분석 기반 시정 예측 가이던스를 개발하였다. 예측에 필요인자를 사전에 선택하는 유전알고리즘 기반의 최적화 방법을 적용하여, 관측된 여러 기상인자의 입력인자 중 실제 시정을 예측하기 위한 입력인자를 선택하여 준다. 지점별 안개발생에 필요한 입력인자 및 예측 모델을 구성하여 통합적인 예측 모델이 아닌 각 지점에 최적화된 정보를 제공할 수 있도록 예측을 수행한다. 자료의 수집 특성상 3시간 간격으로 3시간 예보를 위한 시정을 예측하고, 예측 모델의 검증을 위해 현업의 수치모델 기반의 시정예측 정보와의 비교를 통해 실제 안개 시점에 대해 비교 분석하였고 그 결과를 통해 긍정적인 효과를 보였다. 예측모델을 적용하여 지도에 예측시정 정보를 제공하는 표출 시스템을 통해 실시간 가이던스를 제공하고자 연구를 수행하였다.

  • PDF

A Korean to English Dialogue Machine Translation System ($\Rightarrow$영 대화체 기계번역 시스템)

  • 서정연
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.65-70
    • /
    • 1994
  • 대화체는 문어체와는 달리 생략과 대용현상이 빈번히 발생하고, 문장의 표면적 의미외에 화자가 전달하고자 하는 의도를 내포하고 있다. 그러므로 대화체 번역은 언어적 분석에 의한 단순한 번역이 아닌, 이해에 기반한 번역이어야 한다. 본 논문에서는 대화의 상황을 모델링한 대화모델을 이용하여 이해에 기반한 대화체 기계번역을 시도하였다. 또한 대화체 기계번역이 자동통역 등에 응용된다고 할 때, 실시간 번역과 불완전한 입력과 같은 예외 상황에 대한 적절한 대응이 보장되어야 한다. 이러한 점을 반영하기 위하여 지식기반 모델과 확률 기반 모델을 결합한 해석, 생성 시스템을 구현하여 효율성과 견고성을 갖춘 이해에 기반한 대화체 기계번역 시스템을 연구하고자 한다. 이 연구는 한국통신으로부터 지원을 받아서 수행하고 있는 과제로써 현재 3000단어 수준의 실제 대화를 대상으로 한->영 대화 번역에 대해 실험을 하고 있으며, 시스템의 확장성을 고려한 지식 베이스-사전, 문법 등-를 구축하였다.

  • PDF

Variable Vocabulary Word Recognizer using Phonetic Knowledge-based Allophone Model (음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기)

  • Kim, Hoi-Rin;Lee, Hang-Seop
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.2
    • /
    • pp.31-35
    • /
    • 1997
  • In this paper, we propose a variable vocabulary word recognizer that is able to recognize new words not exist in training data. For the variable vocabulary word recognizer, we must have an on-line lexicon generator to transform new candidate words to the corresponding pronunciation sequences of phones without any large lexicon table. And, we also must make outputs. In order to model the phones and allophones reliably, we define Korean allophones by triphone clustering based on phonetic knowledge of preceding and succeeding phones of each phone. Using the clustering method, we generated 1,548 allophones with POW (Phonetically Optimized Words) 3,848 word DB. We evaluated the proposed word recognizer with POW 3,848 DB, PBW (Phonetically Balanced Words) 445 DB, and 244 word DB in hotel reservation task. Experimental results showed word recognition accuracy of 79.6% for the POW DB corresponding to vocabulary-dependent case, 79.4% in case of 445 word lexicon and 88.9% in case of 100 word lexicon for the PBW DB, and 71.4% for the hotel reservation DB corresponding to vocabulary-independent case.

  • PDF

A Survey on Open Source based Large Language Models (오픈 소스 기반의 거대 언어 모델 연구 동향: 서베이)

  • Ha-Young Joo;Hyeontaek Oh;Jinhong Yang
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.16 no.4
    • /
    • pp.193-202
    • /
    • 2023
  • In recent years, the outstanding performance of large language models (LLMs) trained on extensive datasets has become a hot topic. Since studies on LLMs are available on open-source approaches, the ecosystem is expanding rapidly. Models that are task-specific, lightweight, and high-performing are being actively disseminated using additional training techniques using pre-trained LLMs as foundation models. On the other hand, the performance of LLMs for Korean is subpar because English comprises a significant proportion of the training dataset of existing LLMs. Therefore, research is being carried out on Korean-specific LLMs that allow for further learning with Korean language data. This paper identifies trends of open source based LLMs and introduces research on Korean specific large language models; moreover, the applications and limitations of large language models are described.

A Homonym Disambiguation System Based on Statistical Model Using Sense Category and Distance Weights (의미범주 및 거리 가중치를 고려한 통계기반 동형이의어 분별 시스템)

  • Kim, Jun-Su;Kim, Chang-Hwan;Lee, Wang-Woo;Lee, Soo-Dong;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.487-493
    • /
    • 2001
  • 본 논문에서는 Bayes 정리를 적용한 통계기반 동형이의어 분별 시스템에 대한 외부실험 결과를 분석하여, 정확률 향상을 위한 의미범주 가중치 및 인접 어절에 대한 거리 가중치 모델을 제시한다. 의미 분별된 사전 뜻풀이말 코퍼스(120만 어절)에서 구축된 의미정보를 이용한 통계기반 동형이의어 분별 시스템을 사전 뜻풀이말 문장에 출현하는 동형이의어 의미 분별에 적용한 결과 상위 고빈도 200개의 동형이의어에 대해 평균 98.32% 정확률을 보였다. 내부 실험에 사용된 200개의 동형이의어 중 49개(체언 31개, 용언 18개)를 선별하여 이들 동형이의어를 포함하고 있는 50,703개의 문장을 세종계획 품사 부착 코퍼스(350만 어절)에서 추출하여 외부 실험을 하였다. 분별하고자 하는 동형이의어의 앞/뒤 5어절에 대해 의미범주 및 거리 가중치를 부여한 실험 결과 기존 통계기반 분별 모델 보다 2.93% 정확률이 향상되었다.

  • PDF

Data Augmentation for Generating Counter Narratives against Hate Speech (혐오 표현에 대한 대응 발화 생성을 위한 데이터 증강 기법)

  • Seungyoon Lee;Suhyune Son;Dahyun Jung;Chanjun Park;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.10-15
    • /
    • 2022
  • 온라인상에서 발생하는 혐오 표현은 사회가 직면한 주요 문제 중 하나이다. 이러한 필요성에 입각해, 최근 인공지능을 활용하여 발화에 대한 교화 목적을 가진 대응 발화 쌍을 통해 혐오 표현에 대한 실질적인 완화를 진행하는 연구들이 생겨나고 있다. 그러나 각 혐오 표현에 적합한 대응 발화의 구축은 다수의 전문 인력이 요구되므로 데이터를 구축함에 있어 시간과 비용이 많이 소요되며 대응 발화 생성 또한 어려운 문제로 여겨진다. 해당 문제를 완화하기위해, 본 논문은 사전에 기 구축되어 있는 혐오 표현 데이터를 기반으로 의미 기반 검색을 적용하여 자동으로 데이터를 증강할 수 있는 쉽고 빠른 데이터 증강 방법론을 제안한다. 제안하는 프로세스의 타당성과 증강된 문장의 효과를 검증하기 위해 사전학습 모델을 기반으로 비교 실험을 진행하였다. 실험 결과, 제안하는 프로세스를 적용하였을 시, 그렇지 않은 모델 대비 높은 폭의 성능 향상을 보였다.

  • PDF