Search | Korea Science

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.197-202
- /
- 2019
토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.
PDF

A Study on NOS Model System for The Construction Work Planing and Management (건설 시공 계획 및 관리 업무의 적용을 위한 NOS 모델 구축 연구)

Choi, Jaejin;Park, Hongtae
- Journal of the Society of Disaster Information
- /
- v.12 no.1
- /
- pp.10-18
- /
- 2016
This study presented a new NOS model through the following suggestions to apply the construction work planing and management to NOS(Network Operating System). First, This study presented CIMS(construction information classification system) reflected the characteristics of facility classification - functional component classification - functional component classification - work classification - resource classification. Based on this system. this study presented how to establish PMMB(performance measurement management baseline) with proposed master target equation which analyzed the trend of performance measurement management baseline and proposed work target equation which analyzed the execution results. Finally, this study presented NOS model that can be applied to fixed price method and cost plus fee method through the theoretical verification of executive performance analysis method.
https://doi.org/10.15683/kosdi.2016.3.31.10 인용 PDF KSCI

Mechanical Properties Prediction by Geometric Modeling of Plain Weave Composites (평직 복합재료의 기하학적 모델링을 통한 기계적 물성 예측)

Kim, Myung-jun;Park, Jung-Sun
- Journal of the Korean Society for Aeronautical & Space Sciences
- /
- v.44 no.11
- /
- pp.941-948
- /
- 2016
Textile composite materials have been widely applied in aerospace structures due to their various advantages such as high specific stiffnesses and strengths, better out-of-plane performances, impact and delamination resistances, and net shape fabrications. In this paper, a modified geometric model of repeating unit cell (RUC) is suggested based on the Naik's model for 2D plain weave textile composites. The RUC geometry is defined by various parameters. The proposed model considers another parameter which is a gap length between adjacent yarns. The effective stiffnesses are predicted by using the yarn slicing technique and stress averaging technique based on iso-strain assumption. And the stiffnesses of RUC are evaluated by adjusting the gap ratio and verified by comparing with Naik's model and experimental data for 2D plain weave composite specimens.
https://doi.org/10.5139/JKSAS.2016.44.11.941 인용 PDF KSCI

An R-lambda Model based Rate Control Scheme to Support Parallel GOP Coding for Real-Time HEVC Software Encoders (HEVC 실시간 소프트웨어 인코더를 위한 GOP 병렬 부호화를 지원하는 R-lambda 모델 기반의 율 제어 방법)

Kim, Dae Eun;Chang, Yongjun;Kim, Munchurl;Lim, Woong;Kim, Huiyong;Seok, Jinwuk
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2016.11a
- /
- pp.107-109
- /
- 2016
본 논문에서는 4K UHD 입력 영상을 실시간으로 부호화하기 위해 적용되는 GOP 단위 또는 IDR 주기 단위의 병렬 부호화 구조를 지원하도록 R-${\lambda}$ 모델 기반의 율 제어 방법을 개선하는 비트 분배(bit allocation) 방법을 제안한다. GOP 단위 또는 IDR 주기 단위의 병렬 부호화기 내에서 율 제어기를 작동시키는 경우, 계층적 B 구조에서 같은 계층에 있는 프레임 간에는 상호간에 얼마만큼의 비트를 소모 하였는지에 대한 정보를 공유 할 수 없기 때문에 기존의 비트 분배 방식으로는 비트 예산(bit budget) 관리가 불가능하다. 이를 해결하기 위해 본 논문에서는, 기존의 R-${\lambda}$ 모델 기반 율 제어 방법을 개선하여 부호화 순서에 의한 시간 순서 방향의 비트 예산 갱신 기반 비트 분배하던 방식으로부터, GOP 마다 비트를 할당한 후 계층적 B 구조에서의 계층이 깊어지는 방향으로 비트 예산을 갱신하여 비트를 분배하는 방식으로 율 배분 방식을 개선하였다. 실험 결과를 통해 R-${\lambda}$ 모델 기반 율 제어의 기존 비트 분배 방식보다 제안 방법에 의한 목표 비트 율 달성 오차가 감소함을 확인하였다.
PDF

Korean Morphological Analysis Method Based on BERT-Fused Transformer Model (BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법)

Lee, Changjae;Ra, Dongyul
- KIPS Transactions on Software and Data Engineering
- /
- v.11 no.4
- /
- pp.169-178
- /
- 2022
Morphemes are most primitive units in a language that lose their original meaning when segmented into smaller parts. In Korean, a sentence is a sequence of eojeols (words) separated by spaces. Each eojeol comprises one or more morphemes. Korean morphological analysis (KMA) is to divide eojeols in a given Korean sentence into morpheme units. It also includes assigning appropriate part-of-speech(POS) tags to the resulting morphemes. KMA is one of the most important tasks in Korean natural language processing (NLP). Improving the performance of KMA is closely related to increasing performance of Korean NLP tasks. Recent research on KMA has begun to adopt the approach of machine translation (MT) models. MT is to convert a sequence (sentence) of units of one domain into a sequence (sentence) of units of another domain. Neural machine translation (NMT) stands for the approaches of MT that exploit neural network models. From a perspective of MT, KMA is to transform an input sequence of units belonging to the eojeol domain into a sequence of units in the morpheme domain. In this paper, we propose a deep learning model for KMA. The backbone of our model is based on the BERT-fused model which was shown to achieve high performance on NMT. The BERT-fused model utilizes Transformer, a representative model employed by NMT, and BERT which is a language representation model that has enabled a significant advance in NLP. The experimental results show that our model achieves 98.24 F1-Score.
https://doi.org/10.3745/KTSDE.2022.11.4.169 인용 PDF KSCI

A Study on Continuous Digits Speech Recognition using Probabilistic Models (확률적 모델을 이용한 연속 숫자음 인식에 관한 연구)

Lee Ju-Sung;Lee Seong-Kwon;Kim Soon-Hyob
- Proceedings of the Acoustical Society of Korea Conference
- /
- autumn
- /
- pp.109-112
- /
- 1999
본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 한국어 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 연속 숫자음의 인식을 위하여 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고, 음절 단위로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 숫자음의 알 뒤 연음현상을 고려하여 작성한 21 종류의 7자리 숫자음과 이를 음절 단위로 세그먼트한 숫자음을 DB로 사용하여 적응화를 수행하였다. 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다.
PDF

A Transition based Joint Model for Korean Morpheme Segmentation and POS Tagging Using Deep Learning (딥러닝을 이용한 전이 기반 한국어 형태소 분석 및 품사 태깅)

Min, Jin-Woo;Na, Seung-Hoon;Kim, Young-Kil
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.305-308
- /
- 2017
한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 맞는 알맞은 품사를 결정하는 것은 매우 중요하다. 형태소의 품사를 태깅하는 대표적인 방법은 크게 음절 단위 형태소 분석과 단어 단위 형태소 분석의 두 가지로 나눌 수 있다. 본 논문에서는 의존 파싱 분야에서 널리 활용되고 있는 전이 기반 방식을 적용하여 전이 기반 단어 단위 한국어 형태소 분석 모델을 제안하고 해당 모델을 한국어 형태소 분석 데이터인 세종 품사 부착 말뭉치 셋에 적용하여 F1 97.77 %로 기존의 성능을 더욱 향상시켰다.
PDF

Development of Continuous Spoken Digit Recognition System using Statistical Model (통계적 모델에 의한 연속 숫자음의 인식 기술개발)

Lee, G.S.;Ann, T.O.;Kim, S.H.
- Annual Conference on Human and Language Technology
- /
- 1989.10a
- /
- pp.154-158
- /
- 1989
본 연구는 통제적 모델에 의한 연속 숫자음의 인식에 관한 것으로 4 연속 숫자음을 인식 대상으로하여 실험한다. 시스템은 크게 음향 음성 처리부 및 어휘 해석부 두 부분으로 나뉜다. 음향 음성 처리부에서는 입력 음성으로부터 특정 벡터인 12차의 LPC cepstrum 계수를 구하여, 프레임 레이블링과 소음소 레이블링 (phone labelling)을 한다. 프레임 레이블링인 베이스 분류법을 이용하였으며, 소음소 레이블링은 프레임 레이블과 사후확률 (posteriori probability)로 부터 이루어 졌다. 어휘 해석부분에서는 소음소 단위를 입력으로 받아 음운규칙을 통해 작성된 소음소 망을 거쳐 연속 숫자음 출력을 얻도록 했다. 본실험은 화자 3 명이 발음한 35 개의 4 연속 숫자음을 인식 대상으로 하였으며, 4 연속 숫자음을 평가단위로 80%의 인식율을 얻었고, 각 숫자음의 음절을 단위로 95%의 인식율을 얻어 제시한 알고리즘의 유효성을 입증하였다.
PDF

PU-based Motion Vector Extrapolation for HEVC Error Concealment (HEVC 오류 은닉을 위한 PU 기반 움직임 벡터 외삽법)

Kim, Sangmin;Lee, Dong-Kyu;Park, Dongmin;Oh, Seoung-Jun
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2014.06a
- /
- pp.209-210
- /
- 2014
최근 인터넷 상에서 제공되는 영상 서비스에 대한 요구가 증가하고 있다. 하지만 네트워크 환경에서 전송되는 데이터는 오류로 인하여 쉽게 손실될 수 있다. 특히 HEVC(High Efficiency Video Coding)와 같이 높은 압축률로 압축된 정보에 대한 전송 오류는 영상 복원에 심각한 영향을 끼친다. 따라서 네트워크 환경에서 일정한 화질을 유지하기 위한 오류 은닉(Error Concealment : EC) 방법이 필요하다. 본 논문은 HEVC EC 를 위한 PU(Prediction Unit) 기반 움직임 벡터 외삽법(Motion Vector Extrapolation : MVE) 모델을 제안한다. PU 는 예측의 기본 단위로써 PU 내에 동일한 물체가 포함될 확률이 높다. 따라서, 이 모델은 손실된 프레임의 이전 프레임이 갖는 PU 정보를 이용하여 PU 단위로 외삽(extrapolation)을 실시한다. 또한, 손실된 블록과 외삽 블록간의 관계를 고려하여 겹쳐진(overlapped) 외삽 블록 중 가장 작은 PU 크기를 EC 기본 단위로 결정한다. 이 방법은 PU 정보를 반영함으로써 블록 경계 오류(block artifact)를 감소시킨다.
PDF

simulation for an phase change random access memory device (상변환 메모리 단위소자 시뮬레이레이션)

구창효;김성순;이근호;이홍림
- Proceedings of the Materials Research Society of Korea Conference
- /
- 2003.11a
- /
- pp.179-179
- /
- 2003
현재 차세대 메모리로 연구되고 있는 것 중 가장 각광 받는 것은 PRAM 이다. MRAM의 경우 복잡한 공정 때문에 상용화에 많은 어려움이 따르는데 반해 PRAM은 DRAM과 유사한 구조를 가지고 있기 때문에 기존 DRAM의 공정라인을 사용할 수 있다는 장점을 가지고 있다. 하지만 PRAM은 높은 작동전류가 필요하다는 단점을 가지고 있다. 따라서 PRAM이 상용화 되기 위해서는 2mA 이하의 작동전류에서 상변환이 일어나야 한다. 여기서 말하는 상변환이란 결정질 상태를 비정질 상태로 변환 시키는 것을 의미한다. 본 연구에서는 우선 8F$^2$ 크기(F=0.15$\mu\textrm{m}$)의 DRAM 단위소자 메모리 구조를 이용하여 lT/lRPCRAM 모델을 구축하였다. 구축된 모델을 이용하여 요구되는 작동전류(2mA이하)에서의 PRAM의 온도 분포를 시뮬레이션을 통하여 예측하였다. 또한 단위소자를 구성하는 재료의 물성 변화가 소자 내부의 온도 분포에 미치는 영향을 분석하였다.
PDF

Search Result 2,104, Processing Time 0.027 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)