Search | Korea Science

Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction (정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론)

Myunghoon Kang;Jungseob Lee;Seungjun Lee;Hyeonseok Moon;Chanjun Park;Yuna Hur;Heuiseok Lim
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.485-490
- /
- 2022
데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.
PDF

Enhancing Software Value and Quality in COTS-based Requirements Engineering (소프트웨어의 가치와 품질향상을 위한 COTS 기반의 요구공학방법론)

Han, Youngsub;Kim, Neunghoe;Lee, Donghyun;In, Hoh Peter
- Proceedings of the Korea Information Processing Society Conference
- /
- 2009.11a
- /
- pp.853-854
- /
- 2009
고객가치에 기반을 두지 않은 소프트웨어는 블루오션을 창출할 수 없고, 기존 시장에서 우위를 점유할 수 없으므로 최근에는 고객가치와 품질 향상에 초점을 맞춰 소프트웨어 개발이 이루어지고 있다. 또한 시장에서 우위를 차지하기 위한 중요한 요소 중 하나가 비용인데, COTS 기반의 개발방법은 시장출하 시간의 단축과 비용절감의 효과가 있어 관심이 증가하는 추세이다. 본 논문에서는 고객가치를 창출하고 소프트웨어 품질을 향상시키기 위해 고객가치와 COTS의 품질속성을 고려하여 COTS를 선택하는 요구공학방법론을 제시하였다.
https://doi.org/10.3745/PKIPS.y2009m11a.853 인용 PDF

A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean (문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론)

Park, Joohee;Park, Wonjun;Seo, Heecheol
- Annual Conference on Human and Language Technology
- /
- 2018.10a
- /
- pp.443-448
- /
- 2018
웹검색 결과의 품질 향상을 위해서는 질의의 정확한 매칭 뿐만이 아니라, 서로 같은 대상을 지칭하는 한글 문자열과 영문 문자열(예: 네이버-naver)의 매칭과 같은 유연한 매칭 또한 중요하다. 본 논문에서는 문장대문장 학습을 통해 영문 문자열을 한글 문자열로 음차변환하는 방법론을 제시한다. 또한 음차변환 결과로 얻어진 한글 문자열을 동일 영문 문자열의 다양한 음차변환 결과와 매칭시킬 수 있는 발음 유사성 기반 부분 매칭 방법론을 제시하고, 위키피디아의 리다이렉트 키워드를 활용하여 이들의 성능을 정량적으로 평가하였다. 이를 통해 본 논문은 문장대문장 학습 기반의 음차 변환 결과가 복잡한 문맥을 고려할 수 있으며, Damerau-Levenshtein 거리의 계산에 자모 유사도를 활용하여 기존에 비해 효과적으로 한글 키워드들 간의 부분매칭이 가능함을 보였다.
PDF

Methodology for Constructing Data for Automatic Generation of Emotional Copywrite (감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론)

Jimin Seong;Haeun Shin;Jiyoon Kang
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.336-341
- /
- 2023
초대규모 언어모델의 뛰어난 생성 기술이 실질적인 부분에서 많은 도움을 주고 있음에도 불구하고 사람들의 마음을 움직일 수 있는 매력적인 광고 카피를 생성하기에는 아쉬운 점이 많다. 이 연구는 효과적인 광고 카피 자동생성을 위한 데이터 구축 방법론 연구로, 데이터에 일관적으로 학습시킬 수 있는 감성적 카피의 문체적 특징을 프레임워크로 정의하고 이를 모델에 적용한 결과를 보여 데이터 설계 방법론의 유효성을 검증하고자 하였다. 실험 결과 문체 적합성 측면에서 성공적인 결과를 확인한 것에 비해, 한국어 보조사와 같이 미세한 어감 차이를 발생시키는 요소나 의미적 중의성 해석 등의 고차원적인 한국어 구사능력을 필요로 하는 부분에서 생성모델의 개선 여지를 발견할 수 있었다. 본 연구에서 보인 감성형 카피 생성을 위한 프레임워크는 마케팅 실무에서도 유용하게 사용될 수 있을 뿐만 아니라, 고객 세그멘테이션 분석이 이루어진다면 타깃 고객의 취향을 고려한 효과적이고 맞춤화된 광고 카피를 생성에 기여할 수 있을 것으로 기대된다.
PDF

A Study on the History of IS Development Methodology (정보시스템 개발 방법론 발달사에 관한 탐색적 연구)

Jahng, Jung-Joo;Kwon, Sun-Dong;Koh, Seok-Ha
- Information Systems Review
- /
- v.10 no.2
- /
- pp.211-234
- /
- 2008
The history of information system (IS) development methodology in Korea is less than 30 years. Korea introduced the structured development methodology in the public fields in 1980s, introduced the information engineering methodology in 1990s, and accepted and developed the objected oriented development methodology and the component based development methodology in 2000s. The history of IS development methodology in Korea is shorter than that of the world. Korea's IS development methodology started 10 year later compared with the world level. But it developed rapidly in 1990s and then grew to the world level in 2000s. This paper is the first research that it investigated the history of IS development methodology in Korea. This paper will give the people of IT industry the historical insights about IS development methodology and will help make a current and future strategic plan for IS development methodology. And it will provide researchers and policy makers with the insights and research ideas of future direction of information system development.
PDF KSCI

HW Server Allocation Methodology for Improve Performance of Web-based Information System (웹기반 정보시스템의 성능 향상을 위한 HW 서버 할당 방법론)

황성하;박준형;이강수
- Proceedings of the Korea Multimedia Society Conference
- /
- 2002.11b
- /
- pp.763-766
- /
- 2002
최근 인터넷 사용의 증가로 인해 기존의 정보시스템들이 웹기반 정보시스템으로 이전하고 있다. 이러한 웹기반 정보시스템은 사용자에게 정보를 제공하는데 있어 빠른 처리 속도와 통신 지연의 최소화로 시스템에 대한 사용자의 신뢰성을 높이는데 있다. 본 논문에서는 사용자의 서비스 만족을 위해 웹기반 정보시스템 내 SW 서버간의 결합도(coupling)를 최소화 하고 응집도(cohesion)를 최대화 하는 개념인 소프트웨어 공학과 HW 서버간의 통신량을 분석하여 웹기반 정보시스템의 성능을 향상시키기 위한 HW 서버 할당 방법론을 제안한다.
PDF

Korean Spell Correction based on Denoising Transformer (Denoising Transformer기반 한국어 맞춤법 교정기)

Park, Chanjun;Jeong, Sol;Yang, Kisu;Lee, Sumi;Joe, Jaechoon;Lim, Heuiseok
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.368-372
- /
- 2019
맞춤법 교정이란 주어진 문장에서 나타나는 철자 및 맞춤법 오류들을 올바르게 교정하는 것을 뜻하며 맞춤법 교정 시스템이란 컴퓨터가 이를 자동으로 수행하는 것을 의미한다. 본 논문에서는 맞춤법 교정을 기계번역의 관점으로 바라보고 문제를 해결하였다. 소스문장에 맞춤법 오류문장, 타겟 문장에 올바른 문장을 넣어 학습시키는 방법을 제안한다. 본 논문에서는 단일 말뭉치로 한국어 맞춤법 병렬 말뭉치를 구성하는 방법을 제안하며 G2P(Grapheme to Phoneme)를 이용한 오류 데이터 생성, 자모 단위 철자 오류데이터 생성, 통번역 데이터 기반 오류 데이터 생성 크게 3가지 방법론을 이용하여 맞춤법 오류데이터를 생성하는 방법론을 제안한다. 실험결과 GLEU 점수 65.98의 성능을 보였으며 44.68, 39.55의 성능을 보인 상용화 시스템보다 우수한 성능을 보였다.
PDF

A Method for Intention Inference from Visual Information (시각 정보에 의한 의도 추론 기법)

Park, Jin-Hui;Lee, J.S.;Kim, Ho-Joon
- Proceedings of the Korea Information Processing Society Conference
- /
- 2008.05a
- /
- pp.44-47
- /
- 2008
본 논문에서는 유비쿼터스 환경에서 인간의 행동패턴을 인식하고 이 결과를 활용하여 사용자의 의도를 추론하는 방법론에 관해 기술한다. 인간행동의 예측에 관한 지식표현으로부터의 추론기능과 예제패턴 기반의 학습기능을 동시에 지원하는 모델을 제시하고 이론의 타당성과 유용성을 고찰한다. 의도 추론 문제에서 지식기반 기법이 갖는 불완전성을 극복하기 위하여 예제기반 학습능력의 필요성을 도출하는 한편, 다양한 변이가 존재하는 응용에서 학습데이터 선정의 어려움을 보완하기 위한 방법론을 제시한다. 세부적으로 인간행동에 관한 특징표현과 행동패턴 클래스를 정의하고 이들간의 관계를 고유한 지식표현 규칙으로 정형화 한다. 또한 제안된 지식표현을 수용하는 추론 메커니즘을 제시하며, 제시한 모델의 부수적 특징으로 학습과정을 통한 지식 정련기능의 유용성을 고찰한다.
https://doi.org/10.3745/PKIPS.y2008m05a.44 인용 PDF

A Position-Based Block Similarity Computing Method for Similar Transcript Model Search (유사 전사체 모델 탐색을 위한 위치 기반 블록 간의 유사도 비교 기법)

Kim, Sora;Park, TaeWon;Hwang, HyeRyeon;Cho, Hwan-Gue
- Proceedings of the Korea Information Processing Society Conference
- /
- 2012.11a
- /
- pp.1326-1329
- /
- 2012
전사체(transcript)는 유전자로부터 전사된 DNA 시퀀스 코드를 말한다. 전사체(transcript)의 발현된 형태에 따라 생성되는 단백질의 형태 역시 달라지므로 전사체 모델의 형태는 중요한 의미를 가지며 특정 위치의 전사체가 정상과 다르게 모델이 변할 경우 심각한 경우에는 유전자 질병에 노출될 수 있다. 현재 실험체에 대한 전사체 모형은 SpliceGrapher, Cufflinks와 같은 상용화된 도구들을 사용하여 얻을 수 있다. 하지만 이런 도구 간의 결과 값 및 어노테이션 정보와 결과 값 간의 유사도 비교를 위한 방법론은 현재 알려진 바 없다. 대신 전사체 비교를 위해 모형 간의 차이를 눈으로 하나씩 비교하거나 전사체 위치를 이용한 산수 값을 이용한다. 본 논문에서는 전사체 모형 간의 유사도를 비교하기 위한 방법론을 제시하고 Homo sapiens grch37 어노테이션 파일과 SRR387514 실험 데이터 간의 유사도를 제시한 방법론을 이용하여 측정한 결과 값을 분석하였다.
https://doi.org/10.3745/PKIPS.y2012m11a.1326 인용 PDF

A Study on Value Determination of Information Assets Utilizing Financial Engineering Based Information Asset Profile (금융기법기반의 정보자산프로파일을 활용한 정보자산 가치측정)

Choi, Myeong-Gil;Jeong, Jae-Hun
- Proceedings of the KAIS Fall Conference
- /
- 2009.05a
- /
- pp.272-275
- /
- 2009
본 논문은 정보자산의 가치측정 방법론을 수립에 필요한 정보자산프로파일의 개요를 살펴보고, 정보 자산프로파일 개발절차 및 현존하는 위험평가 방법론과의 관계를 소개하며, 금융공학기법을 이용하여 정보자산의 가치 측정을 위한 메타 모델을 제안 하고자 한다.
PDF

Search Result 799, Processing Time 0.046 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)