• Title/Summary/Keyword: 데이터사전

Search Result 2,022, Processing Time 0.029 seconds

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

The Plan of Sensing of Disaster Signs Analyzing Big Data (빅데이터를 활용한 재난전조감지 방안)

  • Choi, Seon-Hwa;Choi, Seung-Young
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.801-801
    • /
    • 2012
  • 최근 과학 IT 패러다임은 기존 하드웨어, 소프트웨어 중심에서 폭발적으로 증가하는 데이터를 활용하여 정치 사회 경제 등 제반 이슈와 연계된 분석 예측으로 진화하고 있으며, 모바일 인터넷과 소셜 미디어 등장으로 데이터가 경제적 자산이 되는 빅데이터 시대가 도래하였다. 급속히 변화하고 복잡해진 사회구조와 재난환경으로 인해 인력에만 의존한 재난관리의 사각지대가 대형재난으로 이어질 우려가 크므로 다양한 재난전조(前兆)를 체계적으로 관리하여 선제적으로 예방하는 체계가 필요하다. 본 연구는 인터넷에 존재하는 재난관련 언론보도, 민원, 제보, 소셜 미디어 등의 비정형 데이터와 재난관련 정형 데이터(DB)를 융합 분석하여 재난전조를 사전에 감지하고 위험요소를 신속히 제거하는 빅데이터 기반 재난전조감지 체계를 제안한다. 최근 피해가 급증하고 있는 도시내수침수 피해 위험 예방을 위해 제안한 재난전조감지 체계를 적용하여 피해발생 위험요소 및 전조, 긴급 이슈 등을 감지하는데 활용하는 방안을 제안한다. 이는 전조를 감지하고 사전 침수 피해를 예측하여 피해 최소화 및 복구비용 절감, 저감능력 강화의 효과뿐만 아니라 위험요인 사전 차단 및 확산방지가 가능할 것으로 기대된다.

  • PDF

A Study of Pre-trained Language Models for Korean Language Generation (한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구)

  • Song, Minchae;Shin, Kyung-shik
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.4
    • /
    • pp.309-328
    • /
    • 2022
  • This study empirically analyzed a Korean pre-trained language models (PLMs) designed for natural language generation. The performance of two PLMs - BART and GPT - at the task of abstractive text summarization was compared. To investigate how performance depends on the characteristics of the inference data, ten different document types, containing six types of informational content and creation content, were considered. It was found that BART (which can both generate and understand natural language) performed better than GPT (which can only generate). Upon more detailed examination of the effect of inference data characteristics, the performance of GPT was found to be proportional to the length of the input text. However, even for the longest documents (with optimal GPT performance), BART still out-performed GPT, suggesting that the greatest influence on downstream performance is not the size of the training data or PLMs parameters but the structural suitability of the PLMs for the applied downstream task. The performance of different PLMs was also compared through analyzing parts of speech (POS) shares. BART's performance was inversely related to the proportion of prefixes, adjectives, adverbs and verbs but positively related to that of nouns. This result emphasizes the importance of taking the inference data's characteristics into account when fine-tuning a PLMs for its intended downstream task.

Sentiment lexicon modeling for consumer analysis (소비자 분석을 위한 감성사전 모델링)

  • Lee, Jae-Woong;Yun, Hyun-Noh;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.

Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary (감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석)

  • Jang, Yeonji;Choi, Jiseon;Park, Seoyoon;Kang, Yejee;Kang, Hyerin;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

Methodology for Overcoming the Problem of Position Embedding Length Limitation in Pre-training Models (사전 학습 모델의 위치 임베딩 길이 제한 문제를 극복하기 위한 방법론)

  • Minsu Jeong;Tak-Sung Heo;Juhwan Lee;Jisu Kim;Kyounguk Lee;Kyungsun Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.463-467
    • /
    • 2023
  • 사전 학습 모델을 특정 데이터에 미세 조정할 때, 최대 길이는 사전 학습에 사용한 최대 길이 파라미터를 그대로 사용해야 한다. 이는 상대적으로 긴 시퀀스의 처리를 요구하는 일부 작업에서 단점으로 작용한다. 본 연구는 상대적으로 긴 시퀀스의 처리를 요구하는 질의 응답(Question Answering, QA) 작업에서 사전 학습 모델을 활용할 때 발생하는 시퀀스 길이 제한에 따른 성능 저하 문제를 극복하는 방법론을 제시한다. KorQuAD v1.0과 AIHub에서 확보한 데이터셋 4종에 대하여 BERT와 RoBERTa를 이용해 성능을 검증하였으며, 실험 결과, 평균적으로 길이가 긴 문서를 보유한 데이터에 대해 성능이 향상됨을 확인할 수 있었다.

  • PDF

Building a Newly-coined Words and Emoticon Emotional Dictionary for Emotional Analysis of Social Data (소셜 데이터의 감성 분석을 위한 신조어 및 이모티콘 감성 사전 구축)

  • Yang, Jin-Sol;Yoon, Kyoung-Il;Jo, Yeong-Hoon;Chung, Kwang Sik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.914-917
    • /
    • 2019
  • SNS 의 발전으로 기업이나 공공단체는 소셜 데이터가 가지고 있는 감성이나 의견, 여론 등을 분석해서 신흥 가치를 창출하려 한다. 소셜 데이터를 기반으로 하는 감성 분석은 사람들의 소비 측면 및 제품 평가 파악은 물론 기업 매출 및 정책 수립 등에서 도움이 된다. 하지만 소셜 데이터는 각종 신조어 및 이모티콘이 다수 포함되어 있어 기존 감성 분석 방법으로는 정확한 분석을 하기 어렵다. 이러한 문제를 해결하기 위해 본 논문에서는 신조어 및 이모티콘 감성 사전을 구축하고, 분석 과정에서 기존 감성 사전과 본 논문에서 구축된 신조어 및 이모티콘 감성 사전을 사용하여 감성 분석 정확도를 비교한다.

Keyword Data Analysis Using Bayesian Conjugate Prior Distribution (베이지안 공액 사전분포를 이용한 키워드 데이터 분석)

  • Jun, Sunghae
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.6
    • /
    • pp.1-8
    • /
    • 2020
  • The use of text data in big data analytics has been increased. So, much research on methods for text data analysis has been performed. In this paper, we study Bayesian learning based on conjugate prior for analyzing keyword data extracted from text big data. Bayesian statistics provides learning process for updating parameters when new data is added to existing data. This is an efficient process in big data environment, because a large amount of data is created and added over time in big data platform. In order to show the performance and applicability of proposed method, we carry out a case study by analyzing the keyword data from real patent document data.

A Data Dictionary for Procurement of Die and Mold Parts Based on PLIB Standard (PLIB에 기반한 전자상거래용 금형부품 데이터 사전의 구축)

  • 조준면;문두환;김흥기;한순흥;류병우
    • The Journal of Society for e-Business Studies
    • /
    • v.8 no.3
    • /
    • pp.37-52
    • /
    • 2003
  • ISO 13584 Parts Library (PLIB) standard is making its way into e-business as a norm for classifying products and their characteristics. PLIB is a multi-parts standard, and the Part 42: Methodology for structuring Parts families Provides the information model and design Principles for the data dictionary of parts library or e-catalog. If e-catalog systems are built using a data dictionary that is constructed based on PLIB dictionary data model, many different e-catalog systems can be easily integrated and interoperated. This paper studies the roles and requirements of the data dictionary in e-catalog, and applies the data model and design principles of PLIB Part 42 to construct a data dictionary from the viewpoint of ontology Based on the analysis results, we propose a data dictionary of die and mold parts, and implementat the B2B e-catalog system.

  • PDF

Database metadata standardization processing model using web dictionary crawling (웹 사전 크롤링을 이용한 데이터베이스 메타데이터 표준화 처리 모델)

  • Jeong, Hana;Park, Koo-Rack;Chung, Young-suk
    • Journal of Digital Convergence
    • /
    • v.19 no.9
    • /
    • pp.209-215
    • /
    • 2021
  • Data quality management is an important issue these days. Improve data quality by providing consistent metadata. This study presents algorithms that facilitate standard word dictionary management for consistent metadata management. Algorithms are presented to automate synonyms management of database metadata through web dictionary crawling. It also improves the accuracy of the data by resolving homonym distinction issues that may arise during the web dictionary crawling process. The algorithm proposed in this study increases the reliability of metadata data quality compared to the existing passive management. It can also reduce the time spent on registering and managing synonym data. Further research on the new data standardization partial automation model will need to be continued, with a detailed understanding of some of the automatable tasks in future data standardization activities.