• 제목/요약/키워드: Bert model

검색결과 203건 처리시간 0.026초

적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법 (Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data)

  • 신미르;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.174-180
    • /
    • 2024
  • 본 논문에서는 wav2vec 2.0과 KcELECTRA 모델을 활용하여 멀티모달 학습을 통한 감정 분류 방법을 탐색한다. 음성 데이터와 텍스트 데이터를 함께 활용하는 멀티모달 학습이 음성만을 활용하는 방법에 비해 감정 분류 성능을 유의미하게 향상시킬 수 있음이 알려져 있다. 본 연구는 자연어 처리 분야에서 우수한 성능을 보인 BERT 및 BERT 파생 모델들을 비교 분석하여 텍스트 데이터의 효과적인 특징 추출을 위한 최적의 모델을 선정하여 텍스트 처리 모델로 활용한다. 그 결과 KcELECTRA 모델이 감정 분류 작업에서 뛰어난 성능이 보임을 확인하였다. 또한, AI-Hub에 공개되어 있는 데이터 세트를 활용한 실험을 통해 텍스트 데이터를 함께 활용하면 음성 데이터만 사용할 때보다 더 적은 양의 데이터로도 더 우수한 성능을 달성할 수 있음을 발견하였다. 실험을 통해 KcELECTRA 모델을 활용한 경우가 정확도 96.57%로 가장 우수한 성능을 보였다. 이는 멀티모달 학습이 감정 분류와 같은 복잡한 자연어 처리 작업에서 의미 있는 성능 개선을 제공할 수 있음을 보여준다.

A BERT-Based Automatic Scoring Model of Korean Language Learners' Essay

  • Lee, Jung Hee;Park, Ji Su;Shon, Jin Gon
    • Journal of Information Processing Systems
    • /
    • 제18권2호
    • /
    • pp.282-291
    • /
    • 2022
  • This research applies a pre-trained bidirectional encoder representations from transformers (BERT) handwriting recognition model to predict foreign Korean-language learners' writing scores. A corpus of 586 answers to midterm and final exams written by foreign learners at the Intermediate 1 level was acquired and used for pre-training, resulting in consistent performance, even with small datasets. The test data were pre-processed and fine-tuned, and the results were calculated in the form of a score prediction. The difference between the prediction and actual score was then calculated. An accuracy of 95.8% was demonstrated, indicating that the prediction results were strong overall; hence, the tool is suitable for the automatic scoring of Korean written test answers, including grammatical errors, written by foreigners. These results are particularly meaningful in that the data included written language text produced by foreign learners, not native speakers.

딥러닝 전이학습을 이용한 경량 트렌드 분석 시스템 설계 및 구현 (Design and implementation of trend analysis system through deep learning transfer learning)

  • 신종호;안수빈;박태영;방승철;노기섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.87-89
    • /
    • 2022
  • 최근 코로나로 인해 집에 있는 시간이 많아진 소비자들이 증가함에 따라 비대면으로 쉽게 사용 할 수 있는 SNS와 OTT등 디지털 소비를 하는 시간이 자연스럽게 늘어났다. 코로나가 발생한 2019년 이후 디지털 소비는 44%에서 82%로 두 배가량 증가하였고 트렌드가 빠르게 변화하는 디지털 특성상 소비자들의 감성을 분석하여 트렌드를 신속, 정확하게 파악하여 적용하는 것은 중요하다. 그러나 대기업 수준의 시스템이 아닌 소규모 시스템에서 감성분석을 활용한 서비스를 실제로 구현하기에는 제약 사항이 있으며 실제 서비스 되는 경우도 많지 않다. 하지만 소규모 시스템이라도 간편하게 소비자들 트렌드 분석을 할 수 있다면 빠르게 변화하는 현대사회에 도움이 될 것이다. 본 논문에서는 BERT Model의 Transfer Learning(Fine Tuning)을 통해 학습 네트워크를 구축하고, 실시간 데이터 수집을 위한 Crawler를 연동하는 경량 트렌드 분석 시스템을 제안한다.

  • PDF

A Study on Brand Image Analysis of Gaming Business Corporation using KoBERT and Twitter Data

  • Kim, Hyunji
    • 한국게임학회 논문지
    • /
    • 제21권6호
    • /
    • pp.75-86
    • /
    • 2021
  • 브랜드 이미지는 고객, 이해관계자, 시장 전체가 해당 브랜드를 어떻게 보고 인지하는지를 뜻한다. 긍정적 브랜드 이미지는 계속적인 구매를 유발하지만, 부정적인 브랜드 이미지는 구매를 중단하게 만드는 등 소비자의 구매행동에 직결되기 때문에, 기업 입장에서는 빠르고 정확히 파악할 필요가 있다. 현재 브랜드 이미지를 조사하는 방법으로는 설문조사, SNS조사 등이 있는데, 표본의 수가 한정되고 시간과 비용이 많이 소요된다는 이슈가 있다. 따라서 본 연구에서는 딥러닝 기반의 KoBERT 모델을 활용하여 소셜미디어 상의 텍스트 데이터에 대한 감성분석을 실시한 후, 이를 브랜드 이미지 분석에 활용하는 방법을 제시하고, 이에 대한 성능을 검증하였다. 결과적으로, 다섯 개의 브랜드 이미지 순위를 매긴 결과가 한국기업평판연구소의 순위와 일치함으로써 본 연구의 사용성을 입증하였다.

사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구 (A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model )

  • 장연지 ;비립 ;강예지 ;강혜린 ;박서윤 ;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2022
  • 감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

  • PDF

RNN과 트랜스포머 기반 모델들의 한국어 리뷰 감성분류 비교 (Comparison of Sentiment Classification Performance of for RNN and Transformer-Based Models on Korean Reviews)

  • 이재홍
    • 한국전자통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.693-700
    • /
    • 2023
  • 텍스트 문서에서 주관적인 의견과 감정을 긍정 혹은 부정으로 분류하고 식별하는 자연어 처리의 한 분야인 감성 분석은 고객 선호도 분석을 통해 다양한 홍보 및 서비스에 활용할 수 있다. 이를 위해 최근 머신러닝과 딥러닝의 다양한 기법을 활용한 연구가 진행되어 왔다. 본 연구에서는 기존의 RNN 기반 모델들과 최근 트랜스포머 기반 언어 모델들을 활용하여 영화, 상품 및 게임 리뷰를 대상으로 감성 분석의 정확도를 비교 분석하여 최적의 언어 모델을 제안하고자 한다. 실험 결과 한국어 말뭉치로 사전 학습된 모델들 중 LMKor-BERT와 GPT-3가 상대적으로 좋은 정확도를 보여주었다.

AI를 활용한 비정형 문서정보의 공간정보화 (Spatialization of Unstructured Document Information Using AI)

  • 윤상원;박정우;남광우
    • 한국지리정보학회지
    • /
    • 제26권3호
    • /
    • pp.37-51
    • /
    • 2023
  • 도시현상의 해석을 위해 공간정보는 필수적이다. 위치정보가 부족한 도시정보를 공간정보로 변환하기 위한 공간정보화 방법론이 꾸준히 개발되어왔다. 정형화된 주소정보나 지명 등을 이용한 Geocoding이나 이미 위치정보가 있는 공간정보와의 공간결합, 참조데이터를 활용한 수작업 형태 등이 대표적이다. 그러나 아직도 행정기관에서 작성되는 수많은 문서정보들은 비정형화된 문서형태로 인해 공간정보화의 수요가 있음에도 그동안 깊이 있게 다루어지지 못하였다. 본 연구는 자연어 처리 모델인 BERT를 활용하여 도시계획과 관련된 공개문서의 공간정보화를 진행한다. 주소가 포함된 문장 요소를 문서로부터 추출하고, 이를 정형화된 데이터로 변환하는 과정을 중점적으로 다룬다. 18년 동안의 도시계획 고시공고문을 학습 데이터로 사용하여 BERT 모델을 학습시켰으며, 모델의 하이퍼파라미터를 직접 조정하여 성능을 향상시켰다. 모델 학습 후의 테스트 결과, 도시계획시설의 유형을 분류하는 모델은 96.6%, 주소 인식 모델은 98.5%, 주소 정제 모델은 93.1%의 정확도를 보였다. 결과 데이터를 GIS 상에 맵핑하였을 때, 특정 지점의 도시계획시설에 관한 변경 이력을 효과적으로 표출할 수 있었다. 본 연구로 도시계획 문서의 공간적 맥락에 대한 깊은 이해를 제공하며, 이를 통해 이해관계자들이 더욱 효과적인 의사결정을 할 수 있게 지원하기를 기대한다.

주거환경에 대한 거주민의 만족도와 영향요인 분석 - 직방 아파트 리뷰 빅데이터와 딥러닝 기반 BERT 모형을 활용하여 - (Analysis of Resident's Satisfaction and Its Determining Factors on Residential Environment: Using Zigbang's Apartment Review Bigdata and Deeplearning-based BERT Model)

  • 권준현;이수기
    • 지역연구
    • /
    • 제39권2호
    • /
    • pp.47-61
    • /
    • 2023
  • 주거환경에 대한 만족도는 주거지 선택 및 이주 등에 영향을 미치는 주요인으로, 도시에서의 삶의 질과 직접적으로 연결된다. 최근 온라인 부동산 서비스의 증가로 주거환경에 대한 사람들의 만족도를 쉽게 확인할 수 있으며, 사람들이 평가하는 내용을 바탕으로 주거환경 만족 요인에 대한 분석이 가능하다. 이는 기존에 활용되던 설문조사 등의 방식보다 더 많은 양의 평가를 효율적으로 활용할 수 있음을 의미한다. 본 연구는 서울특별시를 대상으로 온라인 부동산 서비스인 '직방'에서 수집된 약 3만여 건의 아파트 리뷰를 분석에 활용하였다. 리뷰에 포함된 추천 평점을 토대로, 아파트 리뷰를 긍정적, 부정적으로 분류하고, 딥 러닝 기반 자연어 처리 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 사용하여 리뷰를 자동으로 분류하는 모델을 개발하였다. 이후 SHAP(SHAPley Additive exPlanation)를 이용하여 분류에 중요한 역할을 하는 단어 토큰을 도출함으로 주거환경 만족도의 영향요인을 도출하였다. 더 나아가 Word2Vec을 이용하여 관련 키워드를 분석함으로써 주거환경에 대한 만족도 개선을 위한 우선 고려사항을 제시하였다. 본 연구는 거주자의 정성평가 자료인 아파트 리뷰 빅데이터와 딥러닝을 활용하여 주거환경에 대한 만족도를 긍정적, 부정적으로 자동 분류하는 모형을 제안하여 그 영향요인을 도출하는데 의의가 있다. 분석결과는 주거환경 만족도 향상을 위한 기초자료로 활용될 수 있으며 향후 아파트 단지 인근 주거환경 평가, 신규 단지 및 기반시설의 설계 및 평가 등에 활용될 수 있다.

수 Gbps 고속 인터페이스의 오류검출을 위한 자가내장측정법의 가속화 연구 (A Study on Accelerated Built-in Self Test for Error Detecting in Multi-Gbps High Speed Interfaces)

  • 노준완;권기원;전정훈
    • 전자공학회논문지
    • /
    • 제49권12호
    • /
    • pp.226-233
    • /
    • 2012
  • 본 논문에서는 고속 인터페이스 비트오류율(BER, Bit Error Rate)의 수학적 모델을 기반으로, 간단하고 정확하게 시간마진을 추정할 수 있는 '선형 근사화 추정법(linear approximation method)'을 제안하였다. 기존의 Q-factor를 이용한 추정법과 제안한 선형 근사화 추정법을 이용하여 $10^{-13}$ 이하의 BER을 얻기 위한 시간마진을 추정한 결과는 실측한 값과 비교할 때 약 0.03UI 정도의 작은 오차를 갖는다. 이 중 선형 근사화를 이용한 가속 자가내장측정법(built-in self test)을 내부 BERT(BER Tester)를 포함한 하드웨어로 구현하였다. 3Gbps, 95% 신뢰 수준에서 $10^{-13}$ BER 기준의 시간마진을 직접 측정하는데 소요되는 시간이 약 5.6시간인데 반해, 가속 자가내장측정법은 0.6초 이내에 유사한 정확도로 시간마진을 추정한다. 시간마진 추정치는 시간마진을 내부 BERT로 직접 측정한 값과 0.045UI 이하의 작은 오차를 보였다.

Intrusion Detection System based on Packet Payload Analysis using Transformer

  • Woo-Seung Park;Gun-Nam Kim;Soo-Jin Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.81-87
    • /
    • 2023
  • 네트워크 패킷의 메타데이터를 학습한 침입탐지시스템이 최근 많이 제안되었다. 그러나 이러한 방식은 모델 학습에 사용할 메타데이터 생성을 위해 패킷을 분석하는 시간, 그리고 학습 전 메타데이터를 전처리하는 시간이 필요하다. 또한, 특정 메타데이터를 학습한 모델은 실제 네트워크로 유입되는 원본 패킷을 그대로 사용하여 침입을 탐지하는 것이 불가능하다. 이러한 문제를 해결하기 위해 본 논문에서는 패킷 페이로드를 하나의 문장으로 학습시켜 침입을 탐지하는 자연어 처리 기반의 침입탐지시스템을 제안하였다. 제안하는 기법의 성능 검증을 위해 UNSW-NB15와 Transformer 모델을 활용하였다. 먼저, 데이터세트의 PCAP 파일에 대한 라벨링을 실시한 후 2종의 Transformer 모델(BERT, DistilBERT)에 문장 형태로 직접 학습시켜 탐지성능을 분석하였다. 실험 결과 이진분류 정확도는 각각 99.03%, 99.05%로 기존 연구에서 제안한 기법들과 유사하거나 우수한 탐지성능을 보였으며, 다중분류는 각각 86.63%, 86.36%로 더 우수한 성능을 나타냄을 확인하였다.