• 제목/요약/키워드: deep learning language model

검색결과 210건 처리시간 0.032초

한국어 문서 요약 기법을 활용한 휘발유 재고량에 대한 미디어 분석 (Media-based Analysis of Gasoline Inventory with Korean Text Summarization)

  • 윤성연;박민서
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.509-515
    • /
    • 2023
  • 국가 차원의 지속적인 대체 에너지 개발에도 석유 제품의 사용량은 지속적으로 증가하고 있다. 특히, 대표적인 석유 제품인 휘발유는 국제유가의 변동에 그 가격이 크게 변동한다. 주유소에서는 휘발유의 가격 변화에 대응하기 위해 휘발유 재고량을 조절한다. 따라서, 휘발유 재고량의 주요 변화 요인을 분석하여 전반적인 휘발유 소비 행태를 분석할 필요가 있다. 본 연구에서는 주유소의 휘발유 재고량 변화에 영향을 미치는 요인을 파악하기 위해 뉴스 기사를 활용한다. 첫째, 웹 크롤링을 통해 자동으로 휘발유와 관련한 기사를 수집한다. 둘째, 수집한 뉴스 기사를 KoBART(Korean Bidirectional and Auto-Regressive Transformers) 텍스트 요약 모델을 활용하여 요약한다. 셋째, 추출한 요약문을 전처리하고, N-Gram 언어 모델과 TF-IDF(Term Frequency Inverse Document Frequency)를 통해 단어 및 구 단위의 주요 요인을 도출한다. 본 연구를 통해 휘발유 소비 형태의 파악 및 예측이 가능하다.

북스캔을 이용한 도서 손상 단계에 따른 딥 러닝 기반 도서 복구 방법에 관한 연구 (A Study on Book Recovery Method Depending on Book Damage Levels Using Book Scan)

  • 석경호;이주희;박병찬;김석윤;김영모
    • 반도체디스플레이기술학회지
    • /
    • 제22권4호
    • /
    • pp.154-160
    • /
    • 2023
  • Recently, with the activation of eBook services, books are being published simultaneously as physical books and digitized eBooks. Paper books are more expensive than e-books due to printing and distribution costs, so demand for relatively inexpensive e-books is increasing. There are cases where previously published physical books cannot be digitized due to the circumstances of the publisher or author, so there is a movement among individual users to digitize books that have been published for a long time. However, existing research has only studied the advancement of the pre-processing process that can improve text recognition before applying OCR technology, and there are limitations to digitization depending on the condition of the book. Therefore, support for book digitization services depending on the condition of the physical book is needed. need. In this paper, we propose a method to support digitalization services according to the status of physical books held by book owners. Create images by scanning books and extract text information from the images through OCR. We propose a method to recover text that cannot be extracted depending on the state of the book using BERT, a natural language processing deep learning model. As a result, it was confirmed that the recovery method using BERT is superior when compared to RNN, which is widely used in recommendation technology.

  • PDF

광고 글 필터링 모델 적용 및 성능 향상 방안 (Application of Advertisement Filtering Model and Method for its Performance Improvement)

  • 박래근;윤혁진;신의철;안영진;정승도
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 기하급수적인 인터넷 데이터의 증가로 딥러닝 등의 많은 분야가 발전하였지만 바이럴 마케팅(viral marketing)과 같은 상업적 목적의 광고가 발견되면서 정보증가의 부작용이 발생하고 있다. 이는 양질의 정보를 공유하고자 하는 인터넷의 본질을 훼손하고 있을 뿐만 아니라 사용자는 양질의 정보를 습득하기 위해 검색시간이 증가하는 문제가 야기된다. 이에 본 연구에서는 광고(Ad: Advertisement, 이하 Ad) 글을 정보 전달의 본질을 흐리는 내용의 글이라 정의하였으며 본 정의에 부합하는 정보로 필터링하는 모델을 제안하였다. 제안하는 모델은 광고 필터링 경로와 광고 필터링 성능 개선경로로 구성되었으며 지속적으로 성능이 개선되도록 설계하였다. 광고 글 필터링을 위해 데이터를 수집하고 KorBERT를 사용하여 문서분류를 학습하였다. 본 모델의 성능을 검증하기 위해 실험을 진행하였으며 5개의 주제를 통합한 데이터에 대한 정확도(Accuracy), 정밀도(Precision)는 각각 89.2%, 84.3%의 결과를 나타냈고 광고의 비정형적 특성을 고려하더라도 높은 성능이 보임을 확인하였다. 본 모델을 통해 바이럴 마케팅으로 구성된 문서에서 광고 문단을 판단하고 필터링하여 사용자에게 양질의 정보를 효과적으로 전달하며 검색하는 과정에서 낭비되는 시간과 피로가 감소할 것으로 기대된다.

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.

Stock prediction using combination of BERT sentiment Analysis and Macro economy index

  • Jang, Euna;Choi, HoeRyeon;Lee, HongChul
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.47-56
    • /
    • 2020
  • 주가지수는 한 국가의 경제 지표뿐만 아니라 투자판단의 지표로도 활용되므로 이를 예측하는 연구가 지속해서 진행되고 있다. 주가지수 예측을 하는 작업은 기술적, 경제적 및 심리적 요인 등이 반영된 것으로 예측의 정확도를 위해서는 복합적 요인을 고려해야 한다. 따라서 지수의 변동에 영향을 미치는 요인들을 선별하여 반영한 주가지수 예측모델연구가 필요하다. 이와 관련한 기존 연구에서는 시장의 변동을 만들어 내는 뉴스 정보 또는 거시 경제 지표를 각각 이용하거나, 몇 가지의 지표 조합만을 반영한 예측 연구가 대부분이었다. 따라서 본 연구에서는 미국 다우존스지수 예측을 위해 뉴스 정보의 감성 분석과 다양한 거시경제지표를 고려하여 효과적인 지표 조합을 제시하고자 한다. 뉴스 정보의 감성 분석은 최신 자연어처리 기법인 BERT와 NLTK VADER를 사용하고, 예측모델은 주가예측모델로 적합하다고 알려진 딥러닝 예측모델 LSTM을 적용하여 가장 효과적인 지표 조합을 제시했다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

감정 분류를 이용한 표정 연습 보조 인공지능 (Artificial Intelligence for Assistance of Facial Expression Practice Using Emotion Classification)

  • 김동규;이소화;봉재환
    • 한국전자통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.1137-1144
    • /
    • 2022
  • 본 연구에서는 감정을 표현하기 위한 표정 연습을 보조하는 인공지능을 개발하였다. 개발한 인공지능은 서술형 문장과 표정 이미지로 구성된 멀티모달 입력을 심층신경망에 사용하고 서술형 문장에서 예측되는 감정과 표정 이미지에서 예측되는 감정 사이의 유사도를 계산하여 출력하였다. 사용자는 서술형 문장으로 주어진 상황에 맞게 표정을 연습하고 인공지능은 서술형 문장과 사용자의 표정 사이의 유사도를 수치로 출력하여 피드백한다. 표정 이미지에서 감정을 예측하기 위해 ResNet34 구조를 사용하였으며 FER2013 공공데이터를 이용해 훈련하였다. 자연어인 서술형 문장에서 감정을 예측하기 위해 KoBERT 모델을 전이학습 하였으며 AIHub의 감정 분류를 위한 대화 음성 데이터 세트를 사용해 훈련하였다. 표정 이미지에서 감정을 예측하는 심층신경망은 65% 정확도를 달성하여 사람 수준의 감정 분류 능력을 보여주었다. 서술형 문장에서 감정을 예측하는 심층신경망은 90% 정확도를 달성하였다. 감정표현에 문제가 없는 일반인이 개발한 인공지능을 이용해 표정 연습 실험을 수행하여 개발한 인공지능의 성능을 검증하였다.

뇌파, 시선추적 및 인공지능 기술에 기반한 디지털 도서관 인터페이스 연구: 암묵적 적합성 피드백 활용을 중심으로 (Digital Library Interface Research Based on EEG, Eye-Tracking, and Artificial Intelligence Technologies: Focusing on the Utilization of Implicit Relevance Feedback)

  • 김현희;김용호
    • 정보관리학회지
    • /
    • 제41권1호
    • /
    • pp.261-282
    • /
    • 2024
  • 본 연구는 디지털 도서관의 콘텐츠를 탐색하는 동안 이용자의 암묵적 적합성 피드백을 활용하여 적합성을 판단하기 위해 뇌파 기반 및 시선추적 기반 방법들을 제안하고 평가해 보았다. 이를 위해서 32명을 대상으로 하여 동영상, 이미지, 텍스트 데이터를 활용하여 뇌파/시선추적 실험들을 수행하였다. 제안된 방법들의 유용성을 평가하기 위해서, 딥러닝 기반의 인공지능 방법들을 경쟁 기준으로 사용하였다. 평가 결과, 주제에 적합한 동영상과 이미지(얼굴/감정)를 선택하는 데에는 뇌파 컴포넌트 기반 방법들(av_P600, f_P3b)이 높은 분류 정확도를 나타냈고, 이미지(객체)와 텍스트(신문 기사)를 선택하는 데에는 인공지능 기반 방법 즉, 객체 인식 기반 방법과 자연언어 처리 방법이 각각 높은 분류 정확도를 나타냈다. 끝으로, 뇌파, 시선추적 및 인공지능 기술에 기반한 디지털 도서관 인터페이스를 구현하기 위한 지침 즉, 암묵적 적합성 피드백에 기반한 시스템 모형을 제안하고, 분류 정확도를 향상시키기 위해서 미디어별로 적합한 뇌파 기반, 시선추적 기반 및 인공지능 기반 방법들을 제시하였다.

인공지능 기술 기반 인슈어테크와 디지털보험플랫폼 성공사례 분석: 중국 평안보험그룹을 중심으로 (Analysis of Success Cases of InsurTech and Digital Insurance Platform Based on Artificial Intelligence Technologies: Focused on Ping An Insurance Group Ltd. in China)

  • 이재원;오상진
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.71-90
    • /
    • 2020
  • 최근 전 세계 보험업계에도 기계학습, 자연어 처리, 딥러닝 등의 인공지능 기술 활용을 통한 디지털 전환이 급속도로 확산하고 있다. 이에 따라 인공지능 기술을 기반으로 한 인슈어테크와 플랫폼 비즈니스 성공을 이룬 해외 보험사들도 증가하고 있다. 대표적으로 중국 최대 민영기업인 평안보험그룹은 '금융과 기술', '금융과 생태계'를 기업의 핵심 키워드로 내세우며 끊임없는 혁신에 도전한 결과, 인슈어테크와 디지털플랫폼 분야에서 괄목할만한 성과를 보이며 중국의 글로벌 4차 산업혁명을 선도하고 있다. 이에 본 연구는 평안보험그룹 인슈어테크와 플랫폼 비즈니스 활동을 ser-M 분석 모델을 통해 분석하여 국내 보험사들의 인공지능 기술기반 비즈니스 활성화를 위한 전략적 시사점을 제공하고자 했다. ser-M 분석 모델은 기업의 경영전략을 주체, 환경, 자원, 메커니즘 관점에서 통합적으로 해석이 가능한 프레임으로, 최고경영자의 비전과 리더십, 기업의 역사적 환경, 다양한 자원 활용, 독특한 메커니즘 관계가 통합적으로 해석되도록 연구하였다. 사례분석 결과, 평안보험은 안면·음성·표정 인식 등 핵심 인공지능 기술을 활용하여 세일즈, 보험인수, 보험금 청구, 대출 서비스 등 업무 전 영역을 디지털로 혁신함으로써 경비 절감과 고객서비스 발전을 이루었다. 또한 '중국 내 온라인 데이터'와 '회사가 축적한 방대한 오프라인 데이터 및 통찰력'을 인공지능, 빅데이터 분석 등 신기술과 결합하여 금융 서비스와 디지털 서비스 사업이 통합된 디지털 플랫폼을 구축하였다. 이러한 평안보험그룹의 성공 배경을 ser-M 관점에서 분석해 보면, 창업자 마밍즈 회장은 4차 산업혁명 시대의 디지털 기술발전, 시장경쟁 및 인구 구조의 변화를 빠르게 포착하여 새로운 비전을 수립하고 디지털 기술중시의 민첩한 리더십을 발휘하였다. 환경변화에 대응한 창업자 주도의 강력한 리더십을 바탕으로 인공지능 기술 투자, 우수 전문인력 확보, 빅데이터 역량 강화 등 내부자원을 혁신하고, 외부 흡수역량의 결합, 다양한 업종 간의 전략적 제휴를 통해 인슈어테크와 플랫폼 비즈니스를 성공적으로 끌어냈다. 이와 같은 성공사례 분석을 통하여 인슈어테크와 디지털플랫폼 도입을 본격 준비하고 있는 국내 보험사들에게 디지털 시대에 필요한 경영 전략과 리더십에 대한 시사점을 줄 수 있다.