• 제목/요약/키워드: 사전 기반 모델

검색결과 857건 처리시간 0.026초

고압 다이캐스팅 공정에서 제품 결함을 사전 예측하기 위한 기계 학습 기반의 공정관리 방안 연구 (Study on the Process Management for Casting Defects Detection in High Pressure Die Casting based on Machine Learning Algorithm)

  • 이승로;이승철;한도석;김낙수
    • 한국주조공학회지
    • /
    • 제41권6호
    • /
    • pp.521-527
    • /
    • 2021
  • 본 연구는 고압 다이캐스팅 공정에서 제품 결함을 사전에 예측하기 위한 기계 학습 기반의 공정 관리 모델 개발에 관한 연구이다. 모델은 이전 사이클에서의 온도를 입력받고, 사이클에 걸쳐서 나타나는 특징을 인식하여 다음 사이클의 결함 발생 여부를 예측한다. 기어 박스 형상에 대하여 제안된 알고리즘을 적용하여, 3 사이클의 정보를 통해서 98 .9%의 정확도와 96.8 %의 재현율로 제품 수축 결함을 사전에 예측하였다.

딥러닝 모델(BERT)과 감정 어휘 사전을 결합한 음원 가사 감정 분석 (Analysis of Emotions in Lyrics by Combining Deep Learning BERT and Emotional Lexicon)

  • 윤경섭;오종민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.471-474
    • /
    • 2022
  • 음원 스트리밍 서비스 시장은 지속해서 성장해왔다. 그중 최근에 가장 성장세가 돋보이는 서비스는 Spotify와 Youtube music이다. 두 서비스의 추천시스템은 사용자가 좋아할 만한 음악을 계속해서 추천해 줌으로써 많은 사랑을 받고 있다. 추천시스템 성능은 추천에 활용할 수 있는 변수(Feature) 수에 비례한다고 볼 수 있다. 최대한 많은 정보를 알아야 사용자가 원하는 추천이 가능하기 때문이다. 본 논문에서는 기존에 존재하는 감정분류 방법론인 사전기반과 딥러닝 BERT를 사용한 머신기반 방법론을 적절하게 결합하여 장점을 유지하면서 단점을 보완한 하이브리드 감정 분석 모델을 제안함으로써 가사에서 느껴지는 감정 비율을 분석한다. 감정 비율을 음원 가중치 변수로 사용하면 감정 정보를 포함한 고도화된 추천을 기대할 수 있다.

  • PDF

XLNet을 이용한 한국어 구문분석 (Korean Syntactic Parsing with XLNet)

  • 김민석;신창욱;오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.540-542
    • /
    • 2019
  • 문맥기반 사전학습 단어 임베딩이 다양한 분야 적용되어 훌륭한 성능을 보여주고 있다. 본 논문에서는 사전학습한 XLNet 모델을 구문분석에 적용하였다. XLNet은 문장에서 생성 가능한 모든 후보에 대해 트랜스 포머를 기반으로 하는 사전학습을 진행한다. 따라서 문장 전체 정보를 필요로 하는 구문분석에 특히 유용하다. 본 논문에서는 한국어 특성을 반영하기 위하여 형태소 분석을 시행한 107.2GB 크기의 대용량 데이터를 사용해 학습을 진행하였다. 본 논문에서 제안한 모델을 세종 구문 코퍼스에 적용한 결과, UAS 91.93% LAS 89.30%의 성능을 보였다.

  • PDF

AI 기반 복합센서 사전검증시스템을 활용한 약품투입량 분석 및 예측모델 개발 (Development of Drug Input Analysis and Prediction Model Using AI-based Composite Sensors Pre-Verification System)

  • 성민석;김국일;안상병;홍성택
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.559-561
    • /
    • 2022
  • 수돗물 생산·공급의 안정성을 확보하기 위하여 AI 기반 복합센서를 실증지인 정수장에 적용하기 전에 사전검증할 수 있는 시스템을 구축하였으며, 2019년 12월부터 2021년 12월까지 약 2년간의 고령정수장 생활용수의 약품투입량 관련된 데이터를 수집·분석하여 약품투입량 예측모델을 개발하고자 하였다. 이상치 제거와 파생변수 생성 등 데이터 전처리를 통해 각 Tag의 이상치를 제거하고 1분 주기 데이터를 60분 구간 평균 데이터로 주기를 설정하고 PLS 모형을 사용하여 모델을 학습시켰으며, 각 모델들의 예측 정도를 비교·검증하였다.

  • PDF

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

베이지안 이론을 이용한 감성 추론 모델에 관한 연구 (A research on Bayesian inference model of human emotion)

  • 김지혜;황민철;김종화;우진철;김치중;김용우
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2009년도 추계학술대회
    • /
    • pp.95-98
    • /
    • 2009
  • 본 연구는 주관 감성에 따른 생리 데이터의 패턴을 분류하고, 임의의 생리 데이터의 패턴을 확인하여 각성-이완, 쾌-불쾌의 감성을 추론하기 위해 베이지안 이론(Bayesian learning)을 기반으로 한 추론 모델을 제안하는 것이 목적이다. 본 연구에서 제안하는 모델은 학습데이터를 분류하여 사전확률을 도출하는 학습 단계와 사후확률로 임의의 생리 데이터의 패턴을 분류하여 감성을 추론하는 추론 단계로 이루어진다. 자율 신경계 생리변수(PPG, GSR, SKT) 각각의 패턴 분류를 위해 1~7로 정규화를 시킨 후 선형 관계를 구하여 분류된 패턴의 사전확률을 구하였다. 다음으로 임의의 사전 확률 분포에 대한 사후 확률 분포의 계산을 위해 베이지안 이론을 적용하였다. 본 연구를 통해 주관적 평가를 실시하지 않고 다중 생리변수 인식을 통해 감성을 추론 할 수 있는 모델을 제안하였다.

  • PDF

백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구 (Restoring an Elided title for Encyclopedia QA System)

  • 임수종;이창기;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.541-543
    • /
    • 2005
  • 백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

  • PDF

Self-Supervised Document Representation Method

  • Yun, Yeoil;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.187-197
    • /
    • 2020
  • 최근 신경망 기반의 학습 알고리즘인 딥 러닝 기술의 발전으로 인해 텍스트의 문맥을 고려한 문서 임베딩 모델이 다양하게 고안되었으며, 특히 대량의 텍스트 데이터를 사용하여 학습을 수행한 사전 학습 언어 모델을 사용하여 분석 문서의 벡터를 추론하는 방식의 임베딩이 활발하게 연구되고 있다. 하지만 기존의 사전 학습 언어 모델을 사용하여 새로운 텍스트에 대한 임베딩을 수행할 경우 해당 텍스트가 가진 고유한 정보를 충분히 활용하지 못한다는 한계를 가지며, 이는 특히 텍스트가 가진 토큰의 수에 큰 영향을 받는 것으로 알려져 있다. 이에 본 연구에서는 다수의 토큰을 포함한 장문 텍스트의 정보를 최대한 활용하여 해당 텍스트의 벡터를 도출할 수 있는 자기 지도 학습 기반의 사전 학습 언어 모델 미세 조정 방법을 제안한다. 또한, 제안 방법론을 실제 뉴스 기사에 적용하여 문서 벡터를 도출하고 이를 활용하여 뉴스의 카테고리 분류 실험을 수행하는 외부적인 임베딩 평가를 수행함으로써, 제안 방법론과 기존 문서 임베딩 모델과의 성능을 평가하였다. 그 결과 제안 방법론을 통해 도출된 벡터가 텍스트의 고유 정보를 충분히 활용함으로써, 문서의 특성을 더욱 정확하게 표현할 수 있음을 확인하였다.

CRF를 이용한 백과사전 도메인의 템플릿 기반 지식베이스 설계 및 구축 (Template-based Knowledgebase Design and Construction using Conditional Random Fields in Encyclopedia Domain)

  • 왕지현;이창기;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.484-486
    • /
    • 2005
  • 본 논문은 백과사전 도메인의 지식베이스 설계 및 통계기반 정보추출 방법을 이용한 속성정보 인식에 대하여 기술한다. 층 13개 카테고리로 구성된 백과사전에 대해 99개의 템플릿과 285개의 속성을 정의하였으며, 각 표제어의 추출 대상인 속성정보는 표제어를 설명하는 본문에서 통계기반 기계학습모델인 CRF(Conditional Random Fields)를 적용하여 추출하였다. 백과사전 카테고리 별로 균일하게 선정된 4천 5백 문서를 학습에 사용하였고 테스트 문서셋 500문서에 대해 속성인식률을 측정하였다. 성능 평가한 결과, $F1\;55.76\%\;(P\;74.89\%,\;R\;44.42\%)$의 성능을 나타내었다.

  • PDF

PLIB에 기반한 전자상거래용 금형부품 데이터 사전의 구축 (A Data Dictionary for Procurement of Die and Mold Parts Based on PLIB Standard)

  • 조준면;문두환;김흥기;한순흥;류병우
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.37-52
    • /
    • 2003
  • PLIB으로 알려진 ISO 13584 부품 라이브러리 국제 표준은 상품의 분류와 각 상품 분류별 특성을 묘사하는 기준으로서 전자 상거래 분야로 그 응용영 역을 넓혀 나가고 있다. PLIB 표준은 여러 권으로 구성된 표준인데, 그 중 파트 42는 전자 카탈로그 또는 부품 라이브러리의 데이터 사전 (Data Dictionary)를 작성하는데 정보모델 (Information Model)과 설계원칙 (Design Principles)을 제공한다. PLIB 파트42의 정보모델을 기반으로 작성된 데이터 사전을 이용하여 전자 카탈로그 시스템을 구축하면, 향후 산업별, 부품대상별로 구축될 다양한 전자 카탈로그 시스템간의 통합 (Integration)과 상호운용 (Interoperation)을 쉽게 달성할 수 있다. 본 연구는 우선, 전자 카탈로그 또는 부품 라이브러리에서 데이터 사전의 역할과 요구 사항을 정리하고, PLIB 파트 42의 내용을 분석한다. 그리고 분석 결과를 바탕으로 금형부품 데이터 사전을 작성하고 이를 이용하여 기업간 전자 상거래 (B2B e-Commerce)용 전자 카탈로그 시스템을 구축한 결과를 정리한다.

  • PDF