• 제목/요약/키워드: 사전기반 후처리

검색결과 151건 처리시간 0.033초

피드백 기법을 이용한 LLama2 모델 기반의 Zero-Shot 문서 그라운딩된 대화 시스템 성능 개선 (LLaMA2 Models with Feedback for Improving Document-Grounded Dialogue System)

  • 정민교;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.275-280
    • /
    • 2023
  • 문서 그라운딩된 대화 시스템의 응답 성능 개선을 위한 방법론을 제안한다. 사전 학습된 거대 언어 모델 LLM(Large Language Model)인 Llama2 모델에 Zero-Shot In-Context learning을 적용하여 대화 마지막 유저 질문에 대한 응답을 생성하는 태스크를 수행하였다. 본 연구에서 제안한 응답 생성은 검색된 top-1 문서와 대화 기록을 참조해 초기 응답을 생성하고, 생성된 초기 응답을 기반으로 검색된 문서를 대상으로 재순위화를 수행한다. 이 후, 특정 순위의 상위 문서들을 이용해 최종 응답을 생성하는 과정으로 이루어진다. 검색된 상위 문서를 이용하는 응답 생성 방식을 Baseline으로 하여 본 연구에서 제안한 방식과 비교하였다. 그 결과, 본 연구에서 제안한 방식이 검색된 결과에 기반한 실험에서 Baseline 보다 F1, Bleu, Rouge, Meteor Score가 향상한 것을 확인 하였다.

  • PDF

모바일 게임을 위한 개선된 무손실 이미지 압축 (An Improvement of Lossless Image Compression for Mobile Game)

  • 김세웅;조병호
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.231-238
    • /
    • 2006
  • 본 논문에서는 모바일 게임의 전체 용량 중 상당 부분을 차지하는 이미지를 무손실로 압축하기 위한 방법을 제안하였다. 이미지의 압축률을 높이기 위해 실제로 압축을 수행하기 전에 전처리 과정에서 이미지를 재구성 한 후 RFC-1951에 정의된 Deflate 알고리즘으로 압축하였다. 전처리 과정에서는 이미지의 정보를 바탕으로 사전 기반 부호화의 특징인 사전의 크기를 얻고, 픽셀 패킹과 DPCM 예측 기법을 사용하여 이미지를 재구성하는 방법을 사용하여 일반적인 방법으로 압축할 때 보다 압축률을 향상시켰다. 제안된 압축 방법을 다양한 모바일 게임 이미지에 적용하여 압축률을 실험한 결과 기존 모바일 이미지 포맷에 비해 약 9.7%의 압축률이 향상됨을 보였다.

병렬 말뭉치 필터링을 적용한 Filter-mBART기반 기계번역 연구 (Filter-mBART Based Neural Machine Translation Using Parallel Corpus Filtering)

  • 문현석;박찬준;어수경;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-7
    • /
    • 2021
  • 최신 기계번역 연구 동향을 살펴보면 대용량의 단일말뭉치를 통해 모델의 사전학습을 거친 후 병렬 말뭉치로 미세조정을 진행한다. 많은 연구에서 사전학습 단계에 이용되는 데이터의 양을 늘리는 추세이나, 기계번역 성능 향상을 위해 반드시 데이터의 양을 늘려야 한다고는 보기 어렵다. 본 연구에서는 병렬 말뭉치 필터링을 활용한 mBART 모델 기반의 실험을 통해, 더 적은 양의 데이터라도 고품질의 데이터라면 더 좋은 기계번역 성능을 낼 수 있음을 보인다. 실험결과 병렬 말뭉치 필터링을 거친 사전학습모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 본 실험결과를 통해 데이터의 양보다 데이터의 질을 고려하는 것이 중요함을 보이고, 해당 프로세스를 통해 추후 말뭉치 구축에 있어 하나의 가이드라인으로 활용될 수 있음을 보였다.

사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구 (A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model )

  • 장연지 ;비립 ;강예지 ;강혜린 ;박서윤 ;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2022
  • 감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

  • PDF

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

클러스터링 해쉬 테이블을 이용한 다차원 선박 USN 스트림 데이터의 효율적인 처리 (Efficient Processing of Multidimensional Vessel USN Stream Data using Clustering Hash Table)

  • 송병호;오일환;이성로
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.137-145
    • /
    • 2010
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 그러나, 센서 네트워크에서 대용량 스트림 데이터를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이터를 전송하고 분석하는 것은 어렵고 효율적이지 못하다. 그러므로, 연속적으로 입력되는 데이터를 사전에 분류하여 특성에 따라 선택적으로 데이터를 처리하는 데이터 분류 기법이 요구된다. 본 논문에서는 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 다중 Support Vector Machine(SVM) 알고리즘을 이용하여 사전 분류(pre-clustering)한 후 요약된 정보를 해쉬 테이블로 관리하는 효율적인 처리 기법을 제안한다. 해쉬테이블을 이용하여 다차원 스트림 데이터의 저장될 레코드 순서를 빠르게 찾아 저장 및 검색함으로서 처리 속도가 향상되고 메모리에 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 35,912개의 데이터 집합을 사용하여 실험한 결과 제안 기법의 정확도와 처리 성능이 향상되었다.

SVM을 적용한 선박 스트림 데이터 처리 기법 (Ship Stream Data Processing Techniques To Which The SVM)

  • 양진호;프라시스 포우델;시리 크리스나 아차레;서군 수베디;정민아;이성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1202-1204
    • /
    • 2015
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 본 논문에서는 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 다중 Support Vector Machine(SVM) 알고리즘을 이용하여 사전 분류(pre-clustering)한 후 요약된 정보를 해쉬 테이블로 관리하는 효율적인 처리 기법을 제안한다. 해쉬 테이블을 이용하여 다차원 스트림 데이터의 저장될 레코드 순서를 빠르게 찾아 저장 및 검색함으로서 처리 속도가 향상되고 메모리에 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 35,912개의 데이터 집함을 사용하여 실험한 결과 제안 기법의 정확도와 처리 성능이 향상되었다.

Ipv6 기반 이동 Ad Hoc 네트워크에서의 멀티캐스트 라우팅 프로토콜과 자동 네트워크 기술 (Multicast Routing Protocol and Autoconfiguration Technology for IPv6 Mobile Ad Hoc Network)

  • 김기범;김기천
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.1241-1244
    • /
    • 2003
  • 이동 Ad Hoc 네트워크는 사전에 계획되지 않은, 필요에 의해서 발생하는 단일 혹은 멀티 홉 무선 네트워크이다. 기간망 구조를 활용하지 않는 이동 Ad Hoc 네트워크에서는 네트워크를 구성하는 이동 단말들에게 라우팅 기능이 전가되며, 이동 단말의 움직임에 따라 동적으로 네트워크 토폴로지가 변경되는 특성을 갖게 된다. 현재 제안되고 있는 이동 Ad Hoc 네트워크의 라우팅 프로토콜들은 기본적으로 이동 Ad Hoc 네트워크의 목성을 고려하여 설계되었으며, 각기 효율적인 라우팅 알고리즘을 제안하여 이동 Ad Hoc 네트워크상에서 발생할 수 있는 제어 패킷 부담, 전력 소모 부담 등을 최소화 하기 위한 연구를 하고 있다. 또한 Ad hoc 네트워크 사용자들이 쉽게 이동단말을 이용할 수 있도록 이동단말의 주소 설정을 IPv6의 주소 자동설정을 이용하는 무설정 기법이 제안되고 있다. 본 논문에서는 Ad hoc 네트워크의 특징 및 응용과 현재까지 제안되어 온 멀티캐스트 라우팅 프로토콜의 특징을 분석하고 IP 네트워크에 필수적인 자동화 기술의 개념은 개발현황을 소개한 후 향후 연구 방향을 제시하였다.

  • PDF

발화 음성을 기반으로 한 감정분석 시스템 (Context sentiment analysis based on Speech Tone)

  • 정준혁;박수덕;김민승;박소현;한상곤;조우현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.1037-1040
    • /
    • 2017
  • 현재 머신러닝과 딥러닝의 기술이 빠른 속도로 발전하면서 수많은 인공지능 음성 비서가 출시되고 있지만, 발화자의 문장 내 존재하는 단어만 분석하여 결과를 반환할 뿐, 비언어적 요소는 인식할 수 없기 때문에 결과의 구조적인 한계가 존재한다. 따라서 본 연구에서는 인간의 의사소통 내 존재하는 비언어적 요소인 말의 빠르기, 성조의 변화 등을 수치 데이터로 변환한 후, "플루칙의 감정 쳇바퀴"를 기초로 지도학습 시키고, 이후 입력되는 음성 데이터를 사전 기계학습 된 데이터를 기초로 kNN 알고리즘을 이용하여 분석한다.