• 제목/요약/키워드: mBERT

검색결과 58건 처리시간 0.031초

관세데이터를 활용한 개체명 인식 (Named Entity Recognition Using Customs Data)

  • 유경훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.434-436
    • /
    • 2023
  • 본 연구는 관세 데이터를 BERT 기반 모델을 활용한 개체명 인식(NER)모델을 제안한다. 관세 분야 국내 첫 시도이며, 선행연구들과 달리 개체명 인식에 초점을 맞춘다. 관세 관련 텍스트에서 고유한 의미의 개체를 인식하는 것이 주요 목표이다. 이 연구는 관세 분야의 개체명 인식에 대한 이해도를 높이고 향후 HS 코드 검색 시스템 개발에 대한 기초 연구를 제공한다.

감정 인지를 위한 음성 및 텍스트 데이터 퓨전: 다중 모달 딥 러닝 접근법 (Speech and Textual Data Fusion for Emotion Detection: A Multimodal Deep Learning Approach)

  • 에드워드 카야디;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.526-527
    • /
    • 2023
  • Speech emotion recognition(SER) is one of the interesting topics in the machine learning field. By developing multi-modal speech emotion recognition system, we can get numerous benefits. This paper explain about fusing BERT as the text recognizer and CNN as the speech recognizer to built a multi-modal SER system.

감마선 및 화학적 돌연변이원 처리가 스테비아 (Stevia rebaudiana Bert.)의 종자 발아 및 초기 생장에 미치는 영향 (Effects of Gamma-ray and Chemical Mutagens on the Germination and Seedling Growth in Stevia rebaudiana Bert.)

  • 윤태영;김이엽;김영호;최진수;현경섭;성윤희;조한직;김동섭;강시용;고정애
    • 방사선산업학회지
    • /
    • 제6권2호
    • /
    • pp.189-197
    • /
    • 2012
  • This study was carried out to develop the improved useful mutants for yield or composition of stevia plants using the gamma ray or chemical mutagens treatments. The seeds of stevia 'Suwon No. 11' were irradiated up to 400 Gy of gamma ray. Chemical mutagens were treated on the seeds of the 'Suwon No. 11' using 0.07% colchicine, 10 mM sodium azide, or 10 mM NMU for various durations. The germination rate, and shoot and root growth of seedling were estimated at 30 days after gamma ray irradiation or chemical mutagen treatment, and the plant height, the number of branches, and leaf length and width were examined at 3 months after mutagenesis treatments. In the case of gamma ray treatments, the germination rate and early-stage growth were decreased as the increase of radiation dose, and the 50% lethal dose was found to be 200 Gy. the plant height was decreased as the increase of radiation dose, while the number of branches per plant and leaf length were increased. Leaf shape was modified to the relatively longer one compared to the control, which was identified more apparently at the treatments of higher than 150 Gy. In the treatment of chemical mutagens, the rate of germination and survival were decreased as the increase of incubation time. The 50% lethal dose for germination rate were identified as the conditions of the 15 hours incubation in 0.07% colchicine, the 4 hrs in 10 mM sodium azide, and the 2 hrs in 10 mM NMU, in the three chemical mutagens treatments. Chemical mutagens had no influence on shoot growth, while root growth was increased, especially as the incubation time was extended. The highest root growth occurred in the NMU treatment at 6 hrs incubation time. The plant height was decreased as the increase of incubation time in the chemical mutagens treatments. Among the chemical mutagens, NMU was the most effective to induce the mutants with long-shaped or the least lobed leaves.

광대역종합정보통신망 위한 155Mbps 광수신 모듈 (155Mbps Optical Receiver Module for B-ISDN)

  • 김상곤
    • 한국광학회:학술대회논문집
    • /
    • 한국광학회 1998년도 제15회 광학 및 양자전자 학술발표회 논문집
    • /
    • pp.184-185
    • /
    • 1998
  • 본 논문은 광/전 변환 소자로서, 단일 모드 광섬유로부터 입력되는 1.3$\mu$m 파장의 광신호를 ECL(Emitter Coupled Logic) 레벌의 전기 신호로 입력된 데이터를 출력 시키는 광수신 모듈에 관한 것으로, 초고속정보통신망 구축을 위한 ATM system, B-NT(Briadband Network Terination) system, 10G 전송 system 등에 직접 사용할수 있는 Clock Recevery 없는 155Mbps 광수신 모듈을 소개한다. 또한 광모듈 원가의 대부분을 차지 하고 있는 광패키징 가격 하락을 위하여 Si기판을 이용한 수동 광정렬 방식의 패키징 방법 을 사용하여 소형화, 저렴한 가격, 그리고 소요공정 시간을 단축하였다[1]. 모듈의 신뢰도를 위하여 신뢰성 시험[2] 및 system 시험을 하였으며 BERT(Bit Error Rate Tester)로 측정한 광수신의 평균 수신감도는 -36dB이다.

  • PDF

음소 단위 임베딩 기반 한국어 모델 (Phoneme-level Embedding based Korean Language Model)

  • 최우성;현경석;정재화;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1026-1029
    • /
    • 2019
  • 최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

딥러닝 기반 특허의 종속 청구항 인식 개선 (Improving Recognition of Patent's Claims with Deep Neural Networks)

  • 박주연;신예지;김민수;김동호;김지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.500-503
    • /
    • 2020
  • 특허를 통해 기술의 권리를 정의하고 보호하는 일이 매우 중요해짐에 따라 특허 문서를 분석하는 연구 또한 중요해지고 있다. 특히 특허의 청구항을 종속항과 독립항을 구분하고, 관련된 인용을 찾아내는 일은 관련 특허들을 분석하는데 매우 중요하다. 본 연구는 최근 텍스트 분석 분야에 획기적 성능 개선을 이끈 BERT(Bidirectional Encoder Representations From Transformers) 언어 모델을 사용하고 Neural Network 의 파인 튜닝 과정을 통해 청구항의 독립과 종속을 구분하였고, 인용하는 항의 번호와 인용 문구로 이루어진 인용 패턴을 통해 종속항의 인용 항을 찾아내었다. 이 방법을 2003 년 이후의 xml 형식의 미국 특허 데이터에 사용한 결과, 정확도 99% 의 성능을 확보하였다.

Open STT API와 머신러닝을 이용한 AI 보이스피싱 예방 솔루션 (AI voice phishing prevention solution using Open STT API and machine learning)

  • 모시은;양혜인;조은비;윤종호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.1013-1015
    • /
    • 2022
  • 본 논문은 보이스피싱에 취약한 VoIP와 일반 유선전화 상의 보안을 위해 유선전화의 대화내용을 Google STT API 및 텍스트 자연어 처리를 통해 실시간으로 보이스피싱 위험도를 알 수 있는 모델을 제안했다. 보이스피싱 데이터를 Data Augmentation와 BERT 모델을 활용해 보이스피싱을 예방하는 솔루션을 구상했다.

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법 (Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning)

  • 한명수 ;정유현 ;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축 (Construction of Korean symptom articulation data using rule-based data augmentation technique)

  • 전성원;이동준;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.