• Title/Summary/Keyword: 엔트로피 모델

Search Result 154, Processing Time 0.021 seconds

Novel Intent Category Discovery using Contrastive Learning (대조학습을 활용한 새로운 의도 카테고리 발견)

  • Seungyeon Seo;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF

Maximum Entropy Approach to Transmembrane Protein Prediction (최대 엔트로피 모델을 이용한 막횡단 단백질 예측)

  • Yoon, Sung-Hee;Cha, Jeong-Won;Park, Seung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.664-666
    • /
    • 2005
  • 막횡단 단백질(Transmembrane Protein)은 약물표적(drug target)으로 신약개발로 대표되는 바이오 산업에서 중요한 연구대상이 되고 있다. 막횡단 단백질의 구조는 실험적 기법 또는 컴퓨터 모델링 기술을 이용하여 연구되고 있으며 컴퓨터 모델링 방법 중에서는 Hidden Markov Mode(HMM)에 기반한 시스템들이 좋은 성능을 보이고 있다. 그런데 이러한 시스템들은 구조형성에 관여하는 단백질의 다양한 특성에 대한 지식은 많이 고려하고 있지 않다. 만약 이러한 특성들이 고려된다면 구조 예측에 효과적인 보다 지능적인 모델을 만드는데 도움을 줄 수 있을 것이다. 본 논문은 단백질의 특성과 관련한 다양한 정보들을 융합하는데 효율적인 최대엔트로피모델(Maximum Entropy Model)을 이용하여 막횡단 단백질의 서열(sequence)로부터 막횡단 지역을 예측하는 방법을 제시하고자 한다.

  • PDF

Korean Part-Of-Speech Tagging based on Maximum Entropy Model (최대 엔트로피 모델을 이용한 한국어 품사 태깅)

  • Kang, In-Ho;Kim, Jae-Hoon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.9-14
    • /
    • 1998
  • 주어진 문자열에 품사를 정해주는 방법으로 현재 많이 사용되고 있는 것 중의 하나로 통계적 방법을 들 수 있다. 대부분의 통계적 방법은 품사 태깅을 위해 주변 품사열만으로 이뤄진 단순한 정보를 사용하고 있는데, 품사 태깅 문제는 본래 품사열 정보 뿐 아니라 단어에 대한 어휘 정보, 통사 정보, 연어 정보 등 다양한 정보들이 종합되어야 하는 문제이다. 이에 본 논문에서는 품사 태깅에 유용한 정보를 정형화하여 성능 향상을 얻어내는 방법을 제안한다. 제안된 방법은 먼저 품사열 정보만을 이용한 품사 태깅의 주된 오류인 조사, 용언, 연결어미의 구분 문제와 복합어의 형태소 분석 문제를 해결하기 위한 정보를 품사 분류 기준으로부터 얻어낸다. 얻어낸 정보들은 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용된다. 이렇게 얻어낸 모델을 가지고 수행된 실험 결과, 품사열 정보만을 이용한 품사태깅보다 좋은 성능을 얻을 수 있었다.

  • PDF

ME-based Emotion Recognition Model (ME 기반 감성 인식 모델)

  • Park, So-Young;Kim, Dong-Geun;Whang, Min-Cheol
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.985-987
    • /
    • 2010
  • In this paper, we propose a maximum entropy-based emotion recognition model using individual average difference. In order to accurately recognize an user' s emotion, the proposed model utilizes the difference between the average of the given input physiological signals and the average of each emotion state' signals rather than only the input signal. For the purpose of alleviating data sparse -ness, the proposed model substitutes two simple symbols such as +(positive number)/-(negative number) for every average difference value, and calculates the average of physiological signals based on a second rather than the longer total emotion response time. With the aim of easily constructing the model, it utilizes a simple average difference calculation technique and a maximum entropy model, one of well-known machine learning techniques.

  • PDF

Feature Subset Selection Algorithm based on Entropy (엔트로피를 기반으로 한 특징 집합 선택 알고리즘)

  • 홍석미;안종일;정태충
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.2
    • /
    • pp.87-94
    • /
    • 2004
  • The feature subset selection is used as a preprocessing step of a teaming algorithm. If collected data are irrelevant or redundant information, we can improve the performance of learning by removing these data before creating of the learning model. The feature subset selection can also reduce the search space and the storage requirement. This paper proposed a new feature subset selection algorithm that is using the heuristic function based on entropy to evaluate the performance of the abstracted feature subset and feature selection. The ACS algorithm was used as a search method. We could decrease a size of learning model and unnecessary calculating time by reducing the dimension of the feature that was used for learning.

New Information Behavior Model: Life Paradigm Based (생명 패러다임 정보행태모델)

  • Lee, Hyuk-Jin
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.27 no.1
    • /
    • pp.217-235
    • /
    • 2016
  • Humanities academia and scientific community have been fused together in 21st centurty and it creates new theories and models. Among them, the embodied cognition theory has received attention in several related fields. This study reviews the major metatheories in information user behavior with their limitations. Then, "Life paradigm information behavior model" is suggested as a new theory, which communsurates with new era's request, introducing the embodied cognition theory and the entropy concept. By overcoming the limitations of individual approach to the information retrieval and user behaviors, we expect the discourse of the new integrated information retrieval paradigm.

Entropy Reduction for the Code of Hangul Data Compression (한글 데이터 압축코드를 위한 엔트로피 감소)

  • Lee, Jae-Young;Sung, Koeng-Mo;Lee, Chong-Kak
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.54-57
    • /
    • 1989
  • 본 논문에서는 정보원의 집합이 여러개의 부집합으로 나누어지며 정보 발생 방법은 이들 부집합을 순서적으로 선택한 후 그 부집합에서 확률에 따라 원소를 발생시키는 성질을 갖는 정보원을 인코딩할 때 데이타를 압축시킬 수 있는 엔트로피 감소 모델을 제시하였다. 방법은 정보를 전송하는 과정에서 정보원이 갖고있는 성질에 관한 정보를 제외시킴으로서 평균 정보량 즉 엔트로피를 줄이는 것이다. 이와 같은 원리로 인코딩을 하면 데이타를 압축시킬수 있다.

  • PDF

Korean Noun Phrase Identification Using Maximum Entropy Method (최대 엔트로피 모델을 이용한 한국어 명사구 추출)

  • 강인호;전수영;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥 정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해석될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 시험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

CONFIDENCE MEAUSRING METHOD FOR CONTIUOUS SPEECH RECOGNITION USING MAXIMUM ENTROPY MODEL (최대 엔트로피 모델을 이용한 연속음성인식에서의 인식 신뢰도 측정)

  • Jung, Sang-Keun;Jeong, Min-Woo;Lee, Gary Geun-Baee
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.200-204
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로. 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는, 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

A Spam Filter System based on Maximum Entropy Model Using Spamness Features and URL Features (스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸메일 필터 시스템)

  • Gong, Mi-Gyoung;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.213-219
    • /
    • 2006
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 Ink도 자질로 사용하였다. 메일 수신자에게 추가적인 정보 제공을 목적으로 하이퍼링크로 연결시키거나 메일에 직접 타이핑한 URL 중 필터 시스템을 피하기 위해 유효하지 알은 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL을 각각 적용한 두 분류기를 통합하였다. 분류기의 통합은 각 분류기에 이용된 자질을 독립적으로 사용할 수 있다는 장점을 가지고 있다. 실험 결과를 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인할 수 있었다.

  • PDF