• 제목/요약/키워드: 학습 집합 구축

검색결과 80건 처리시간 0.031초

증거와 Claim의 LM Perplexity를 이용한 Zero-shot 사실 검증 (Zero-Shot Fact Verification using Language Models Perplexities of Evidence and Claim)

  • 박은환;나승훈;신동욱;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.524-527
    • /
    • 2021
  • 최근 국외에서 사실 검증 연구가 활발하게 이루어지고 있지만 한국어의 경우 데이터 집합의 부재로 인하여 사실 검증 연구가 이루어지는데 큰 어려움을 겪고 있다. 이러한 어려움을 해소하고자 자동 생성 모델을 통하여 데이터 집합을 생성하는 시도도 있으나 생성 모델의 특성 상 부정확한 데이터가 생성되어 사실 검증 연구의 퀄리티를 떨어뜨린다는 문제점이 있다. 이러한 문제점을 해소하기 위해 수동으로 구축한 100건의 데이터 집합으로 최근에 이루어진 퓨-샷(Few-Shot) 사실 검증을 확장한 학습이 필요없는 제로-샷(Zero-Shot) 질의 응답에 대한 사실 검증 연구를 제안한다.

  • PDF

유전 알고리즘 기반 귀납적 학습 환경에서 다중 분류기 시스템의 구축을 위한 메타 학습법 (A Meta-learning Approach for Building Multi-classifier Systems in a GA-based Inductive Learning Environment)

  • 김영준;홍철의
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 유전 알고리즘 기반 귀납적 학습 환경 하에서 메타 학습법을 이용한 다중 분류기 시스템의 구축에 관한 것이다. 메타 학습법을 이용한 다중 분류기 시스템의 구축에서 분류기는 일반 분류기와 메타 분류기로 구성된다. 메타 분류기는 사례에 대한 일반 분류기의 분류 결과에 학습 알고리즘을 적용하여 얻어진다. 분류시스템의 의사 결정과정에서 메타 분류기의 역할은 일반 분류기의 분류 결과를 평가하여 최종 의사 결정 과정에의 참여 여부를 결정하는 것이다. 분류 시스템은 분류기의 분류 결과가 옳은 것으로 평가된 결과들만 취합하여 이를 바탕으로 최종 분류 결과를 도출해 낸다. 메타 학습법이 다중 분류기 시스템의 성능에 미치는 영향을 다수의 사례 집합을 이용하여 평가하였다.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

자기조절학습과 UDL설계 학습모형을 적용한 e-멘토링 시스템 구축에 관한 연구 (A study on self-regulated learning and UDL study model Implementation for e-mentoring system)

  • 이정훈;우진운
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.91-99
    • /
    • 2011
  • 성인학습자는 일반적으로 자기조절학습이 뛰어나 학업성취도와 학업지속성이 높지만, 온라인 교육 환경에서는 오랜 기간 학습의 중단과 과거 집합교육에 익숙하여 성인학습자의 장점인 자기조절학습이 쉽지 않아 학업저하 및 학업포기 현상이 발생되고 있다. 본 연구에서는 자기조절학습과 UDL설계 학습모형을 개발하고 이것을 적용한 e-멘토링 시스템을 구축하였다. 실험결과를 분석하기 위하여 연구자는 H 사이버대학교 신.편입 학습자를 대상으로 통제집단과 실험집단으로 구분하고 집단별 100명을 대상으로 학습동기전략질문지(MSLQ)를 기반으로 총 36문항의 질문지로 구성된 학업만족도 설문조사를 하였으며, 학업성취도와 학업지속성에 대한 영향을 알고자 1학기의 성적, 재등록률, 학습시간을 추출하였다. 상관분석 결과는 실험집단에서 만족도가 높을수록 학업성취도(성적)와 학업지속성(재등록률, 학습시간)이 높음을 보이고 있다 본 연구의 결과로 원격대학교 성인학습자들에게 새로운 형태의 e-러닝 교육 부적응 문제를 해결을 할 수 있는 방향과 기준을 제시할 수 있을 것이다.

그래프 기반 준지도 학습 방법을 이용한 특정분야 감성사전 구축 (The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method)

  • 김정호;오연주;채수환
    • 감성과학
    • /
    • 제18권1호
    • /
    • pp.103-110
    • /
    • 2015
  • 감성어휘는 텍스트로 감성을 표현하거나, 반대로 텍스트로부터 감성을 인식하기 위한 특징으로써 감성분류 연구에 필수요소이다. 본 연구는 감성어휘의 집합인 감성사전을 자동으로 구축하는 그래프 기반 준지도 학습 방법을 제안한다. 특히 감성어휘가 사용되어지는 분야에 따라 그 감성이 변하는 중의성 문제를 고려하여 분야 별 감성사전을 구축하고자 한다. 제안하는 방법은 어휘와 어휘들 간의 밀접도를 토대로 그래프를 구성하고, 사전에 학습 된 일부 소량의 감성어휘들의 감성을 구성된 그래프 전체에 전파하는 방식으로 모든 어휘의 감성을 추론한다. 감성어휘는 대표적으로 감성단어와 감성구문이 있으며, 본 연구에서는 이들 각각에 대한 그래프를 구성하고 감성을 추론하여 전체 감성사전을 구축하였다. 제안하는 방법의 성능을 검증하기 위해 영화평 분야의 감성사전을 구축하고, 이를 이용한 영화평 감성분류 실험을 수행하였다. 그 결과 기존 범용 감성사전의 어휘들을 이용한 감성분류보다 더 높은 분류 성능을 확인하였다.

문서 구조 정보를 이용한 확률 모델 기반 자동요약 시스템 (An Automatic Summarization System Based On a Probabilistic Model Using Document Structure Information)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-22
    • /
    • 1997
  • 인터넷과 정보 서비스 기술의 발달로 일반 대중에게 제공되는 정보의 양은 기하급수적으로 증가하고 있는 추세지만 사용자가 원하는 정보를 얻기는 더욱 어려워지고 있으며, 필요한 정보를 찾은 경우에도 그 양이 많기 때문에 전체적인 내용을 파악하는 데 많은 시간을 소비하게 된다. 이러한 문제를 해결하고자 본 연구에서는 통계적 모델을 사용하여 문서로부터 문장을 추출한 후 요약문을 작성하여 사용자에게 제시하는 시스템을 개발하였다. 문서 요약 시스템의 구축을 위하여 사용된 방법은 문서 집합으로부터 중요 문장을 추출한 후 이로부터 요약문에 나타날 수 있는 특성(feature)과 중요 단어를 학습하여 학습된 내용을 이용하여 요약문을 하는 방법이다. 시스템 개발 및 평가를 위해 사용된 문서는 정보 과학 분야의 논문 모음이며 이를 학습 데이터와 실험 데이터로 구분한 후 학습 데이터로부터 필요한 정보를 얻고 실험 데이터로 평가하였다.

  • PDF

불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법 (Kernel Perceptron Boosting for Effective Learning of Imbalanced Data)

  • 오장민;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

신문기사와 소셜 미디어를 활용한 한국어 문서요약 데이터 구축 (Building a Korean Text Summarization Dataset Using News Articles of Social Media)

  • 이경호;박요한;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권8호
    • /
    • pp.251-258
    • /
    • 2020
  • 문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다. 그렇기 때문에 온라인으로 쉽게 수집 가능하며 문서의 품질이 우수한 인터넷 신문기사가 문서 요약 연구에 많이 활용되어 왔다. 본 연구에서는 언론사가 소셜 미디어에 게시한 설명글과 제목, 부제를 본문의 요약으로 사용하여 한국어 문서 요약 데이터를 구성하는 것을 제안한다. 약 425,000개의 신문기사와 그 요약데이터를 구축할 수 있었다. 구성한 데이터의 유용성을 보이기 위해 추출 요약 시스템을 구현하였다. 본 연구에서 구축한 데이터로 학습한 교사 학습 모델과 비교사 학습 모델의 성능을 비교하였다. 실험 결과 제안한 데이터로 학습한 모델이 비교사 학습 알고리즘에 비해 더 높은 ROUGE 점수를 보였다.

연합학습의 인센티브 플랫폼으로써 이더리움 스마트 컨트랙트를 시행하는 경우의 실무적 고려사항 (Practical Concerns in Enforcing Ethereum Smart Contracts as a Rewarding Platform in Decentralized Learning)

  • ;;장설아;이경현
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권12호
    • /
    • pp.321-332
    • /
    • 2020
  • 탈중앙화 접근법은 기존 시스템의 데이터 프라이버시 결함을 보완하기 위해 산·학계에서 폭넓게 연구되고 있다. 블록체인은 기록된 데이터는 위조할 수 없으며 합의를 기반으로 의사결정을 이루고 전반적인 거래의 비용은 저렴한 특징을 가지고 있다. 연합학습은 데이터 집합을 공개적으로 노출하지 않고 다수의 장치를 집합적으로 사용 함으로서 딥러닝 모델을 개선할 수 있게 한다. 모델 구축을 위해서는 자원을 사용하도록 참여자들의 동기 부여를 위한 적절하고 참여 비율에 합당한 인센티브 제도가 필수적이다. 그러나 중앙집중화된 인센티브 메커니즘은 중간 계층에 의존하고 여전히 병목현상을 유발하기 때문에 연합학습에 적용하기에는 어려움이 있다. 따라서, 우리는 이더리움 스마트컨트랙트를 활용하여 연합학습 어플리케이션을 위한 인센티브 모델을 제안한다. 구현 결과는 설계 목표를 충족하였고, 마지막 절에서 연합학습에서 프라이버시 및 데이터 유출과 관련된 민감 데이터에 대한 본 구현을 실행할 때 발생할 수 있는 사항들을 설명한다.

다중 인스턴스 학습 기반 사용자 프로파일 식별 (Discriminating User Attributes in Social Text based on Multi-Instance Learning)

  • 송현제;김아영;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2012
  • 본 논문에서는 소셜 네트워크 서비스에서 사용자가 작성한 텍스트로부터 그 사용자 프로파일 식별하는 문제를 다룬다. 프로파일 식별 관련 기존 연구에서는 개별 텍스트를 하나의 학습 단위로 간주하고 이를 기반으로 학습 모델을 구축한다. 프로파일을 식별하고자 하는 사용자의 텍스트들이 주어지면 각 텍스트마다 프로파일을 식별하고, 식별된 결과들을 합쳐 최종 프로파일로 선택한다. 하지만 SNS 특성상 프로파일을 식별하는 데에 영향을 끼치지 않는 텍스트들이 다수 존재하며, 기존 연구들은 이 텍스트들을 특별한 처리없이 학습 및 테스트에 사용함으로 인해 프로파일 식별 성능이 저하되는 문제점이 있다. 본 논문에서는 다중 인스턴스 학습(Multi-Instance Learning)을 기반으로 사용자 프로파일을 식별한다. 제안한 방법은 사용자가 작성한 텍스트 전체, 즉 텍스트 집합을 학습 단위로 간주하고 다중 인스턴스 학습 문제로 변환하여 프로파일을 식별한다. 다중 인스턴스 학습을 사용함으로써 프로파일 식별에 유의미한 텍스트들만이 고려되고 그 결과 프로파일 식별에 영향을 끼치지 않는 텍스트로부터의 성능 하락을 최소화할 수 있다. 실험을 통해 제안한 방법이 기존 학습 방법보다 성별, 나이, 결혼/연애 상태를 식별함에 있어서 더 좋은 성능을 보인다.

  • PDF