• 제목/요약/키워드: 확률적 학습

검색결과 509건 처리시간 0.027초

확률적 언어 모델을 위한 자료 기반 어휘 구축 (A data-driven approach for lexicon selection for probabilistic language model)

  • 류성호;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2002
  • 한국어를 대상으로 하는 확률적 언어 모델에서는 대부분의 경우 형태소를 기본 어휘로서 사용하고 있다. 그러나, 이러한 모델들은 학습 및 검증을 위하여 사람에 의하여 형태소 분석이 이루어진 말뭉치를 필요로 한다. 또한, 형태소의 자동 분석은 현재 표준말을 중심으로 이루어져 있어 그 적용 분야에도 한계가 있다. 본 논문에서는 한국어의 특징을 고려하여 확률적 언어 모델의 구축에 적합한 어휘의 선택 기준에 대하여 고찰하고, 통계적인 기준을 통하여 확률적 언어 모델의 어휘를 구축하는 방법을 제안한다.

  • PDF

확률 벡터를 사용한 전자 문서의 개념적 분류 기법

  • 조완섭;김영렬;강원석;강현규
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1997년도 추계학술대회 발표논문집:21세기를 향한 정보통신 기술의 전망
    • /
    • pp.53-62
    • /
    • 1997
  • 본 논문에서는 전자문서의 개념적 분류기법을 제안한다. 기존의 문서분류는 대부분 문서에 나타난 용어를 기반으로 분류하므로 개념적인 분류가 불가능하다. 제안된 기법에서는 한국어 시소러스를 사용하여 문서에 나타난 용어 뿐 아니라 용어의 상하위 개념을 기준으로 문서를 분류할 수 있다. 특히, 제안된 방법은 확률 벡터를 사용하는 방식으로써 점진적인 학습이 가능하다는 장점도 가진다.

  • PDF

잠재 고객 예측을 위한 능동 학습 기법 (Active Learning for Prediction of Potential Customers)

  • 박상욱;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.96-98
    • /
    • 2000
  • 본 논문에서는 상거래 환경에서 구매자와 비구매자들에 대한 데이터를 학습한 후, 잠재고객들 중에서 구매 확률이 높은 사람을 예측하는 문제에 효율적으로 접근하기 위해 능동적인 데이터 선택 기법을 이용한다. 실험 데이터는 ColL Challenge 2000에서 얻은 데이터로서, 구매자들의 정보보다 비구매자들의 정보가 더 많기 때문에 상당히 균형이 맞지 않는다. 따라서 모든 데이터를 한꺼번에 학습하는 경우에 성능이 좋지 않다. 본 논문에서는 이러한 불균형 분포를 갖는 실제적인 문제에 있어서 성능이 좋지 않다. 본 논문에서는 이러한 불균형 분포를 갖는 실제적인 문제에 있어서 RBF 기반의 신경망을 가지고 능동 학습을 함으로써 기존의 뱃치학습 보다 예측의 정확도를 향상시킬 수 있음을 보인다.

  • PDF

라벨 노이즈 환경에서 확률분포 예측 성능 향상 방법 (Probability distribution predicted performance improvement in noisy label)

  • 노준호;우승범;황원준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.607-610
    • /
    • 2021
  • 지도학습에서 모델을 학습함에 있어 입력 데이터와 해당 데이터의 라벨이 필요하다. 하지만 신뢰성 있는 라벨링은 비용과 시간적인 면에서 많이 소요되며 이를 자동화할 경우 라벨이 언제나 맞는다는 보장이 없어 노이즈가 들어가게 된다. 이러한 라벨 노이즈 환경에서 지도학습을 진행할 경우 모델은 학습 초기에는 정확도가 올라가지만, 어느 정도 학습 후 정확도가 크게 감소되는 경향을 보인다. 라벨 노이즈 문제를 해결하기 위해 다양한 방법이 있지만, 대다수의 경우 모델이 예측한 확률을 수도라벨로 사용해 이용하는 경우가 많다. 여기에 대해서 우리는 모델이 예측한 확률을 정제하여 좀 더 빠르게 참 라벨을 예측하는 방법을 제시한다. 기존의 논문 중 모델이 예측한 확률을 사용하는 방법에 우리가 제안하는 방법을 적용하여 같은 환경, 데이터셋에 대해 실험을 진행한 결과 성능개선과 더 빠르게 수렴하는 것을 확인할 수 있었다. 이를 통해 기존 연구들 중 모델이 예측하는 확률분포를 사용하는 방법들에 적용할 수 있고 같은 환경에서도 더 빠르게 수렴시킬 수 있기에 학습 소요시간을 줄일 수 있다.

  • PDF

베이지안 이론을 이용한 감성 추론 모델에 관한 연구 (A research on Bayesian inference model of human emotion)

  • 김지혜;황민철;김종화;우진철;김치중;김용우
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2009년도 추계학술대회
    • /
    • pp.95-98
    • /
    • 2009
  • 본 연구는 주관 감성에 따른 생리 데이터의 패턴을 분류하고, 임의의 생리 데이터의 패턴을 확인하여 각성-이완, 쾌-불쾌의 감성을 추론하기 위해 베이지안 이론(Bayesian learning)을 기반으로 한 추론 모델을 제안하는 것이 목적이다. 본 연구에서 제안하는 모델은 학습데이터를 분류하여 사전확률을 도출하는 학습 단계와 사후확률로 임의의 생리 데이터의 패턴을 분류하여 감성을 추론하는 추론 단계로 이루어진다. 자율 신경계 생리변수(PPG, GSR, SKT) 각각의 패턴 분류를 위해 1~7로 정규화를 시킨 후 선형 관계를 구하여 분류된 패턴의 사전확률을 구하였다. 다음으로 임의의 사전 확률 분포에 대한 사후 확률 분포의 계산을 위해 베이지안 이론을 적용하였다. 본 연구를 통해 주관적 평가를 실시하지 않고 다중 생리변수 인식을 통해 감성을 추론 할 수 있는 모델을 제안하였다.

  • PDF

영역 기반 영상 검색을 위한 다중클래스 피드백 알고리즘 (Multi-class Feedback Algorithm for Region-based Image Retrieval)

  • 고병철;남재열
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.383-392
    • /
    • 2006
  • 본 논문에서는 영역기반 영상검색의 성능 향상을 위한 피드백 알고리즘으로 다중 클래스를 갖는 확률적 신경망(Probabilistic Neural Networks)을 이용한 방법론을 제안하고 이를 영역기반 영상 검색 시스템인 FRIP(Finding Regions In the Pictures) 시스템에 적용하였다. 본 논문에서 제안하는 피드백 알고리즘은 특정 벡터가 독립적이라는 가정을 할 필요가 없으며 보다 상세한 분류를 위해 추가적인 클래스들을 추가할 수 있도록 허용하고 있다. 또한 단지 4개 층(layer)만을 가지고 있음으로 학습을 위한 계산시간이 적게 든다는 장점이 있다. 추가적으로 다음단계에서의 성능 향상을 위해 분류 단계에서 사용자의 이전 피드백 행동을 모두 히스토리(history)로 모두 기억시켜 놓고 다음 단계를 위한 가중치 학습을 위해 사용하도록 한다. 히스토리를 사용함으로써 제안하는 알고리즘은 사용자의 주관적 의도를 보다 정확하게 파악 할 수 있을 뿐만 아니라 학습을 위해 이전 단계만을 사용 했을 때 발생할 수 있는 성능 감소를 막을 수 있다. 본 논문에서는 Corel-photo CD에서 3000장의 자연 영상을 무작위로 추출하여 기존의 방법론들과 제안하는 방법론의 성능을 측정하여 본 논문에서 제안하는 방법론이 성능이 우수함을 증명하였다.

'확률과 통계' 교과서에 제시된 맥락 기반 과제의 학습기회 분석 (Analysis on Opportunity-to-learn context-based tasks provided by 'Probability and Statistics' textbooks)

  • 최희선
    • 한국학교수학회논문집
    • /
    • 제22권3호
    • /
    • pp.241-256
    • /
    • 2019
  • 본 연구는 '확률과 통계' 교과서에 제시된 과제의 맥락 유형과 과제를 수행할 때 요구되는 인지적 역량이 학생들에게 어떠한 학습기회를 제공하는지 살펴보았다. 이를 위해 2015 개정 수학과 교육과정에 따른 '확률과 통계' 검정교과서 전체 9권을 분석한 결과, 맥락 기반 과제(CF유형, RE유형)는 각 교과서마다 전체 과제 개수의 67.5%부터 78.0%로 나타났지만 실생활에 연관된 본질적인 과제(RE유형) 비율은 0.4%부터 2.0%로 나타나 교과서에 제시된 대부분의 맥락 기반 과제는 실생활 소재를 위장한 과제임을 알 수 있었다. 그리고 맥락 기반 과제의 인지적 역량은 각 교과서마다 재생산(Rp)범주에 속하는 과제 비율은 29.6%부터 50.0%로 다양하게 나타났고, 연결(Co)범주 과제 비율은 33.8%부터 54.3%, 반성(Rf)범주 과제 비율은 8.8%부터 20.0%로 나타나 과제수행 시 학생들이 반성적 인지 과정을 경험할 수 있는 학습기회는 다소 충분하지 않음을 알 수 있었다.

베이지안망을 이용한 유전자와 약물 간 관계 분석 (Analysis of Gene-Drug Interactions Using Bayesian Networks)

  • 오석준;황규백;장정호;장병탁
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 춘계 학술발표회 논문집
    • /
    • pp.91-97
    • /
    • 2002
  • 최근의 생물학 연구를 위한 기기의 자동화 및 고속화는 생물학 관련 정보량의 급증을 가져오고 있다. 예를 들어, DNA chip에서 얻어지는 마이크로어레이(microarray)는 수천 종류의 유전자의 발현량을 동시에 측정한다. 이러한 기술들은 생물의 세포나 조직에서 일어나는 일련의 다양한 현상을 전체적으로 조망하는 관점에서 관찰할 수 있는 기회를 제공하고 있으며, 이를 통한 생명공학의 전반적인 발전이 기대되고 있다. 따라서 대량의 생물학 관련 정보의 분석이나 데이터 마이닝이 행해지고 있으며 이를 위한 대표적인 기법들로는 각종 클러스터링(clustering) 및 신경망 계열의 모델 등이 있다. 본 논문에서는 확률그래프모델의 하나인 베이지안망(Bayesian network)을 생물정보분석에 이용한다. 구체적으로 유전자 발현패턴과 약물의 활성패턴 및 암 종류 사이의 확률적 관계를 모델링한다. 이러한 모델은 NCI60 dataset(http://discover.nci.nih.gov)에서 베이지안망을 학습함으로써 구성된다. 분석의 대상이 되는 데이터가 sparse하기 때문에 발생하는 어려움들을 해결하기 위한 기법들이 제시되며 학습된 모델에 대한 검증은 이미 생물학적으로 확인되어 있는 사실과의 비교를 통해 이루어진다. 학습된 베이지안망 모델은 각각의 유전자 간, 혹은 유전자와 처리된 약물 간의 실제 생물학적 관계를 다수 표현하며, 이는 제시되는 방법이 생물학적으로 유의미한 가설을 데이터 분석을 통해 효율적으로 생성하는데 유용하게 활용될 수 있음을 보인다.

  • PDF

비안정적인 Rework 확률이 존재하는 제조공정을 위한 적응형 스케줄링 알고리즘 (An Adaptive Scheduling Algorithm for Manufacturing Process with Non-stationary Rework Probabilities)

  • 신현준;유재필
    • 한국산학기술학회논문지
    • /
    • 제11권11호
    • /
    • pp.4174-4181
    • /
    • 2010
  • 본 논문은 비안정적인 재작업 발생확률이 존재하는 제조공정을 위한 적응형 스케줄링 알고리즘을 제시한다. 본 논문에서 제안하는 하이브리드 Q-학습 알고리즘은 강화학습 기반의 Q-학습과 인공신경망을 결합한 알고리즘으로써 재작업확률이 불안정한 상황의 제조공정에 대해 학습을 통해 적응력을 가질 수 있도록 고안되었다. 제안 알고리즘은 평균지연시간을 척도로 그 성능을 평가하였고, 기존의 작업할당 알고리즘들과 다양한 실험 시나리오를 기반으로 비교함으로써 그 우수성을 보이도록 한다.

효과적인 온라인 학습을 위한 학습자특성과 선호도 분석 (Analysis of Learners' Characteristics and Preferences for Effective Online Learning)

  • 이영림;임희주
    • 융합정보논문지
    • /
    • 제11권12호
    • /
    • pp.138-147
    • /
    • 2021
  • 본 연구의 목적은 효과적인 온라인 학습을 위해 대학 온라인수업에 참여한 학생들의 특성과 선호도를 살펴보고 분석하는 데 있다. 총 101명의 온라인수업에 참여한 대학생이 학생들 개인의 특성과 온라인수업에 영향을 미치는 학습요인들을 포함한 설문 작성을 완료하였다. 연구 결과, 남학생이 여학생보다, 녹화영상으로 학습한 학생들이 실시간수업으로 학습한 학생들보다 온라인수업이 더 효과적이라고 답할 확률이 높았다. 또한 온라인학습 시 어려웠던 점을 분석한 결과, 스스로 학습과 교수자에게 질문하기 어려움이 있는 학생들에게는 온라인 학습이 비효과적일 확률이 높았다. 온라인 강의 학습시간이 많은 학생들과는 달리 과제수행시간이 많은 학생들에게는 온라인수업이 더 효과적일 확률이 높았다. 이러한 결과는 수동적으로 수업에 참여하는 학생들보다 능동적이고 자기주도적으로 학습하는 유형의 학생들에게 온라인학습이 더 효과적이라고 할 수 있겠다. 본 연구의 시사점으로, 온라인수업의 학습효과를 높이기 위해서 학습자의 특성과 선호도를 바탕으로 온라인수업을 설계하여 교육의 질을 높이는 노력이 필요하겠다.