• 제목/요약/키워드: 확률분포모델

검색결과 511건 처리시간 0.032초

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

정보보호 대책의 효과성을 고려한 정보보호 투자 의사결정 지원 모형 (A Model for Supporting Information Security Investment Decision-Making Considering the Efficacy of Countermeasures)

  • 박병조;김태성
    • 경영정보학연구
    • /
    • 제25권4호
    • /
    • pp.27-45
    • /
    • 2023
  • 정보통신기술의 발달로 정보보호의 중요성이 커졌지만, 기업은 제한된 예산 내에서 적절한 대책을 선택하는 데 어려움을 겪고 있다. Sönmez and Kılıç(2021)는 정보 보안 침해를 완화하기 위한 최적의 투자 조합을 결정하기 위해 AHP 및 혼합 정수 계획을 사용하는 모델을 제안했다. 그러나 1) 보안 위협에 대한 보안 대책의 효과를 객관적으로 측정하지 못하고, 2) 투자로 인한 위험 감소가 투자 이전에 측정한 위험 수준을 초과하는 비현실적인 현상이 발생하고, 3) 여러 위협에 대해 단일 대응책을 사용할 때 중복된 투자가 이루어진다는 한계가 있었다. 본 연구에서는 베타 확률 분포를 사용하여 대책의 효과를 객관적으로 정량화하고, 위험 감소 수준이 투자 이전에 측정된 위험 수준을 초과하지 않고 보안 대책이 중복 투자되지 않도록 최적화 모델을 개선했다. 개선된 모델을 국내 중소기업을 대상으로 실증분석한 결과, Sönmez and Kılıç(2021)의 최적화 모델보다 더 나은 결과를 도출했다. 개선된 최적화 모델을 사용하면 정보보호 비용, 수량, 대책 효율성을 고려하여 고정된 예산 내에서 최적의 대책별 투자 포트폴리오를 도출할 수 있고, 정보 보안 예산을 확보하고 정보 보안 위협을 효과적으로 해결하는데 도움이 될 것이다.

신뢰성에 기초한 하수처리장 운전효율 평가 (Performance Evaluation of WWTP Based on Reliability Concept)

  • 이두진;선상운
    • 대한환경공학회지
    • /
    • 제29권3호
    • /
    • pp.348-356
    • /
    • 2007
  • 본 연구에서는 변동적인 특성을 지닌 자료 분석에 효과적인 확률, 통계기법을 도입하여, 하수처리장의 처리효율을 분석하고 그 결과를 설계에 반영할 수 있는 방법을 제시하였다. 이를 위하여 3개 대상하수처리장의 유입수와 처리수 자료(BOD, COD, SS, TN, TP)를 대상으로 통계분석을 실시하였다. 유입수의 표준편차는 $9.7\sim34.9$ mg/L로 평균농도 대비 약 $16.7\sim54.7%$의 범위를 보였으며, BOD와 SS가 상대적으로 큰 편차를 보였다. 처리수는 전 항목에 걸쳐 표준편차 $0.28\sim4.48$ mg/L, 평균수질 대비 $13.9\sim125%$의 범위를 보였고, SS의 변동이 큰 것으로 나타났다. 각 처리장 처리수의 분포는 일정한 양상을 보이지 않았지만 BOD와 COD의 경우 전반적으로 정규분포 형태를, SS와 TN, TP는 대수정규분포에 근접한 형태를 나타냈으며, 오른쪽으로 치우친 경향을 나타내었다. 위와 같은 기본적인 통계처리 결과를 바탕으로 신뢰도 계수(coefficient of reliability, COR)를 도입하여 처리효율을 평가한 결과, 각 항목의 처리수질은 백분위 50% 수준에서 방류수 수질기준의 절반에 해당하는 농도를 보였으며, 모든 처리장에서 연간 방류수 수질기준 달성확률이 100%로 나타났다. 처리공정의 설계와 운전시 각 공정이 가지는 고유의 변동성을 반영하기 위해서는 성능결과를 객관화 할 수 있는 확률적 접근이 필요하며, 특히 방류수 수질기준에 대한 처리성능을 보다 과학적으로 평가하기 위해서는 신뢰성계수를 도입하여 기준달성의 신뢰성을 분석하는 것이 적절할 것으로 판단되었다.30nm$ 조건)와 347 nm(${\Delta}\lambda=60nm$ 조건)에서의 형광 세기가 현장에서 톱밥 침출수 오염을 식별하는 가장 이상적인 식별지표로 밝혀졌다. 비록 이 연구가 제한된 대표시료와 오염원 종류에 국한되었지만 여기에 사용된 식별지표 평가 과정 및 구체적인 실험방법은 향후 형광측정을 이용한 실시간 오염원 추적 연구에 중요한 기초자료를 제공할 것으로 기대한다. 공정의 효율면에서도 훨씬 효율적인 것으로 조사되었다..문에, 이 연구에서 개발된 수치모델은 퇴적물에서 일어나는 미량 오염 물질의 거동을 파악하기 위해 유용하게 사용되어질 수 있을 것으로 사료된다.on between instantaneous attack angle of blade section and the resultants real time force components. Through these investigation it is found out that the conventional imagination that the 7cull motion should be effective in generating lift force must be reconsidered because the attack angle of scull blade are too great to free from stall phenomena during the sculling operation.잠119>잠113>잠120의 순이었다.지방산의 조성이 많은 차이를 보였다.{2+}$ 26 및 $Na^+$ 26 mg $L^{-1}$이었다. 양액 재배 후 버려지는 폐양액 중의 무기성분 함량은 양액재배에

정보보호 대책의 성능을 고려한 투자 포트폴리오의 게임 이론적 최적화 (Game Theoretic Optimization of Investment Portfolio Considering the Performance of Information Security Countermeasure)

  • 이상훈;김태성
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.37-50
    • /
    • 2020
  • 사물 인터넷, 빅데이터, 클라우드, 인공지능 등 다양한 정보통신기술이 발전하면서, 정보보호의 대상이 증가하고있다. 정보통신기술의 발전에 비례해서 정보보호의 필요성이 확대되고 있지만, 정보보호 투자에 대한 관심은 저조한 상황이다. 일반적으로 정보보호와 관련된 투자는 효과를 측정하기 어렵기 때문에 적절한 투자가 이루어지지 않고 있으며, 대부분의 조직은 투자 규모를 줄이고 있다. 또한 정보보호 대책의 종류와 특성이 다양하기 때문에 객관적인 비교와 평가가 힘들고, 객관적인 의사결정 방법이 부족한 실정이다. 하지만 조직의 발전을 위해서는 정보보호와 관련된 정책과 의사결정이 필수적이며 적정 수준의 투자와 이에 대한 투자 효과를 측정 할 필요가 있다. 이에 본 연구에서는 게임 이론을 이용하여 정보보호 대책 투자 포트폴리오를 구성하는 방법을 제안하고 선형계획법을 이용하여 최적 방어 확률을 도출한다. 2인 게임 모형을 이용하여 정보보호 담당자와 공격자를 게임의 경기자로 구성한 뒤, 정보보호 대책을 정보보호 담당자의 전략으로, 정보보호 위협을 공격자의 전략으로 각각 설정한다. 게임 모형은 경기자의 보수의 합이 0인 제로섬 게임을 가정하고, 여러개의 전략 사이에서 일정한 확률 분포에 따라 전략을 선택하는 혼합 전략 게임의 해를 도출한다. 여러 종류의 위협이 존재하는 현실에서는 한 개의 정보보호 대책만으로 일정 수준 이상의 방어가 힘들기 때문에, 다수의 정보보호 대책을 고려해야한다. 따라서 다수의 정보보호 위협에 따른 정보보호 대책이 배치된 환경에서 정보보호 대책의 방어 비율을 이용하여 정보보호 대책 투자 포트폴리오를 산출한다. 또한 최적화된 포트폴리오를 이용하여 방어 확률을 최대화하는 게임 값을 도출한다. 마지막으로 정보보호 대책의 실제 성능 데이터를 이용하여 수치 예제를 구성하고, 제안한 게임 모델을 적용하고 평가한다. 본 연구에서 제시한 최적화 모델을 이용하면 조직의 정보보호 담당자는 정보보호 대책의 방어 비율을 고려하여 정보보호 대책의 투자 가중치를 구할 수 있고, 효과적인 투자 포트폴리오를 구성하여 최적의 방어 확률을 도출 할 수 있을 것이다.

고해상도 재분석자료와 관측소 1시간 평균 지상 온도 비교 (Comparisons of 1-Hour-Averaged Surface Temperatures from High-Resolution Reanalysis Data and Surface Observations)

  • 송형규;윤대옥
    • 한국지구과학회지
    • /
    • 제41권2호
    • /
    • pp.95-110
    • /
    • 2020
  • 본 연구에서는 고해상도 ERA5 재분석자료 중 우리나라 지상 온도 자료의 신뢰성을 검증할 목적으로 종관기상관측소(ASOS) 관측자료와 비교를 수행하였다. 새롭게 생산되어 배포 중인 ERA5 재분석자료는 높은 시·공간적 해상도를 가져 여러 분야에 활용성이 매우 높다. 자료의 분석 기간은 ASOS 61개 관측소가 1999년 이후로 결측률이 매우 낮으며 시간평균 자료를 제공한다는 점을 고려하여 1999-2018년 기간으로 설정하였다. ERA5 격자 자료는 격자 내 90-m 수치표고모델(DEM) 분포로부터 내륙, 해안, 산악 지역에 해당하는 지형학적인 특성에 따라 분류하여 ASOS 지점 자료와 비교되었다. 분석 기간 전체에 대한 평균 지상 온도는 ASOS와 ERA5 모두 공간 분포의 패턴과 값은 큰 차이없이 유사하였다. ASOS와 ERA5의 산점도 비교를 통해 전체 기간, 특히 여름, 겨울 기간에 대해 계절 변동성을 가진다는 특성을 확인할 수 있었으며, 이는 달별 두 자료 사이의 매시간 차이 확률밀도함수(PDF)의 시계열을 통해서도 확인되었다. 두 자료 사이의 차이를 통계지수인 NMB, RMSE를 계산하여 정량화시켰을 때, 각 값에서 지역적인 특성을 보였으나 모든 지수에서 큰 차이가 없다고 판단할 수 있었으며, 상관성을 보기 위해 R과 IOA를 통해 구한 값은 모두 0.99에 근접하였다. 특히 일평균 산출에 있어 1-시간-평균 값 24개를 이용한 일평균의 경우가 최고와 최저온도의 평균을 이용하는 일평균에 비해 오차가 작게 나타났고, 두 자료 사이의 상관성도 높게 나타남을 확인하였다. 두 자료의 차이가 나타나는 원인으로 ERA5 격자 내 지형 효과가 가장 클 것으로 판단하여 수치표고모델을 활용하여 각 지역별 PDF를 이용해 첨도 및 왜도를 구하고, 이를 온도 차이 파워 스펙트럼의 1년 주기 변동 크기와 비교하였다. 그 결과, 양의 상관성을 가졌음을 확인하였다. 이는 지형 효과가 두 자료 차이의 원인이라고 설명하는 결과이다.

표준정규분포를 고려한 반응표면모델 기반 디스크 브레이크의 강건최적설계 (Robust Optimal Design of Disc Brake Based on Response Surface Model Considering Standard Normal Distribution of Shape Tolerance)

  • 이광기;이용범;한승호
    • 대한기계학회논문집A
    • /
    • 제34권9호
    • /
    • pp.1305-1310
    • /
    • 2010
  • 복잡한 시스템 계의 설계정보를 효과적으로 추출하기 위해서 형상최적설계가 수행되는 경우, 일반적으로 유한요소해석 기법과 D-최적배열을 이용한 실험계획법이 연동된 반응표면모델을 구성하고 여기에 최적설계기법이 적용된다. 그러나, 설계변수에 형상공차와 같은 변동성이 존재하면 최적해의 강건성 확보를 위하여 설계변수의 형상공차를 확률론적인 변동성으로 고려한 추가적인 강건설계가 필요하다. 본 연구에서는 계산시간이 많이 소요되는 유한요소해석에 의한 강건설계문제에 설계변수의 표준정규분포를 고려한 반응표면모델을 구축하여 최적설계를 수행하므로서 손쉽게 강건최적값을 구하는 방법을 제안하였다. 승용차용 브레이크 디스크에 제안된 방법을 적용하여 열변형과 중량을 최소화하는 설계변수의 강건최적해를 구하고, 몬테카를로 시뮬레이션 추정결과와 비교하여 이의 적합성을 검증하였다.

초기 개체군 밀도가 포식자-피식자 생태계 안정성에 미치는 영향 (Exploring the Stability of Predator-Prey Ecosystem in Response to Initial Population Density)

  • 조정희;이상희
    • 한국시뮬레이션학회논문지
    • /
    • 제22권3호
    • /
    • pp.1-6
    • /
    • 2013
  • 생태계는 다양한 환경 내에 다양한 생물종이 서로 상호작용하고 있는 복잡계이다. 이들 상호작용은 계층적 먹이그물 구조를 이루고 있는데, 많은 경우, 포식자-피식자-식물의 관계를 보여준다. 포식자-피식자 경쟁관계는 시공간적으로 일어나는 현상이기 때문에, 초기시점에서의 개체들 분포와 밀도가 어떠한가는 매우 중요한 정보를 담고 있다. 본 연구에서는, 이들 세 단계 계층구조의 생태계를 간단한 격자 모델로 구성하고 이 모델을 사용하여 각 종의 초기 개체군 밀도가 변함에 따라 생태계 안정성이 어떻게 변하는지를 연구하였다. 격자공간은 $L{\times}L$ 크기의 L(=100) 사각격자로 구성되었다. 식물의 초기 밀도는 0.2로 고정하였다. 시뮬레이션 결과는, 포식자의 밀도가 0.4이하, 피식자의 밀도가 0.5이하일 때 두 종이 공존하는 것을 보여 주었으며, 포식자 밀도가 0.5이상, 피식자 밀도가 0.6 이상의 조건에서는 두 종이 멸종하는 것을 보여 주었다. 공존과 멸종의 두 상태가 접하는 영역의 조건에서는 확률적으로 공존하기도하고 멸종하기도 하는 비선형성이 강한 행동을 보여 주었다. 본 연구를 통해 초기종의 밀도가 생태계 안정성에 매우 중요한 역할을 한다는 것을 알 수 있었다.

정규화 신뢰도를 이용한 핵심어 검출 성능향상 (Improvement of Keyword Spotting Performance Using Normalized Confidence Measure)

  • 김철;이경록;김진영;최승호;최승호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.380-386
    • /
    • 2002
  • Rahim의 논문 (M.G. Rahim, et al., PROC. of ICASSP96, 1996)과 같은 기존의 후처리 방법은 음소 모델과 반모델 (anti-model)의 유사도를 이용하여 음소 단위 신뢰도를 계산하고, 이들의 평균을 단어 단위 신뢰도로 정의한다. 그런데 음소단위의 신뢰도가 동일한 확률밀도함수를 갖는 것이 아니기 때문에 특정단어의 경우 계산된 신뢰도는 대체로 낮은 값을 갖는다. 이를 극복하기 위한 방법으로서, 본 논문에서는 기존의 신뢰도를 통계적으로 정규화한 신뢰도를 제안한다. 즉 음소단위의 신뢰도가 가우시안 분포를 갖는다고 가정한 후 트라이 폰(sri-phone) 단위로 정규화하여 동일한 정규분포를 갖도록 한다. 본 논문에서는 제안된 방법의 검증을 위하여 문맥종속 핵심어 모델과 문맥독립 필러 모델을 이용한 일반적인 핵심어 검출기를 사용하였다. 실험결과 제안된 정규화 신뢰도 (NCM: Normalized Confidence Measure)가 불검출율 (WDR: Missed Detection Rate) 8%정도에서 오검출율 (PAR: false alarm rate)을 0.44에서 0.33 FA/KW/HR (false alarm/keyword/hour)로 저하시켰다. 이것은 오검출율에서 성능이 25% 향상된 것이다.

전지구 계절예측시스템 GloSea5의 최적 편의보정기법 선정 (A selection of optimal method for bias-correction in Global Seasonal Forecast System version 5 (GloSea5))

  • 손찬영;송정현;김세진;조영현
    • 한국수자원학회논문집
    • /
    • 제50권8호
    • /
    • pp.551-562
    • /
    • 2017
  • 2014년부터 기상청에서 현업으로 활용하고 있는 전지구 계절예측시스템 GloSea5의 최대 6개월 예측 강수량을 수자원 및 여러 응용분야에 활용하기 위해서는 예측모델이 가지는 관측자료와의 정량적인 편의를 보정할 필요가 있다. 본 연구에서는 GloSea5의 예측 강수량에서 나타나는 편의를 보정하기 위해 확률분포형을 활용한 편의보정기법, 매개변수 및 비매개변수적 편의보정기법 등 총 11개의 기법을 활용하여 계절예측모델의 적용성을 평가하고 최적의 편의보정기법을 선정하고자 하였다. 과거재현기간에 대한 편의보정 결과, 비매개변수적 편의보정기법이 다른 기법에 비해 가장 관측자료와 유사하게 보정하는 것으로 분석되었으나 예측기간에 대해서는 상대적으로 많은 이상치를 발생시켰다. 이와는 대조적으로 매개변수적 편의보정기법은 과거재현기간 및 예측기간 모두 안정된 결과를 보여주고 있음을 확인할 수 있었다. 본 연구의 결과는 수자원운영 및 관리, 수력, 농업 등 계절예측모델을 활용한 여러 응용분야에 적용이 가능할 것으로 기대된다.

Maxent 모델을 이용한 반달가슴곰의 서식지 분포변화 예측 (Habitat Distribution Change Prediction of Asiatic Black Bears (Ursus thibetanus) Using Maxent Modeling Approach)

  • 김태근;양두하;조영호;송교홍;오장근
    • 생태와환경
    • /
    • 제49권3호
    • /
    • pp.197-207
    • /
    • 2016
  • 본 연구는 국립공원을 포함한 국내 보호지역에서 반달가슴곰 (Ursus thibetanus)을 효과적으로 보전하고, 종 복원을 성공하기 위해서 종의 재도입에 적합한 지역을 객관적으로 평가하기 위한 기초자료를 제공하는 데 그 목적이 있다. 이를 위해서 Maxent 모델과 기후, 지형, 그리고 도로 및 토지이용과 관련된 환경 변수를 이용하여 반달가슴곰의 출현 기록이 있는 동아시아, 동남아시아, 그리고 인도를 대상으로 잠재 서식지를 예측하고, 이와 관련된 기후 및 환경 변수의 영향을 평가하였다. 또한 미래 기후변화에 따라서 반달가슴곰에게 적합한 서식 범위의 면적과 지리적인 변화를 분석하였다. 생물보전을 위해서 야생생물의 서식지분포연구에 널리 활용되고 있는 Maxent 모델의 판별정확도를 나타내는 AUC 값이 0.893 (sd=0.121)으로 산출되었다. 이는 반달가슴곰의 잠재 서식지를 예측하고 미래 기후변화에 따른 서식지 변화특성을 평가하는 데 유용하였다. IUCN에서 평가한 반달가슴곰의 분포지도와 비교해서, 현존 지역 (Extant)은 Maxent 모델로 예측된 서식 확률이 국가별 지역적으로 다양하고, 멸종 지역 (Extinct)은 상대적으로 낮았다. 이는 반달가슴곰이 서식하는 환경 특성의 차이가 지역적으로 반영된 결과라 할 수 있다. 반달가슴곰의 잠재 서식지 분포에 영향을 주는 환경은 기후, 지형 그리고 인위적 요소인 도로로부터의 거리와 같은 요소보다 토지피복 유형의 영향이 가장 높았는데, 특히 낙엽활엽수림지역이 더욱 선호될 것으로 예측되었다. 또한 기온의 연간범위보다 연평균강수량과 건조시기의 강수량의 영향이 더욱 클 것으로 예측되었고 도로로부터 거리가 멀어질수록 서식가능성이 높은 것으로 나타났다. 이는 반달가슴곰은 먹이자원뿐만 아니라 인간의 간섭이 없는 보다 안정된 지역을 선호할 것으로 추측된다. 미래 기후변화에 따라서 서식적합지역은 점차 확장할 것으로 전망되었고, 남한에서는 전남, 전북 그리고 강원도지역이, 일본에서는 Kyushu, Chugoku, Shikoku, Chubu, Kanto 그리고 Tohoku의 접경 지역이, 중국에서는 Jiangxi, Zhejiang 그리고 Fujian의 접경 지역이 향후 아시아지역에서 반달가슴곰이 서식할 수 있는 핵심지역이 될 것으로 예상된다. 본 연구는 반달가슴곰의 서식지 보전과 효율적인 관리, 인위적으로 도입된 개체의 방사지점 선정, 향후 서식 범위의 확장에 따른 보호지역 설정 그리고 인간과 충돌지역의 관리에 대한 기초자료로서 활용될 것으로 기대된다.