• Title/Summary/Keyword: 확률적 거리

Search Result 369, Processing Time 0.026 seconds

A distance metric of nominal attribute based on conditional probability (조건부 확률에 기반한 범주형 자료의 거리 측정)

  • 이재호;우종하;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

On Information Theoretical Research of the Korean Language (한국어의 정보이론적 연구 방향)

  • Lee, Jae-Hong;Yi, Chae-Hag
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.367-375
    • /
    • 1992
  • 한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due

  • PDF

A Comparative Study on Parameter for Korean Phoneme-based HMM Model Decision (한국어 음소 HMM 모델 결정을 위한 파라미터 비교 연구)

  • 권혁제
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.302-305
    • /
    • 1998
  • 음소의 확률적 분포를 이용하는 음소 HMM 모델을 결정하기 위한 여러 가지 거리 측정방법에 대한 연구이다. 음소 HMM 모델 결정을 위해서 LPC 계수를 이용하고, 거리 측정자를 LPC 계수, LPC 스첵트럼, LPC 켑스트럼 등의 파라미터를 이용하고, 또한 양자화 과정은 k-means 와 LBG 알고리즘을 혼합한 하이브리드 알고리듬을 사용하였다. LPC 코드북을 구성하기 위해 세 가지 파라미터를 유클리디안 거리로 거리측정에 이용하였다. 이렇게 양자화한 파라미터의 평균과 분산을 구하고, 양자화한 파라미터 코드북의 확률갑승ㄹ 비교해 한국어 음소 HMM 모델 결정을 위한 거리 측정 파라미터를 비교하였으며, 그 결과 LPC 계수를 주파수 영역으로 변환하여 유클리디안 거리를 이용한 코드북의 분산이 작으므로 상대적으로 높은 확률을 가짐을 보았다.

  • PDF

The Role of Psychological Distance and Relative Optimism in Information Security Decision Making (정보보호 의사결정에서 정보보호 침해사고 발생가능성의 심리적 거리감과 상대적 낙관성의 역할)

  • Jongki Kim;Jiyun Kim
    • Information Systems Review
    • /
    • v.20 no.3
    • /
    • pp.51-71
    • /
    • 2018
  • Many studies in the field of information security reveal the need to increase awareness. However, although awareness of information security has been raised to a considerable extent, actual security behavior has been shown to fall short of that. Therefore, we wanted to identify the role of psychological factors in making information security decisions by conducting a experimental study. The results show that there are differences in perception of information security risks according to the probabilistic distance and the degree of relative optimism due to social distance. In relation to their relative optimism and intention of information security, they reduced the level of perceived risk compared to those close to them and found that their influence varied according to their probabilistic distance. This study has made valuable attempt in terms of methodology and it is meaningful that the psychological factor is taken into consideration for the information protection behavior, so that the range of relative optimism that actually affects the perception of risk is narrowed. It is expected to contribute to the improvement of information security level of information technology users and protection of information assets by empirically identifying necessity of various approaches to decision making process for information security.

Calculation of the Detection Range for a Given Cumulative Probability in Airborne Surveillance Radars (탐색 레이다에서 누적확률에 기인한 탐지거리 계산에 관한 연구)

  • Kim, Eun Hee;Roh, Ji-Eun
    • The Journal of Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.29 no.1
    • /
    • pp.24-27
    • /
    • 2018
  • The performance measure of airborne radars is the range at which the cumulative probability of detection has some specified value, because the per-scan detection probability is an oscillatory function of the target range in airborne radars operating with the dynamic clutter environment. As a result, no one range, at which the per-scan detection probability has a given value, can give a meaningful description of the range performance. In this paper, we provide the equation to calculate the cumulative detection probability and show that the result of Monte Carlo simulation is same as the calculated value in a simple scenario. This verified Monte Carlo model will be used to evaluate the performance of airborne radars in various operating scenarios, at which the numerical calculation is difficult.

An Estimation of Domestic Regional Energy Efficiency Using Stochastic Distance Function (확률적 거리함수를 활용한 지역별 에너지효율성 추정)

  • Jeong, Dasom;Kang, Sangmok
    • Environmental and Resource Economics Review
    • /
    • v.30 no.4
    • /
    • pp.581-605
    • /
    • 2021
  • The purpose of this study is to provide basic data for improving energy efficiency by estimating the regional energy efficiency in Korea using the stochastic frontier approach beyond the energy intensity that has been traditionally used as an indicator of energy efficiency. In this paper, energy efficiency and energy intensity efficiency were estimated as a stochastic distance function from 1998 to 2018 for 16 cities and provinces in Korea. In addition, the robustness of energy efficiency according to the capital stock estimation methods which had been mixed in previous studies was reviewed. As a result of the analysis, there is a significant change in regional rankings according to the three energy efficiency indicators, so they should be used complementary to each other. Second, while the energy efficiency improved little by little over time, the energy intensity efficiency decreased slightly though. Lastly, energy efficiency by region according to the capital stock estimation method was not robust. Care must be taken in estimating capital stock, which is important in economic analysis.

Modification Distance Model for Korean Dependency Parsing Using Headible Path Contexts (지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 확률 모델)

  • Woo, Yeon-Moon;Song, Young-In;Park, So-Young;Rim, Hae-Chang;Chung, Hoo-Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.40-47
    • /
    • 2006
  • 본 논문에서는 한국어 의존 구문 분석을 위한 새로운 확률 모델을 제안한다. 한국어가 자유 어순 언어라 할지라도 지역적 어순은 존재하기 때문에 의존관계를 결정하기 위해 의존하는 두 어절인 의존소와 지배소 사이의 수식 거리가 유용하다는 것은 이미 많은 연구를 통해 밝혀졌다. 본 연구에서는 수식 거리의 정확한 수식 거리의 추정을 위해 지배가능경로 문맥을 이용한 수식 거리 확률 모델을 제안한다. 제안하는 모델의 구문 분석 성능은 86.9%이며, 기존에 제안된 구문 분석 모델과 비교하여 높은 구문 분석 결과를 보이며, 특히 원거리 의존관계에 대하여 더욱 향상된 성능을 보인다.

  • PDF

Statistical Model of 3D Positions in Tracking Fast Objects Using IR Stereo Camera (적외선 스테레오 카메라를 이용한 고속 이동객체의 위치에 대한 확률모델)

  • Oh, Jun Ho;Lee, Sang Hwa;Lee, Boo Hwan;Park, Jong-Il
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.52 no.1
    • /
    • pp.89-101
    • /
    • 2015
  • This paper proposes a statistical model of 3-D positions when tracking moving targets using the uncooled infrared (IR) stereo camera system. The proposed model is derived from two errors. One is the position error which is caused by the sampling pixels in the digital image. The other is the timing jitter which results from the irregular capture-timing in the infrared cameras. The capture-timing in the IR camera is measured using the jitter meter designed in this paper, and the observed jitters are statistically modeled as Gaussian distribution. This paper derives an integrated probability distribution by combining jitter error with pixel position error. The combined error is modeled as the convolution of two error distributions. To verify the proposed statistical position error model, this paper has some experiments in tracking moving objects with IR stereo camera. The 3-D positions of object are accurately measured by the trajectory scanner, and 3-D positions are also estimated by stereo matching from IR stereo camera system. According to the experiments, the positions of moving object are estimated within the statistically reliable range which is derived by convolution of two probability models of pixel position error and timing jitter respectively. It is expected that the proposed statistical model can be applied to estimate the uncertain 3-D positions of moving objects in the diverse fields.

확률론적 지진위험도의 불확실성 영향인자의 단계별 범위 영향 분석

  • 김준경;윤철호;이성규;임창복;김문수
    • Proceedings of the Korean Nuclear Society Conference
    • /
    • 1996.05d
    • /
    • pp.405-409
    • /
    • 1996
  • 본 연구는 일정 지역의 확률론적 지진위험도 (Probabilistic Seismic Hazard) 평가와 관련하여 전문가가 제시한 제1차 입력자료를 이용하여 제2차 입력자료를 도출할 때 입력자료의 다단계화를 통하여 각 단계별 구간의 입력자료가 확률론적 지진위험도 불확실성에 미치는 상대적 영향을 분석하였다. 확률론적 지진위험도 분석을 위하여 미국지질조사연구소 (USGS) 및 미국 로렌스리버모어 연구소(LLNL)가 개발한 전산코드를 각각 이용하였고 또한 전문가가 제시한 제 1차 입력자료는 기존 연구보고서에서 주어진 자료를 이용하였다. 분석결과 지진활동도 변수 특히 지진규모의 각 단계 및 감쇠특성함수의 진앙거리 단계에 따라서 확률론적 지진위험도의 절대값 및 불확실성에 미치는 영향의 차이가 상대적으로 크다는 것이 확인되었다. 또한 부지별로 이러한 분석을 함으로서 확률론적 지진 위험도 곡선에 영향을 미치는 임의 부지에 고유한 임계 지진규모 및 임계 진앙거리에 대한 분석을 통하여 전반적으로 불확실성을 감소시킬 수 있다.

  • PDF

Computing Methods for Generating Spatial Random Variable and Analyzing Bayesian Model (확률난수를 이용한 공간자료가 생성과 베이지안 분석)

  • 이윤동
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.379-391
    • /
    • 2001
  • 본 연구에서는 관심거리가 되고 있는 마코프인쇄 몬테칼로(Markov Chain Monte Carlo, MCMC)방법에 근거한 공간 확률난수 (spatial random variate)생성법과 깁스표본추출법(Gibbs sampling)에 의한 베이지안 분석 방법에 대한 기술적 사항들에 관하여 검토하였다. 먼저 기본적인 확률난수 생성법과 관련된 사항을 살펴보고, 다음으로 조건부명시법(conditional specification)을 이용한 공간 확률난수 생성법을 예를 들어 살펴보기로한다. 다음으로는 이렇게 생성된 공간자료를 분석하기 위하여 깁스표본추출법을 이용한 베이지안 사후분포를 구하는 방법을 살펴보았다.

  • PDF