초록
본 논문은 단백질 동정에 이용하는 펩타이드-매스 핑거프린팅 툴 중 하나인 Mowse의 성능을 개선하는 방법을 제안한다. Mowse에서 빈발 요소 행렬은 단백질과 펩타이드 질량에 대하여 일정한 간격으로 생성되어 행렬의 각 원소의 값은 펩타이드의 빈발횟수에 따라 계산된다. 현재 이러한 행렬을 생성하는데 있어서 정해진 간격으로 생성되는데 이러한 간격의 값이 작아질수록 스코어링 값은 정확해진다. 그러나 이러한 간격의 값이 작아질수록 행렬의 크기는 증가하게 되며 이에 따라 스코어링 계산의 복잡도도 증가하게 된다. 본 논문에서는 행렬의 크기를 현재와 같이 유지하면서 스코어 링 값을 정확하게 계산하기 위한 새로운 방법을 제안한다. 현재 Mowse에서 검색 대상이 되는 단백질 데이터베이스의 분포를 고려하여 비선형적으로 행렬의 간격의 값을 정하는 방법 즉, 임의의 단백질 질량 값이 많은 곳에서는 행렬의 간격을 작게 결정하는 반면 단백질 질량 값이 적은 곳에서는 행렬의 간격을 크게 결정하는 방법을 새롭게 제안하였다. 또한, 성능평가는 Mowse 스코어링 방법과 본 논문에서 제안한 새로운 스코어링 방법에 관하여 수행하고 분석결과를 제시하였다.
In this paper, we propose the method that improve the performance of the Mowse. Mowse is the tool of the peptide mass fingerprinting that is used the identification of protein. In Mowse, frequency factor matrix is generated to regular interval for protein and peptide mass and the value of each elements is calculated to frequency of peptide. We propose new method for calculation of exact scoring value maintaining same size of matrix. The proposed method is that decide interval of matrix considering distribution of protein database. That is, interval of matrix is decided to small in many value of protein mass and is decided to large in few value of protein mass. We present the performance result both Mowse scoring method and the proposed scoring method.