서론
수산자원은 인간의 활동에 있어 다양한 분야에서 이용 및 개발되고 있는데, 지속적인 보존과 이용을 위해서는 수산자원평가를 통해 자원의 상태를 파악하여, 적절한 관리가 이뤄져야 한다. 수산자원평가는 사용가능한 자료에 따라 자원평가 모델을 달리하여 수행될 수 있다. 자료란 관심있는 전체 집단에 대한 특성을 알기 위해 모집단 전체를 조사하는 것이 불가능한 상황에서 수집되는 표본(sample)을 의미하며, 모집단의 특성을 대표할 수 있어야한다. 수산자원평가에서 현재 가장 선호되는 방법인 연령구조모델(age-structured model)은 장기간 누적된 연령자료를 요구하는데, 연령사정자료의 수집은 비용과 많은 시간이 투여되므로 수집하기가 어려운 편이다. 이에 따라, 연령사정자료가 부재할 경우에 대안으로서 사용될 수 있는 방법이 체장조성자료를 사용하는 체장기반모델(size-based model)이다. 체장기반모델은 개체군의 가상연령구조를 상상하여 연급군(cohort)을 구분하고 개체별 체장의 시간적 변화를 감지하여, 연급군의 성장과 사망을 추적함으로써 개체군의 크기의 변동을 찾아낼 수 있다. 그러므로 체장조성자료는 연령사정자료보다 상대적으로 수집이 쉬운 편으로 연령사정자료의 대안으로 중요한 가치를 가진다.
우리나라에서 어획물의 체장조성자료는 다음과 같은 과정을 거쳐 수집이 이루어진다(BCFM, 2020; Fig. 1). 우선, 어선이 우리나라 해역에서 조업을 하면 전국의 각 수협 위판장으로 입항을 하여 어획물을 육지로 내리는 양륙 작업이 이뤄진다. 이때, 양륙된 어획물은 활어, 선어, 또는 냉동 상태로 위판장에 도착하고, 활어 상태를 제외한 선어와 냉동 상태의 어획물로부터 체장조성자료를 수집하고 있다. 냉동 상태의 어획물은 입항하기 이전에 선원들에 의해 미리 어종별, 크기별로 선별(sorting)하여 동일 규격의 상자에 동일한 중량만큼 개체를 채우는 과정(filling)을 거친다. 반면, 선어 상태의 어획물은 어종별, 체급별로 무작위로 섞인 채로 양륙되어 위판장에서 어종별 모든 개체를 체급별로 선별한 후, 체급마다 선별된 개체들을 상자에 동일한 중량만큼 개체를 채우는 과정을 거친다. 이와 같이, 어획물을 체급별로 선별하여 상자에 담는 과정을 통틀어 배열(arrangement) 과정이라고 한다. 체장조성자료는 배열 과정의 종료시점부터 경매가 이뤄지는 시점 이전까지 한국수산자원공단(Korea Fisheries Resources Agency)의 TAC (total allowable catch) 조사원들에 의해 수집되고 있다.
Fig. 1. Process of arranging fish landed.
과거 우리나라의 체장조성자료 수집 방법에 대한 제안으로는 국립수산과학원에서 발행한 수산자원조사지침(NFRDI and PKNU, 2004)이 있다. 수산자원조사지침에서 제시된 체장조성자료의 수집 매뉴얼에서는 체급별(e.g., 대, 중, 소)로 어획물이 구분되었을 경우, 체급별 상자 수의 비율에 따라 체급별 표본을 추출하는 방법을 제시하였다. 한편, 현재 우리나라에서 통용되고 있는 체장조성자료의 수집 방법은 “배열 과정” 이후 알 수 있는 체급별 상자의 개수를 이용하여, 각 체급별 상자 수의 비율만큼 체급마다 수집할 표본의 수를 정하여 어획물의 체장을 측정하는 것이다(Seong-woo Goo, personal communication, Korea Fisheries Resources Agency, Busan, Korea). 수산자원조사지침에서 제안된 방법과 현행 표본수집 방법의 공통점은 각 체급별 상자 수의 비율을 이용하여 체급마다 표본을 수집하는 것이다. 이는 모집단(i.e., 어획물)에 대한 사전 정보(i.e., 체급별 상자 수)를 이용한 표본 추출법으로서, 통계학 분야에서 사용되는 층화표본추출법(stratified random sampling)에 해당한다.
층화표본추출법은 대상 모집단을 특정 기준에 따라 여러 계층(stratum; strata)으로 구분하여 각 계층마다 표본을 추출하는 방법이다. 한 계층내에서는 동질성을 가지지만, 계층 간에는 서로 이질성을 가진다. 이처럼, 모집단을 동질성을 가지는 여러 계층으로 구분하는 것을 층화(stratification)라고 한다. 층화표본추출법은 모집단을 조성하는 각 계층으로부터 표본을 추출하기 때문에 수집하고자 하는 표본의 수가 적더라도, 모집단을 대표할 수 있는 표본 자료가 생성되는 강점을 가진다(Scheaffer et al., 1971; Lohr, 1998). 층화표본추출법의 정의에 따르면, 우리나라는 모집단인 어획물을 크기라는 특정 기준에 따라 동질성을 가지는 여러 체급으로 선별 분류하고 있는 상황이다. 따라서 본 연구에서는 체급별로 선별된 어획물의 수에 비례하는 체급별 표본 수집을 하여야 할 것을 제안하는 바이다.
본 연구에서는 우리나라에서 어획물로부터 수집되는 체장조성자료가 모집단을 대표하고 있는지를 확인하기 위하여 체장조성자료를 수집하고 있는 기관인 한국수산자원공단을 방문하여 자료가 수집되는 과정과 현행 수집방법에 대한 조사를 실시하였다. 이를 바탕으로, 현행 수집방법과 본 연구에서 제안하는 수집방법을 비교·분석하여, 적절한 체장조성자료의 수집 방법을 제안하는 것을 주요 목적으로 한다. 부수적으로 적절한 표본의 크기(sample size)를 정하는 방법을 소개하며, 일정 기간 동안 누적된 총 어획물의 체장조성을 대표할 수 있는 방법을 제안한다.
재료 및 방법
우리나라 연근해 어업에서 수집되는 체장조성자료의 표집(sampling) 방법을 제안하기위해서 세가지의 가상실험(simulation)을 수행하였다. 모든 가상실험은 어획물이 양륙 시점부터 배열이 일어나기까지의 과정을 재현해서 얻어지는 가상의 체장조성자료를 이용하여 진행되었다.
체장조성자료
본 연구에 표기된 모든 기호는 Table 1에 정의되었다. 양륙 시점에 모든 어획 개체(i)는 개체별 체장(Xi)과 체중(Wi)을 가진다. 각 개체의 체중은 체장-체중 상대성장식(allometric lengthweight relationship)모형을 가정하고 오차항(multiplicative error)이 고려되었으며, 개체당 체중은 로그-정규분포로부터 난수로서 얻어졌다:
Table 1. List of symbols
Values used in the simulation are under “Setting values”.
\(W_{i}=\alpha \cdot\left(X_{i}\right)^{\beta} \cdot \exp \left[\varepsilon_{i}\right] ; \varepsilon_{i} \sim N\left(0, \sigma_{W}^{2}\right)\) (1)
여기서, 식 (1)의 확률론적 체장-체중 상대성장식은 승법모형(multiplicative error model)이 가정되었지만, 가법모형[additive error model; Wi=α·(Xi)β+εi] 역시 가정할 수 있다. 하지만, 대부분의 경골어류의 경우에서 체장-체중 상대성장식은 승법모형이 가법모형 보다 더 잘 적합하기에 본 연구에서는 승법모형을 가정하였다.
입항이 완료된 시점의 총 어획물은 체장에 대해 체급별(h)로 분류되는 선별단계를 거치며, 모든 개체는 체급별 그룹 h의 체장구간에 따라 분류된다. 이때, 체장구간은 그룹 간에 서로 겹치지 않으며, 모든 그룹의 체장구간의 너비는 동일하다. 예를 들어 체급 소(小)의 체장구간이 10 cm 초과, 20 cm 이하이고 체급 중(中)의 체장구간이 20 cm 초과, 30 cm 이하라고 한다면, 체장이 15 cm 인 개체는 체급 소(小)로 분류되고 체장이 25 cm인 개체는 체급 중(中)으로 분류된다. 총 어획물을 체급별로 분류하는 선별단계가 완료되면, 체급 그룹 h로 선별된 어획물의 수(Ch)가 구해지며 상자에 어획물을 채우는 단계를 거쳐 배열과정이 종료된다. 이때, 체급별로 상자에 어획물이 채워지며, 어획물이 담긴 모든 상자의 중량(WBox)은 동일하다. 따라서 배열과정이 끝나는 시점에는 체급 그룹 h별 상자의 수(Boxh)가 구해진다.
배열과정 이후의 자료 수집 단계에서, 현행 자료 수집 방법인 체급별 상자수에 비례한 가중치(\(W_{h}^{\text {Current }}\))와 본 연구에서 제안하는 방법인 체급별 어획물의 수에 비례한 가중치(\(W_{h}^{\text {Proposal }}\))는 다음과 같다:
\(\begin{array}{l} W_{h}^{\text {Current }}=B o X_{h} / \sum_{h} B o X_{h}, \\ W_{h}^{\text {Proposal }}=C_{h} / \sum_{h} C_{h} \end{array}\) (2)
그리고 수집해야 하는 표본크기(S)에 각 수집 방법의 체급별 가중치를 곱하여 체급당 수집해야 하는 표본크기(\(W_{h}^{\text {Current }}\), \(W_{h}^{\text {Proposal }}\))를 구한다:
\(S_{h}^{m}=S \cdot W_{h}^{m} ; m=\{\text { Current; Proposal }\}\) (3)
이로써 각 수집 방법(m)에 의해 얻어지는 표본 체장자료는 체급그룹별(h)로 해당하는 표본크기(\(S_{h}^{m}\)) 만큼 수집되고, 계급수가 k 개인 체장계급으로 이산화(discretize)되어 체장조성자료(Lm)가 얻어진다:
\(L^{m}=\left(o_{1}^{m}, o_{2}^{m}, \cdots, o_{k}^{m}\right)\) (4)
여기서, 은 l번째 체장계급에서의 수집된 표본의 수를 의미한다.
모수 추정(Inference of parameters)
가상의 체장조성자료가 모집단인 총 어획물의 체장조성을 대표할 수 있는지를 확인하기 위하여, 각 수집방법별 체장조성자료(Lm)는 다항분포를 따른다고 가정하였다:
\(\begin{array}{l} L^{m} \sim \text { Multinomial }(S ; \pi) \\ \pi=\left(\pi_{1}, \pi_{2}, \cdots, \pi_{k}\right) \end{array}\)
여기서, π는 총 어획물의 체장계급별 조성비이며, 이를 추정하기 위해 다항분포의 음의 로그가능도함수(lnL, log-likelihood function)를 목적함수(Objm)로 이용하였다:
\(O b j^{m}=-\ln L\left(\pi \mid L^{m}\right)\) (5)
본 연구에서는 R 소프트웨어의 template model builder(TMB; Kristensen et al., 2016) 패키지를 사용하여, 수치최적화(numerical optimization)를 통해 체장계급별 조성비를 추정하였다. TMB 패키지는 목적함수를 최소화하면서 모수를 추정하기 때문에, 본 연구에서는 목적함수를 음의 로그가능도함수로서 설정하였으며, 이는 양의 로그가능도함수를 가장 최대화하는 모수를 추정하는 것과 같은 의미이다. TMB 패키지를 이용하여 수치적(numerical)으로 모수를 추정함으로써, 모수의 점추정치와 추정치의 불확실성을 계산할 수 있었고, 또한 분석적인 방법(analytical method)으로는 계산하기 어려운 마지막 체장계급 조성비(πk) 추정치의 표준오차(standard error) 역시 계산할 수 있었다.
가상실험(Simulation)
본 연구에서는 체장조성자료의 수집 방법을 제안하기 위해 다음과 같이 세 가지 가상실험을 수행하였다: (1) 수집방법(현행,제안)별 추정치의 편의(bias) 비교실험; (2) 표본의 크기별 추정치의 변동계수 비교 실험; (3) 일정기간 동안 누적된 체장조성자료로 부터 두 가지 방법(누적방법, 가중평균방법)을 사용하여 얻어지는 추정치의 편의(bias) 비교실험.
첫 번째 실험은 다양한 양륙시점의 어획물의 상황에서 현행수집방법과 본 연구에서 제안하는 수집방법을 비교하여 총 어획물의 체장조성을 더 잘 대표할 수 있는 수집방법을 제안하는 것을 목적으로 한다. 이를 위해, 양륙 시점, 배열시점, 그리고 자료 수집이 일어나는 시점을 구분하여, 각 시점마다 상황을 부여하였다(Table 2). 우선, 양륙 시점의 상황은 두가지의 총 어획 마리수 경우에 총 어획물의 체장의 분포를 네가지의 경우를 고려하여 총 8가지의 상황이 고려되었다(i.e., 2 가지의 총 어획물의 수 경우×4가지의 어획물의 체장분포 경우). 이때, 총 어획 마리수는 십만 마리와 백만 마리인 경우 두가지를 가정하였고, 동시에 총 어획물의 체장분포는 하나의 균등분포(uniform distribution)를 가정한 상황과 세 가지의 truncated 정규분포(truncated normal distribution)를 가정한 상황을 고려하였다. 이때, truncated 정규분포는 가상의 어획물 체장 범위의 최소값과 최대값을 제한하기 위해 가정되었다. 본 연구에서는 R 소프트웨어의 ‘seq’함수와 truncnorm (Mersmann et al., 2018) 패키지의 ‘rtruncnorm’함수를 이용하여 가상의 총 어획물의 체장 빈도를 생성하였고, 개체별 체중은 ‘rnorm’함수를 이용하여 생성하였다(R Core Team, 2020). 다음으로, 배열시점에서는 다섯 개의 체급 그룹으로 선별되어, 다섯 개의 체급마다 상자에 어획물이 담기는 하나의 상황이 고려되었다. 어획물이 체급별로 분류가 완료된 이후, 자료는 두 가지의 수집방법(현행, 제안)으로 표본의 크기를 100마리부터 1,000마리까지 100마리 단위로 체장조성자료를 수집하는 경우 열 가지를 고려하여, 총 20가지의 상황마다 수집되었다(i.e., 2가지의 표본 수집방법 경우×10가지의 표본크기 경우).
Table 2. Simulation scenarios of the length distribution of a population (i.e., a total of fish landed)
Length distributions of all fish landed were generated under four scenarios with the assumption that a total of all fish landed was 0.1 and 1 million, respectively. µ and σ are denoted as the mean and the standard deviation of a truncated normal distribution, respectively. The shape of a length distribution differs by scenario: (1) S1, skewed to the right; (2) S2, symmetrical; (3) S3, skewed to the left; (4) S4, uniform.
두 번째 실험은 표본의 크기에 따른 조성비 추정치 값의 불확실성 정도를 비교하여, 적절한 표본의 크기를 결정하는 방법을 소개하는 것을 목적으로 한다. 두 번째 실험에서, 양륙시점의 상황과 배열 시점의 상황은 첫 번째 실험과 동일하게 가정되었지만, 자료의 수집 상황은 제안 수집방법으로 표본의 크기를 100마리부터 1,000마리까지 50마리 단위로 체장조성자료를 수집하는 경우를 고려하여, 총 152가지의 상황이 고려되었다(i.e., 8가지의 양륙 상황×1가지의 배열 상황×1가지의 표본 수집방법 경우×19가지의 표본크기 경우).
세 번째 실험은 일정 기간 동안 수집된 체장조성자료를 이용하여 총 어획물의 체장조성을 대표할 수 있는 방법을 제안하는 것을 목적으로 하며, 이를 위해, 하루 단위로 수집되는 체장조성자료를 일정 기간 동안 누적시켜 얻은 자료로부터 조성비를 추정하는 “누적방법(cummulative)”과 일(日)별 수집된 체장조성자료의 체장조성비의 추정치에 일별 총 어획 마리수에 비례하는 가중치를 곱한 가중평균을 이용하여 누적된 총 어획물의 체장 조성비를 추정하는 “가중평균방법(weighted average)”을 비교하였다. 세 번째 실험에서는 3일 동안 어획물이 양륙되었고, 매일 체장조성자료가 수집되었다는 가정하에 일별 어획 마리 수를 다르게 설정한 네 가지의 상황을 고려하였다(Table 3). 첫째 날부터 셋째 날까지 총 어획물의 체장분포는 첫 번째 실험의 S1, S2, 그리고 S3의 체장분포 상황을 각각 가정하였다. 이때, 제안 수집방법으로 매일 700마리의 동일한 표본이 수집되었다.
Table 3. Scenarios about the number of fish landed during three days in a row
In all scenarios, a length distribution of fish landed on Day 1, Day 2, and Day 3 was assumed to be the length distribution under S1 (skewed to the right), S2 (symmetrical), and S3 (skewed to the left), respectively
위의 세 가지의 모든 실험에서, 체장-체중 상대성장식의 모수(α, β, \(\sigma_{w}^{2}\)), 체급 그룹의 수, 최소 어획물의 체장(min), 최대 어획물의 체장(max), 체장계급의 수(k), 상자당 어획물의 중량(WBox), 그리고 체장계급은 모두 동일하게 입력되었다. 체장-체중 상대성장식의 두개의 모수 α와 β는 Gim (2019)에서 고등어(Scomber japonicus)의 체장-체중 상대성장식에 사용된 입력값을 사용하였고, 상자당 어획물의 중량은 부산공동어시장에서 정한 고등어의 상자당 어획물의 중량인 18 kg을 사용하였다. 체장계급의 구간너비는 1 cm로 각 체장계급의 값은 중앙값(midpoint value)을 사용하였다. 예를 들어, 본 연구에서 입력된 첫번째 체장계급은 10 cm 초과, 11 cm 이하이며 구간너비는 1cm이고 중앙값 10.5 cm을 계급 값으로 한다. 그리고 세 가지 가상실험은 수집방법별로 독립적으로 1,000번 반복수행 되었고, r번째 자료로부터 얻은 체장 조성비 추정치(\(\hat{\pi}^{(r)}\))와 추정치의 표준오차[\(\operatorname{SE}\left(\hat{\pi}^{(r)}\right)\)]를 이용하여 체장조성자료가 총 어획물의 조성을 대표할 수 있는지를 평가하였다.
평가 내용은 다음과 같다. 첫 번째 실험에서는 양륙시점의 상황(i.e., 어획마리수, 어획물의 체장분포)마다 수집방법별로 1,000번의 반복수행으로 얻어진 체장 조성비의 추정치들의 평균값을 조성비의 참값과 비교하여, 수집방법별 정확도(accuracy)를 비교하였다. 그리고, 수집방법별 추정된 조성비의 95% 신뢰구간(confidence interval)안에 조성비의 참값이 포함된 빈도를 계산하여 95% 포함확률(95% coverage probability)을 구하여 비교하였다(Hyun et al., 2011). 이때, 조성비 추정치는 표준정규분포(standard normal distribution)를 따른다고 가정하여 신뢰구간을 계산하였다. 예를 들어, 수집방법 m으로 수집된 r번째 체장조성자료로부터, 추정된 l번째 체장계급에서의 조성비에 대한 95% 신뢰구간은 \(\hat{\pi}^{m,(r)} \pm\left|Z_{0.025}\right| \cdot S E\left(\hat{\pi}_{l}^{m,(r)}\right)\)으로 계산된다. 여기서 Z0.025는 표준정규분포의 0.025 번째 분위수(quantile)이다(i.e., Z0.025≈-1.96). 두 번째 실험에서는 양륙 시점의 어획물의 상황(i.e., 어획마리수, 어획물의 체장분포)마다, 제안 수집방법으로 표본의 크기를 달리하여 수집된 체장조성자료로부터 얻은 조성비 추정치의 불확실성을 확인하였다. 본 연구에서는 표본의 크기별 추정치의 불확실성의 비교를 위해, 추정치의 변동계수(coefficient of variation) 값을 이용하였다. 추정치의 변동계수는 각 추정치의 표준오차를 해당하는 추정치로 나눈 값으로 상대표준오차를 뜻하며, 단위가 없어 표본의 크기별 조성비 추정치들의 불확실성의 수준을 비교하기 용이하여 사용되었다. 세 번째 실험에서는 3일 동안 양륙시점의 어획물의 상황(i.e., 어획마리수, 어획물의 체장분포)이 매일 다른 네 가지 상황에서, 3일 동안 누적된 어획물의 체장조성비의 참값과 누적방법과 가중평균방법으로 얻은 추정치를 비교하여, 추정방법별 정확도(accuracy)를 비교하였다. 이를 위해, 네 가지의 어획물의 상황마다 일(日)별 체장조성자료를 누적방법과 가중평균방법으로 추정하여 얻은 각각의 체장 조성비 추정치들의 평균 값을 이용하여 참값과 비교하였다.
결과
현행 수집방법과 제안 수집방법을 비교한 첫 번째 실험에서는 배열과정 이후 모든 어획물의 체장분포 상황에서, 체급그룹별(h) 상자 수의 비율(=\(W_{h}^{\text {Current }}\))과 어획 마리수의 수의 비율(=\(W_{h}^{\text {Proposal }}\))은 서로 차이를 보였다(Table 4). 현행 수집방법으로 수집된 체장조성자료의 체장계급별 조성비의 추정치는 다섯 개의 체급 그룹별 구간에 따라 뚜렷한 구분이 보였으며, 체장계급의 값이 작아질수록 참값보다 더 낮은 조성비를 나타냈고, 체장계급의 값이 커질수록 조성비의 참값보다 더 높은 조성비를 나타냈다(2nd row of Fig. 2). 반면, 제안 수집방법에서의 조성비 추정치는 참값을 잘 반영했다(3rd row of Fig. 2). 95% 포함확률을 비교한 실험에서, 현행 수집방법은 모든 양륙 시점에서 어획물의 상황(i.e., 어획마리수, 어획물의 체장분포)에서 표본의 크기가 커질수록, 모든 체장계급에서 체장조성비에 대한 95% 신뢰구간안에 체장조성비의 참값이 포함되고 있지 않은 횟수가 증가했다(gray colored boxplots of Fig. 3).
Table 4. Sampling weights used by the current practice (\(W_{h}^{\text {Current }}\)) versus those used by the alternative practice (\(W_{h}^{\text {Proposal }}\)) set under each scenario when a total of all fish landed (C) was assumed to be 1 million individuals
Five size groups are divided as follows: VSG, very small size group, (10 cm, 18 cm]; SG, small size group, (18 cm, 26 cm]; MG, medium size group, (26 cm, 34 cm]; LG, large size group, (34 cm, 42 cm]; VLG, very large group, (42 cm, 50 cm].
Fig. 2. Comparison in estimates (π) of composition between the current and alternative practices with 200 sample size under four scenarios when a total of all fish landed (C) was 1 million individuals. The first row shows the length frequency of fish landed set under each scenario. The second and third rows are results from current and alternative practices, respectively. Open circles are true compositions and points (-)are the mean values of estimates by length class and the vertical bars are the standard deviations of estimates from 1,000 replicates.
Fig. 3. Boxplots of 95% coverage probabilities of estimates of length compositions (i.e., 40 π̂’s in the multinomial likelihood) by sample size considered. Simulation was performed for each of 10 cases of sample size (100, 200, …, 1,000) under four scenarios by two cases of a total of fish landed (C=0.1 million individuals under the left column; C=1 million individuals under the right column). Gray boxes denote the current sampling practice while blank boxes represent the alternative sampling practice.
반면, 제안 수집방법에서는 표본의 크기가 증가할수록 모든 체장계급에서 조성비의 포함확률이 95%에 수렴하는 것으로 나타났다(white colored boxplots of Fig. 3). 하지만, 총 어획물의 체장분포를 균등분포를 가정한 S4 상황에서는 어획 마리 수의 두 가지 경우(백만 마리, 십만 마리) 모두에서 표본의 크기가 100마리인 경우보다 200마리의 경우, 95% 포함확률이 감소하는 것이 나타났다.
표본의 크기를 달리하면서 조성비 추정치의 불확실성을 비교한 두 번째 실험에서는 변동계수가 모든 어획물의 상황에서 공통적으로 표본의 크기가 커질수록 값이 작아졌다(Fig. 4). 어획물의 체장분포에 균등분포를 가정한 S4 상황을 제외한 S1-S3 경우에서, 표본의 크기별로 변동계수의 최댓값과 최솟값은 뚜렷한 차이를 나타냈고, 표본의 크기는 적어도 700마리가 되어야 추정치의 변동계수의 최대값이 0.5 정도가 되었다. 반면 어획물의 체장분포에 균등분포를 가정한 상황에서는 최소 200마리 이상의 표본의 크기를 정해야 추정치의 변동계수의 최대값이 0.5 아래로 감소하였다.
Fig. 4. The average of the coefficient of variations of estimates of length compositions (i.e., 40 π̂’s in the multinomial likelihood) based on 1,000 iterations where, at each iteration, such estimates were calculated with pseudo data on lengths generated under the alternative practice, whose sample size was considered from 100 to 1000 on the x-axis. Among those averages by length class, the maximum and the minimum value was denoted as circles (○) and triangles (△), respectively. Simulation was performed by sample size (x-axis) under four scenarios by two cases of a total of fish landed (C=0.1 million individuals under the left column; C=1 million individuals under the right column).
3일 동안 누적된 총 어획물의 체장조성을 추정하기 위해 누적방법과 가중평균방법을 비교한 세 번째 실험에서는 모든 T1-T4 상황에서 3일 간 총 어획물의 체장 분포를 모두 동일하게 가정하였지만, 어획 마리수를 날마다 다르게 설정하였기 때문에, 누적된 총 어획물의 체장빈도와 조성비는 상황별로 모두 다르게 나타났다(Fig. 5). 누적방법의 경우, 3일 동안 어획 마리수가 매일 동일한 T4 상황을 제외하고는 조성비의 추정치는 조성비 참값을 대표하지 못하고 있다(2nd row of Fig. 5). 반면, 가중평균방법의 경우에는 일별 조성비 추정치의 가중평균 값이 누적 총 어획물의 조성비를 잘 대표하였다(3rd row of Fig. 5).
Fig. 5. Comparison in estimates (π) of composition rates between the cumulative and the weighted average methods. Simulation was performed with 700 sample size under four scenarios (T1, T2, T3, T4) in Table 3. The first row shows the length frequency distribution of fish landed over three days set under the four scenarios. The second and third rows are results from the cumulative and weighted average method, respectively. Open circles are true composition rate, points (-) are the mean values of estimates by length class and the vertical bars are the standard deviations of estimates from 1,000 replications.
고찰
현행 수집방법과 제안 수집방법의 비교를 위한 첫 번째 실험에서, 현행 수집방법으로 수집된 체장조성자료의 체장 조성비 추정치는 체급 그룹별 체장구간에 따라 뚜렷한 구분이 나타났는데(2nd row of Fig. 2), 이는 현행 수집방법이 체급별 상자수에 비례한 가중치를 사용하기 때문으로 판단된다. 그리고 현행 수집방법의 추정치는 체장계급의 값이 작아질수록 참값보다 더 낮은 조성비를 나타냈고, 체장계급의 값이 커질수록 조성비의 참값보다 더 높은 조성비를 나타냈다. 이는 작은 체급의 그룹에 서는 한 상자 안에 많은 수의 어획물이 담기지만, 큰 체급의 그룹에서는 한 상자 안에 적은 수의 어획물이 담기는 이유로 인해, 체급별 상자 수의 조성이 체급별 어획 마리수의 조성과 달라졌기 때문으로 생각된다. 또한, 95% 포함확률은 총 어획 마리수와 무관한 것으로 나타나며, 표본의 크기와 총 어획물의 체장분포의 형태에 따라 달라지는 것을 나타냈고, 표본의 크기가 커질수록 현행 수집방법의 체장조성자료로부터 추정된 조성비의 95% 신뢰구간 안에 조성비의 참값을 포함하지 못하는 것을 확인하였다. 따라서, 현행 수집방법으로 수집되는 체장조성자료는 총 어획 체장조성을 대표하지 못하는 것으로 나타났다. 반면에, 제안 수집방법은 모집단인 총 어획물의 조성을 대표할 수 있는 것으로 나타났지만, 총 어획물의 체장분포를 균등분포를 가정한 S4 상황에서는 표본의 크기가 100마리인 경우보다 200마리의 경우 95% 포함확률이 감소하는 역설적인 결과가 나타났다. 이는 표본의 크기가 100마리인 경우에 조성비 추정치의 표준오차 값이 표본의 크기가 200마리인 경우보다 크기 때문에 95% 신뢰구간의 너비가 표본의 크기가 100마리인 경우에 더욱 넓어 졌기 때문으로 추측된다.
현재 우리나라의 체장조성자료의 수집 매뉴얼에 추가되어야 할 사항으로, 수집해야 할 표본의 크기를 정하는 것이 있다. 본 연구의 두 번째 실험 결과인 제안 수집방법으로 표본의 크기를 달리한 상황에서 변동계수의 변화를 보면, 변동계수는 총 어획마리수와는 무관하고, 총 어획물의 체장분포에 따라 표본의 크기가 커질수록 조성비 추정치의 변동계수가 계속해서 작아지는 것을 확인할 수 있다. 변동계수가 작아진다는 것은 추정치의 정밀도(precision)가 높아지는 것을 의미하므로, 표본의 크기는 커질수록 조성비 추정치의 불확실성이 줄어드는 것으로 나타났다. 하지만, 표본의 크기가 증가할수록 투여되는 인력과 시간 그리고 비용 등의 경비(cost)가 증가하기 때문에, 자료를 수집하는 기관은 현실적인 어획물의 체장분포 상황을 가정하고, 본 연구에서 소개한 방법처럼 표본의 크기별로 변동계수를 계산하여, 감당할 수 있는 경비의 범위에서 최소한의 변동계수를 가지는 표본의 크기를 선택할 것을 제안한다.
체장기반모델을 이용한 어류 개체군의 자원평가는 가상의 연급군의 시간적 변화를 감지하기 위하여 체장조성자료를 사용하며, 모델의 시간 단위는 연구자가 결정하게 된다. 따라서, 하루단위로 수집되는 체장조성자료에 누적방법을 이용하였을 때, 자료가 수집된 기간의 총 어획물의 체장 조성을 대표할 수 없다는 세 번째 실험의 결과는 연구자에게 큰 의미를 가진다. 본 연구에서는 하루 단위로 수집되는 체장조성자료의 체장 조성비에 일별 총 어획 마리수에 비례한 가중치를 곱하여 구하는 가중평균방법을 이용하였을 때, 일정 기간 동안의 총 어획물의 체장 조성을 대표할 수 있음을 시사하며, 이를 위해 자료 수집시에 일별 총 어획 마리수에 대한 조사는 반드시 필요하다.
우리나라에서는 어획물로부터 자료가 수집되기 이전까지 배열이라는 과정을 거치게 되어있어, 체장조성자료는 체급마다 표본 자료를 수집하는 층화추출법을 수행하는 여건이 마련되어 있다. 하지만, 자료 수집에 대한 매뉴얼이나 현행 방법으로 수집되는 자료의 모집단에 대한 대표성을 시사한 이전의 연구는 부족한 실정이다. 본 연구에서는 우리나라의 실정을 고려한 자료 수집방법을 제시하기 위하여 가상실험을 수행하였다. 결론적으로, 체급별 상자수에 대한 정보를 사용하는 현행 수집방법은 모집단인 총 어획물의 체장 조성을 대표할 수 없으며, 대안으로 체급별 어획 마리수에 대한 정보를 사용할 것을 제안하는 바이다. 이를 위해, 자료가 수집되기 이전의 어획물의 배열 과정에 주목할 필요가 있으며, 자료 수집 현장에서 체급별 어획물의 수에 대한 조사는 반드시 필요하다. 하지만, 실제 현장에서 어획물의 수가 매우 많은 경우, 체급별 어획물의 수를 조사하는 것은 무리가 있어, 제안 수집방법을 수행하기 어렵다. 이에 체급별 한 상자 안에 담겨있는 어획물의 수에 대한 정보를 수집할 것을 제안한다. 현재 우리나라는 체급별 상자의 수는 반드시 기록하고 있어, 체급당 한 상자 안에 담긴 어획물의 수의 평균값을 알게 된다면, 대략적인 체급별 어획물의 수를 조사하는 것이 가능하다.
사사
이 논문은 2020년도 한국연구재단 보호연구사업(과제번호: NRF-2019R1I1A2A01052106)으로부터 지원받았습니다. 자문 요청에 응답해주신 한국수산자원공단(Korea Fisheries Resources Agency) TAC 관리팀과 부산공동어시장 정산과 직원분들께 감사드립니다.
참고문헌
- BCFM (Busan Cooperative Fish Market). 2020. Website for fishery consignment sales in Busan cooperative fish market. Retrieved from http://www.bcfm.co.kr/sub/order_01.jsp on Oct 10, 2020.
- Gim J. 2019. A length-based model for Korean chub mackerel Scomber japonicus stock. MS. Thesis, Pukyong National University, Busan, Korea.
- Hyun SY, Reynolds JH and Galbreath PF. 2011. Accounting for tag loss and its uncertainty in a mark-recapture study with a mixture of single and double tags. Trans Am Fish Soc 141, 11-25. http://doi.org/10.1080/00028487.2011.639263.
- Kristensen K, Nielsen A,Berg CW, Skaug H and Bell BM. 2016. TMB: automatic differentiation and laplace approximation. J Stat Softw 70, 1-21. https://doi.org/10.18637/jss.v070.i05.
- Lohr SL. 1998. Sampling: Design and analysis. Julet M, ed. Brooks/Cole, Boston, MA, U.S.A., 73-82.
- Mersmann O, Trautmann H, Steuer D and Bornkamp B. 2018. Truncnorm: truncated normal distribution. R package version 1.0-8. Retrieved from https://CRAN.R-project.org/package=truncnorm.
- NFRDI (National Fisheries Research and Development Institute) and PKNU (Pukyong National University). 2004. Chapter 1.2. size composition survey. In: Fisheries resources research techniques. Yemoonsa Pub Co., Busan, Korea, 41-42.
- R Core Team. 2020. R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Retrieved from http://www.R-project.org onOct 10, 2020.
- Scheaffer RL, Mendenhall W, Ott RL and Gerow KG. 1971. Elementary survey sampling. Julet M, ed. Brooks/Cole, Boston, MA, U.S.A., 114-133.