Data clustering is often one of the first steps in data mining analysis. It Identifies groups of related objects that can be used as a starling point for exploring further relationships. This technique supports the development of population segmentation models, such as demographic-based customer segmentation. This paper Purpose to present the development of two phase hierarchical clustering algorithm for group formation. Applications of the algorithm for product-customer group formation in customer relationahip management are also discussed. As a result of computer simulations, suggested algorithm outperforms single link method and k-means clustering.
Journal of the Korean Data and Information Science Society
/
v.20
no.6
/
pp.1103-1118
/
2009
When we wish to estimate the mean or total of a finite population, the numbering of the population units is of importance. In this paper, we have proposed two methods for estimating the mean or total of a population having a linear trend, for the case when the reciprocal of the sampling fraction is an even number and the sample size is an odd number. The first method involves drawing a sample by using a method which is a generalization of Singh et al's (1968) modified systematic sampling, and using interpolation in determining the estimator. The second method involves selecting a sample by modified systematic sampling, and estimating the population parameters by the regression estimation method. Under the criterion of the expected mean square error based on Cochran's (1946) infinite superpopulation model, the proposed methods have been compared with existing methods. We have also made a comparison between the two proposed methods.
This study was conducted to estimate the effective population size using SNPs data of 240 Jeju horses that had raced at the Jeju racing park. Of the total 61,746 genotyped autosomal SNPs, 17,320 (28.1%) SNPs (missing genotype rate of >10%, minor allele frequency of <0.05 and Hardy-Weinberg equilibrium test P-value of < $10^{-6}$) were excluded after quality control processes. SNPs on the X and Y chromosomes and genotyped individuals with missing genotype rate over 10% were also excluded, and finally, 44,426 (71.9%) SNPs were selected and used for the analysis. The measures of the LD, square of correlation coefficient ($r^2$) between SNP pairs, were calculated for each allele and the effective population size was determined based on $r^2$ measures. The polymorphism information contents (PIC) and expected heterozygosity (HE) were 0.27 and 0.34, respectively. In LD, the most rapid decline was observed over the first 1 Mb. But $r^2$ decreased more slowly with increasing distance and was constant after 2 Mb of distance and the decline was almost linear with log-transformed distance. The average $r^2$ between adjacent SNP pairs ranged from 0.20 to 0.31 in each chromosome and whole average was 0.26, while the whole average $r^2$ between all SNP pairs was 0.02. We observed an initial pattern of decreasing $N_e$ and estimated values were closer to 41 at 1 ~ 5 generations ago. The effective population size (41 heads) estimated in this study seems to be large considering Jeju horse's population size (about 2,000 heads), but it should be interpreted with caution because of the technical limitations of the methods and sample size.
KSII Transactions on Internet and Information Systems (TIIS)
/
v.13
no.11
/
pp.5464-5488
/
2019
The multi-population genetic algorithm in multi-target paths coverage has become a top choice for many test engineers. Also, information sharing strategy can improve the efficiency of multi-population genetic algorithm to generate multi-target test data; however, there is still space for some improvements in several aspects, which will affect the effectiveness of covering the target path set. Therefore, a multi-target paths coverage strategy is proposed by improving multi-population genetic algorithm based on individual information sharing among populations. It primarily contains three aspects. Firstly, the behavior of the sub-population covering corresponding target path is improved, so that it can continue to try to cover other sub-paths after covering the current target path, so as to take full advantage of population resources; Secondly, the populations initialized are prioritized according to the matching process, so that those sub-populations with better path coverage rate are executed firstly. Thirdly, for difficultly-covered paths, the individual chromosome features which can cover the difficultly-covered paths are extracted by utilizing the data generated, so as to screen those individuals who can cover the difficultly-covered paths. In the experiments, several benchmark programs were employed to verify the accuracy of the method from different aspects and also compare with similar methods. The experimental results show that it takes less time to cover target paths by our approach than the similar ones, and achieves more efficient test case generation process. Finally, a plug-in prototype is given to implement the approach proposed.
Background: The health of the economically active population contributes to increased corporate productivity by reducing the productivity loss caused by disease and increasing job efficiency, which in turn is a national benefit. Since the economically active population is a concept encompassing workers and a source of economic development for a country, that population's health should be treated with importance not only from a personal standpoint but also at a national level. Methods: In this study, data of 11,007 adults aged 20 years and older who participate in economic activities were analyzed in the five-year Korea Health Panel Study from 2010 to 2014 including the number of dental visits and dental medical expenses. Results: Factors related to "gender," "education level," "age," "duty category," "income level," "employment type," "national health insurance," and "chronic disease status" of the economically active population are affected in relation to the number of visits and dental medical expenses. The number of dental visits increased with higher education levels (p<0.001), and the number of visits to the dentist increased with older age (p <0.001). Dental medical expenses were 91,806 Korean won (KRW) more for "white-collar workers" than for "blue-collar workers" (p<0.03), and 127,674 KRW more for "regular workers" than for "atypical workers" (p<0.02). Conclusion: When it is necessary to improve policies to enhance the efficiency of the distribution of health and medical resources in the overall balance of the dental health sector, we should try to identify various factors of oral health disorder due to income inequality among the classes according to the country's employment type in order to find ways to reduce the health gap among the social classes.
Objective: Karan Fries (KF), a high-producing composite cattle was developed through crossing indicine Tharparkar cows with taurine bulls (Holstein Friesian, Brown Swiss, and Jersey), to increase the milk yield across India. This composite cattle population must maintain sufficient genetic diversity for long-term development and breed improvement in the coming years. The level of linkage disequilibrium (LD) measures the influence of population genetic forces on the genomic structure and provides insights into the evolutionary history of populations, while the decay of LD is important in understanding the limits of genome-wide association studies for a population. Effective population size (Ne) which is genomically based on LD accumulated over the course of previous generations, is a valuable tool for e valuation of the genetic diversity and level of inbreeding. The present study was undertaken to understand KF population dynamics through the estimation of Ne and LD for the long-term sustainability of these breeds. Methods: The present study included 96 KF samples genotyped using Illumina HDBovine array to estimate the effective population and examine the LD pattern. The genotype data were also obtained for other crossbreds (Santa Gertrudis, Brangus, and Beefmaster) and Holstein Friesian cattle for comparison purposes. Results: The average LD between single nucleotide polymorphisms (SNPs) was r2 = 0.13 in the present study. LD decay (r2 = 0.2) was observed at 40 kb inter-marker distance, indicating a panel with 62,765 SNPs was sufficient for genomic breeding value estimation in KF cattle. The pedigree-based Ne of KF was determined to be 78, while the Ne estimates obtained using LD-based methods were 52 (SNeP) and 219 (genetic optimization for Ne estimation), respectively. Conclusion: KF cattle have an Ne exceeding the FAO's minimum recommended level of 50, which was desirable. The study also revealed significant population dynamics of KF cattle and increased our understanding of devising suitable breeding strategies for long-term sustainable development.
Journal of the Korean Association of Geographic Information Studies
/
v.23
no.3
/
pp.68-84
/
2020
This study analyzed the relationship between spatial characteristics and heat waves in the distribution area of the elderly population in Changwon, Gyeongsangnam-do. For analysis, the Statistics Census data, the Ministry of Environment land cover, Landsat 8 surface temperature, and the Meteorological Agency's heat wave days data were used. The spatial characteristics of the distribution of the elderly population was classified into 5 types through K-mean cluster analysis considering the land use types. The characteristics of the elderly population by spatial type were higher in the urbanized type(cluster-3), but the proportion of the elderly population was higher in the agricultural and forest area types(cluster-1, cluster-2). In the characteristics of the surface temperature and the heat wave days, the surface temperature was the highest in the urban area, but heat wave days were the highest in the rural area. As a result of analyzing the heat wave characteristics according to the spatial type of the distribution area of elderly population, cluster-2 with the largest area in agricultural areas was highest at 15.95 days, and cluster-3 with a large area in urbanized types was the lowest at 9.41 days and 9.18 days. In other words, the elderly population living in rural areas is more exposed to heat waves than the elderly population living in urban areas, and the damage is expected to increase. The results of this study could be used as basic data to prepare various policy measures for effective management and prevention of vulnerable areas in summer.
Yim, Jong Su;Kleinn, Christoph;Kim, Sung Ho;Jeong, Jin-Hyun;Shin, Man Yong
Journal of Korean Society of Forest Science
/
v.98
no.2
/
pp.133-141
/
2009
This study was conducted to support for determining an efficient sampling design for forest resources assessments in South Korea with respect to statistical efficiency. For this objective, different systematic sampling designs were simulated and compared based on an artificial forest population that had been built from field sample data and satellite data in Yang-Pyeong County, Korea. Using the k-NN technique, two thematic maps (growing stock and forest cover type per pixel unit) across the test area were generated; field data (n=191) and Landsat ETM+ were used as source data. Four sampling designs (systematic sampling, systematic sampling for post-stratification, systematic cluster sampling, and stratified systematic sampling) were employed as optimum sampling design candidates. In order to compute error variance, the Monte Carlo simulation was used (k=1,000). Then, sampling error and relative efficiency were compared. When the objective of an inventory was to obtain estimations for the entire population, systematic cluster sampling was superior to the other sampling designs. If its objective is to obtain estimations for each sub-population, post-stratification gave a better estimation. In order to successfully perform this procedure, it requires clear definitions of strata of interest per field observation unit for efficient stratification.
According to data from the national office of Statistics Korea and Ministry of Health and Welfare, as the elderly population increases, the dementia elderly population continues to increase and its future population growth rate is expected to be even faster. In particular, the Dementia Management Act has been in effect since February 2012, and active efforts has been made for a policy for the dementia management. The purpose of this study is to establish standards on building plans based on the appropriate scale and spatial configuration on facilities planning for the elderly with dementia. Specifically, the basic data were collected with a request for a total of 103 points on the basis of a database of group homes in the survey managed by the Japan Association of Group Homes. Specific information of the research includes the management body of facilities operation, scale of the facilities, number of units and configuration of personal living space, and the collected survey data and drawings were statistically proceed and analyzed using the SPSS WIN 20.0. analysis results are summarized as follows. first, most of the group homes come to the small size of the 1-2 story home ; the approximate number of units is one or two per home, and each unit consists of nine rooms. second, a number of group homes with the building area of $300m^2$ have the U-shaped arrangement which is advantageous in the extension and facilities maintenance. In conclusion, this study is to be the fundamental data for judgments that can be used to establish standards for the facilities for the dementia elderly whose population continues to increase. In addition, further study is necessary to establish suitable design conditions of our country.
Journal of the Korean Data and Information Science Society
/
v.16
no.4
/
pp.933-942
/
2005
Recently, the decrease of the number of the third graders in a high-school have serious influences on the number of a limit matriculation of colleges and universities. The purpose of this paper is to forecast for the number of a high-school graduate until 2022 year in Daegu city as based on the resident registration population. As the based period of 2004, most college and universities in Daegu city have to reduce the 37.5% of the number of limit matriculation until 2022 year to equal the number of the third graders in a high-school.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.