• 제목/요약/키워드: Jaccard's similarity index

검색결과 10건 처리시간 0.035초

Comparison of Plant Diversity of Natural Forest and Plantations of Rema-Kalenga Wildlife Sanctuary of Bangladesh

  • Sobuj, Norul-Alam;Rahman, Mizanur
    • Journal of Forest and Environmental Science
    • /
    • 제27권3호
    • /
    • pp.127-134
    • /
    • 2011
  • The purpose of the study was to assess and compare the diversity of plant species (trees, shrubs, herbs) of natural forest and plantations. A total of 52 plant species were recorded in the natural forest, of which 16 were trees, 15 were shrubs and 21 were herbs. On the contrary, 31 species of plants including 11 trees, 8 shrubs and 12 herbs were identified in plantation forest. Shannon-Wiener diversity index were 2.70, 2.72 and 3.12 for trees, shrubs and herbs respectively in the natural forest. However, it was 2.35 for tree species, 2.31 for shrub species and 2.81 for herb species in the plantation forest. Jaccard's similarity index showed that 71% species of trees, 44% species of shrubs and 43% species of herbs were same in plantations and natural forest.

Development of a Personalized Similarity Measure using Genetic Algorithms for Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권12호
    • /
    • pp.219-226
    • /
    • 2018
  • Collaborative filtering has been most popular approach to recommend items in online recommender systems. However, collaborative filtering is known to suffer from data sparsity problem. As a simple way to overcome this problem in literature, Jaccard index has been adopted to combine with the existing similarity measures. We analyze performance of such combination in various data environments. We also find optimal weights of factors in the combination using a genetic algorithm to formulate a similarity measure. Furthermore, optimal weights are searched for each user independently, in order to reflect each user's different rating behavior. Performance of the resulting personalized similarity measure is examined using two datasets with different data characteristics. It presents overall superiority to previous measures in terms of recommendation and prediction qualities regardless of the characteristics of the data environment.

Comparison of User-generated Tags with Subject Descriptors, Author Keywords, and Title Terms of Scholarly Journal Articles: A Case Study of Marine Science

  • Vaidya, Praveenkumar;Harinarayana, N.S.
    • Journal of Information Science Theory and Practice
    • /
    • 제7권1호
    • /
    • pp.29-38
    • /
    • 2019
  • Information retrieval is the challenge of the Web 2.0 world. The experiment of knowledge organisation in the context of abundant information available from various sources proves a major hurdle in obtaining information retrieval with greater precision and recall. The fast-changing landscape of information organisation through social networking sites at a personal level creates a world of opportunities for data scientists and also library professionals to assimilate the social data with expert created data. Thus, folksonomies or social tags play a vital role in information organisation and retrieval. The comparison of these user-created tags with expert-created index terms, author keywords and title words, will throw light on the differentiation between these sets of data. Such comparative studies show revelation of a new set of terms to enhance subject access and reflect the extent of similarity between user-generated tags and other set of terms. The CiteULike tags extracted from 5,150 scholarly journal articles in marine science were compared with corresponding Aquatic Science and Fisheries Abstracts descriptors, author keywords, and title terms. The Jaccard similarity coefficient method was employed to compare the social tags with the above mentioned wordsets, and results proved the presence of user-generated keywords in Aquatic Science and Fisheries Abstracts descriptors, author keywords, and title words. While using information retrieval techniques like stemmer and lemmatization, the results were found to enhance keywords to subject access.

The benefit of one cannot replace the other: seagrass and mangrove ecosystems at Santa Fe, Bantayan Island

  • Mendoza, Ayana Rose R.;Patalinghug, Jenny Marie R.;Divinagracia, Joshua Ybanez
    • Journal of Ecology and Environment
    • /
    • 제43권2호
    • /
    • pp.183-190
    • /
    • 2019
  • Background: In the Philippines, the practice of planting mangroves over seagrass has been a practice done to promote coastline protection from damages done by storms. Despite the added protection to the coastline, the addition of an artificial ecosystem gradually inflicts damage to the ecosystem already established. In this study, seagrass communities that had no history of mangrove planting were compared with those that had mangrove planting. The percent substrate cover of seagrass in the sampling areas was determined, and the macroinvertebrates present in the sampling areas were also observed. The study was conducted based on reports of mangrove planting activity that disrupted seagrass functions on Santa Fe, Bantayan Island, Cebu. Transect-quadrat method sampling was done to assess the chosen sites. Results: Six species of seagrass was found on the site without mangrove planting which was barangay Ocoy (Cymodocea sp., Thalassia sp., Halodule sp., Enhalus sp., Halophila sp., and Syringodium sp.) and had a higher percent cover, while only four were found on the site with mangrove planting (barangay Marikaban). It was also found that barangay Marikaban had a lesser Shannon-Wiener and Simpson's index compared to barangay Ocoy. Jaccard's index of similarity between the two sites was low. Conclusion: With the results of the assessment, we recommend proper monitoring of future mangrove planting activities and that these activities should not disrupt another ecosystem as all ecosystems are important.

보호지역의 식물종 보전 상보성 평가 (Complimentary Assessment for Conserving Vegetation on Protected Areas in South Korea)

  • 박진한;최혜영;모용원
    • 한국환경생태학회지
    • /
    • 제34권5호
    • /
    • pp.436-445
    • /
    • 2020
  • 아이치 생물다양성 목표11을 달성하기 위하여, 국내 보호지역은 양적으로 꾸준히 증가되어왔으며, 추가 지정이 필요한 잠재 보호지역에 대한 연구도 진행되어왔다. 하지만 효과적인 생물다양성 보전을 위한 보호지역의 상보성에 대한 평가는 미흡하다. 본 연구에서는 제3차 전국자연환경조사의 식물종을 대상으로 종분포모형을 이용하여 잠재서식지역을 도출하고, 기존 보호지역과 잠재보호지역 내 잠재서식지역이 포함되는 종의 풍부도를 유사도 지수인 Jaccard, Sorenson, Bray-curtis를 이용하여 비교분석하였다. 연구결과로 기존 보호지역과 잠재보호지역 대부분이 상보성이 낮아 유사한 식물종을 보전하는 것으로 나타났다. 국립수목원 완충지역이 상보성이 높아 보호지역으로서의 가치가 높다고 할 수 있다. 잠재서식지역이 포함되는 경우가 적은 식물종을 보호하기 위해서는 기존 또는 잠재 보호지역 외 지역에 추가로 보호지역을 선정할 필요가 있음을 확인할 수 있었다. 본 연구는 개별 보호지역이 보호지역으로서 고유한 생태계 또는 생물종 보전이 가능한지 각 보호지역의 생태적 대표성을 확인하고, 공간적으로 추가 보호가 필요한 지역을 탐색하는 방법을 제안했다는 점에서 의의가 있으며, 향후 동물종까지 포함한 상보성 평가를 통한 보호지역의 질적 개선과 계속적으로 조사되는 전국자연환경조사 자료를 이용한 보호지역의 효과성평가 연구 등으로 발전시킬 수 있을 것으로 판단된다.

채집법에 따른 연엽산 일대 딱정벌레목의 출현상 비교 분석 (Comparison of Occurrences of Coleoptera by Three Sampling Methods in Mt. Yeonyeop Area, Korea)

  • 정종국;이승일;최재석;권오길
    • 환경생물
    • /
    • 제23권3호
    • /
    • pp.228-237
    • /
    • 2005
  • 2004년 4월부터 9월까지 총 6개월 동안, 강원대학교 학술림내 연엽산 일대의 딱정벌레목의 출현상을 채집방법에 따라 조사하여 비교하였다. Sweeping에 총35과 151종 690개체가 나타났고, light trap에 30과 148종 689개체가 출현하였으며, 그리고 pitfall trap에는 총18과 112종 1674개체가 채집되었다. 채집방법별 건중량은 pitfall trap (181.46 g), light trap (39.85 g), 그리고 sweeping (10.89 g)의 순으로 나타났다. Light trap으로는 크기가 작고, 비행성이 강한 Coccinellidae, Nitidulidae, Scarabaeidae 등이 주로 출현하였으며, 7월에 종수가 가장 많았다. 또한 pitfall trap의 경우, 크기가 크고, 육식성 또는 부식성인 Carabidae, Silphidae, Staphylinidae종류가 많이 출현하였다. 특히 가장 많은 개체수가 채집되었지만, 종수는 상대적으로 적었다. 그리고 sweeping의 경우 식식성이거나 미소 곤충을 포식하는 작은 크기의 Chrysomelidae, Curculionidae, Coccinellidae등이 많이 출현하였고,5월에 종수가 가장 많았다. 채집방법간 유사도 분석 결과, Jaccard's index의 값이 light trap-pitfall trap에서 0.07, light trap-sweeping에서 0.10,그리고 pitfall trap-sweeping에서 0.01로 상관성이 매우 낮은 것으로 나타났다. 결론적으로 각 채집방법에 따른 효과는 모두 달랐으며, 다양성 연구 시 세 가지 방법 모두를 사용하는 것이 타당하다고 본다.

Brain Tumor Detection Based on Amended Convolution Neural Network Using MRI Images

  • Mohanasundari M;Chandrasekaran V;Anitha S
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2788-2808
    • /
    • 2023
  • Brain tumors are one of the most threatening malignancies for humans. Misdiagnosis of brain tumors can result in false medical intervention, which ultimately reduces a patient's chance of survival. Manual identification and segmentation of brain tumors from Magnetic Resonance Imaging (MRI) scans can be difficult and error-prone because of the great range of tumor tissues that exist in various individuals and the similarity of normal tissues. To overcome this limitation, the Amended Convolutional Neural Network (ACNN) model has been introduced, a unique combination of three techniques that have not been previously explored for brain tumor detection. The three techniques integrated into the ACNN model are image tissue preprocessing using the Kalman Bucy Smoothing Filter to remove noisy pixels from the input, image tissue segmentation using the Isotonic Regressive Image Tissue Segmentation Process, and feature extraction using the Marr Wavelet Transformation. The extracted features are compared with the testing features using a sigmoid activation function in the output layer. The experimental findings show that the suggested model outperforms existing techniques concerning accuracy, precision, sensitivity, dice score, Jaccard index, specificity, Positive Predictive Value, Hausdorff distance, recall, and F1 score. The proposed ACNN model achieved a maximum accuracy of 98.8%, which is higher than other existing models, according to the experimental results.

Genetic diversity of grapevine (Vitis vinifera L.) as revealed by ISSR markers

  • Basheer-Salimia, Rezq;Mujahed, Arwa
    • Journal of Plant Biotechnology
    • /
    • 제46권1호
    • /
    • pp.1-8
    • /
    • 2019
  • The main goal of this study was to determine the genetic diversity among 36 grape cultivars grown in Palestine by using ISSR-polymerase chain reaction (PCR) fingerprints. Among the tested primers, 17 produced reasonable amplification products with high intensity and pattern stability. A total of 57 DNA fragments (loci) separated by electrophoresis on agarose gels were detected and they ranged in size, from 150 to 900 bp. Out of these fragments, 55 (88%) were polymorphic and 2 (3.5%) monomorphic. Our results also revealed an average of 3.1 loci per primer. A minimum of 1 and maximum of 10 DNA fragments were obtained (S-17, #820 and #841) and (S-31) primers, respectively. Therefore, the later primer (S-31) is considered to be the most powerful primer among the tested ones. The genetic distance matrix showed an average distance range of between 0.05 and 0.76. The maximum genetic distance value of 0.76 (24% similarity) was exhibited between the (Shami and Marawi.Hamadani.Adi) as well as (Bairuti and Marawi.Hamadani.Adi) genotypes. On the other hand, the lowest genetic distance of 0.05 (95% similarity) was exhibited between (Jandali.Tawel.Mofarad and Jandali. Kurawi.Mlzlz) along with (Shami.Aswad and Shami.mtartash. mlwn) genotypes. Furthermore, the UPGMA dendrogram generally clusters the grape cultivars into eight major clusters in addition to an isolated genotype. Based on these figures, the cultivars tested in this study could be characterized by large divergence at the DNA level. This is taking the assumption that our region has a very rich and varied clonal grape genetic structure.

아까시나무(Robinia pseudo-acacia)종자 단백질의 전기 영동 변이

  • 김창호;이호준;김용옥
    • The Korean Journal of Ecology
    • /
    • 제16권4호
    • /
    • pp.515-526
    • /
    • 1993
  • 한반도 남부 지역에 분포하는 아까시나무(Robinia pseudo-acacia L.)종자의 생태학적 형질변이를 추적하기 위하여, 북위34$^{\circ}$18'~38$^{\circ}$36'사이에 위치한 15개 지역(대진, 속초, 강릉, 수락산, 홍천, 광릉, 남한산성, 충주, 예산, 안동, 전주, 달성, 창원, 목포, 완도)을 선정하여 채종한 종자를 재료로, 단백질 패턴 및 정량 분석을 실시하였다. SDS-PAGE에 의한 단백질 패턴 분석결과, 전 지역데 걸쳐 총 35개의 밴드가 분리되었으며 최고 분자량은 142,232 daltons, 최저 분자량은 17,258 daltons였다. 분리된 단백질 밴드 수를 지역별로 비교한 결과, 대진, 속초가 32개로 가장 많은 반면, 홍천과 달성은 23개로 가장 적었으며, 대체로 고위도로 갈수록 증가하는 경향을 나타냈다. 각 단백질 밴드의 유무에 따라 지역에 따른 단백질 패턴의 차이를 비교해 본 결과, 중북부 동해안형(대진, 속초, 강릉)과 중부형(수락산, 홍천, 광릉, 남한산성, 충주) 및 남부형(에산, 안동, 전주, 달성, 창원, 목포, 완도)등 3가지 지역 유형이 구분되었다. 단백질 패턴의 지역간 유사도 지수(Jaccard 계수)를 근거로 UPGMAdp 의한 cluster analysis 결과, 중북부 등해안형(속초, 강릉), 중북부 I형(수락산, 홍천), 중북부 II형(남한산성, 충주, 대진), 중북부III형(광릉), 중남부형(예산, 달성, 전주) 및 남부형(안동, 창원, 목포, 완도)등 6개 유형이 식별되었다. 분리된 단백질 밴드 가운데, 모든 지역세어 No.12밴드(78,162daltons)가 가장 높은 염색 강도를 나타냈고, No.11.12.13.과No.23~28 밴드 역시 비교적 높은 염색강도를 보였다. 전체적으로 총 단백질 함량이 높은 창원, 목포, 완도 등 남부형 지역에서 특히 높은 염색 강도를 나타냈다. 총 단백질 함량은 각 지역별로 최저9.68mg/g(수락산)에서 최고17.30mg/g(전주)에 이르는 다양한 수치를 나타냈으며, 대체로 저위도로 갈수록 증가하는 경향을 보였다.

  • PDF

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.