• 제목/요약/키워드: Jaccard similarity

검색결과 50건 처리시간 0.027초

텍스트 마이닝 기법을 이용한 연관용어 선정에 관한 실험적 연구 (An Experimental Study on Selecting Association Terms Using Text Mining Techniques)

  • 김수연;정영미
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.147-165
    • /
    • 2006
  • 이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

RAPD Polymorphism and Genetic Distance among Phenotypic Variants of Tamarindus indica

  • Mayavel, A;Vikashini, B;Bhuvanam, S;Shanthi, A;Kamalakannan, R;Kim, Ki-Won;Kang, Kyu-Suk
    • 한국산림과학회지
    • /
    • 제109권4호
    • /
    • pp.421-428
    • /
    • 2020
  • Tamarind (Tamarindus indica L.) is one of the multipurpose tree species distributed in the tropical and sub-tropical climates. It is an important fruit yielding tree that supports the livelihood and has high social and cultural values for rural communities. The vegetative, reproductive, qualitative, and quantitative traits of tamarind vary widely. Characterization of phenotypic and genetic structure is essential for the selection of suitable accessions for sustainable cultivation and conservation. This study aimedto examine the genetic relationship among the collected accessions of sweet, red, and sour tamarind by using Random Amplified Polymorphic DNA (RAPD) primers. Nine accessions were collected from germplasm gene banks and subjected to marker analysis. Fifteen highly polymorphic primers generated a total of 169 fragments, out of which 138 bands were polymorphic. The polymorphic information content of RAPD markers varied from 0.10 to 0.44, and the Jaccard's similarity coefficient values ranged from 0.37 to 0.70. The genetic clustering showed a sizable genetic variation in the tamarind accessions at the molecular level. The molecular and biochemical variations in the selected accessions are very important for developing varieties with high sugar, anthocyanin, and acidity traits in the ongoing tamarind improvement program.

Mitigation of Adverse Effects of Malicious Users on Cooperative Spectrum Sensing by Using Hausdorff Distance in Cognitive Radio Networks

  • Khan, Muhammad Sajjad;Koo, Insoo
    • Journal of information and communication convergence engineering
    • /
    • 제13권2호
    • /
    • pp.74-80
    • /
    • 2015
  • In cognitive radios, spectrum sensing plays an important role in accurately detecting the presence or absence of a licensed user. However, the intervention of malicious users (MUs) degrades the performance of spectrum sensing. Such users manipulate the local results and send falsified data to the data fusion center; this process is called spectrum sensing data falsification (SSDF). Thus, MUs degrade the spectrum sensing performance and increase uncertainty issues. In this paper, we propose a method based on the Hausdorff distance and a similarity measure matrix to measure the difference between the normal user evidence and the malicious user evidence. In addition, we use the Dempster-Shafer theory to combine the sets of evidence from each normal user evidence. We compare the proposed method with the k-means and Jaccard distance methods for malicious user detection. Simulation results show that the proposed method is effective against an SSDF attack.

건선 영역 분할기법 비교분석 (Comparative Analysis of Segmentation Methods in Psoriasis Area)

  • 유현종;이지원;문초이;김은빈;백유상;장상훈;이언석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.657-659
    • /
    • 2019
  • 본 논문에서는 피부 이미지에서 건선 병변만을 가장 효과적으로 분할 할 수 있는 분할기법 선별을 목표로 한다. Interactive graph cuts (IGC)와 Level set method (LSM)를 사용하여 건선 영역을 분할한 후 Jaccard Index (JI)와 Dice Similarity Coefficient (DSC)을 사용하여 건선 영역에 효과적인 분할 방법을 제안한다.

A Tracking Method of Same Drug Sales Accounts through Similarity Analysis of Instagram Profiles and Posts

  • Eun-Young Park;Jiyeon Kim;Chang-Hoon Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.109-118
    • /
    • 2024
  • 전 세계 소셜 미디어 사용자가 증가하면서 다양한 범죄의 수단으로 소셜 미디어가 악용되는 사례가 증가하고 있다. 특히, 소셜 미디어를 통한 마약 유통은 마약 판매자와 소비자의 높은 접근성으로 인해 청소년들의 마약 호기심을 자극하고, 구매를 용이하게 한다는 점에서 심각한 사회문제로 대두되고 있다. 본 논문에서는 다양한 소셜 미디어 중, 국내 19세에서 24세 청소년이 가장 많이 사용하는 인스타그램을 대상으로 프로필 사진, 소개글, 게시물 사진과 게시글을 수집하고, 각 정보의 유사도 분석을 통해 수집한 다수의 계정을 활용하여 마약을 유통하는 마약사범 추적 기술을 개발한다. 4개 수집 정보 중, 이미지 형태의 프로필 사진 및 게시물 사진은 SSIM(Structural Similarity Index Measure) 기반으로 유사도를 분석하고, 텍스트 형태의 소개글 및 게시글은 자카드 유사도 및 코사인 유사도 기법을 사용하여 유사도를 분석한다. 이와 같은 유사도 분석을 통해, 각 수집 정보별 계정 간의 유사도를 측정할 수 있으며 유의수준 이상의 유사성을 갖는 계정들에 대해 동일 마약 유통 계정으로 판단할 수 있다. 또한, 수집한 4개 정보에 대해 로지스틱 회귀분석을 수행하여 게시물 사진을 제외한 프로필 사진, 소개글, 게시글이 동일 마약 판매 계정을 추적하는 데에 유효한 정보임을 확인하였다.

단어 임베딩 및 벡터 유사도 기반 게임 리뷰 자동 분류 시스템 개발 (Development of An Automatic Classification System for Game Reviews Based on Word Embedding and Vector Similarity)

  • 양유정;이보현;김진실;이기용
    • 한국전자거래학회지
    • /
    • 제24권2호
    • /
    • pp.1-14
    • /
    • 2019
  • 게임은 소프트웨어 특성상 출시 후 사용자들의 반응을 빠르게 파악하여 개선하는 것이 중요하다. 하지만 구글 플레이 앱 스토어 등 사용자들이 게임을 다운로드하고 리뷰를 올릴 수 있는 대부분의 사이트들은 게임 리뷰에 대한 매우 제한적이고 모호한 분류 기능만을 제공한다. 따라서 본 논문에서는 사용자들이 사이트에 올린 게임 리뷰를 보다 명확하고 운영에 유용한 주제들로 자동 분류하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 리뷰에 포함된 단어들을 대표적인 단어 임베딩 모델인 word2vec을 사용하여 벡터들로 변환하고, 이 벡터들과 각 주제 간 유사도를 측정하여 해당 리뷰를 관련된 주제로 분류한다. 특히 분류 성능에 직접적인 영향을 미치는 벡터 간 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 벡터 간 유사도 측정 방법인 유클리디안 유사도, 코사인 유사도, 확장된 자카드 유사도의 성능을 실제 데이터를 사용하여 비교하였다. 또한 어떤 리뷰가 둘 이상의 주제에 해당하는 경우를 위해 임계값에 기반한 다중 분류 방법을 사용하였다. 구글 플레이 앱스토어의 실제 데이터를 사용한 실험 결과 본 시스템은 95%까지의 정확도를 보임을 확인하였다.

OPAC에서 탐색결과의 클러스터링에 관한 연구 (The Effectiveness of Hierarchic Clustering on Query Results in OPAC)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제38권1호
    • /
    • pp.35-50
    • /
    • 2004
  • 본 연구는 한글 OPAC에서 문헌의 분류와 브라우징에 적합한 정적 계층클러스터링 모형이 서명단어 탐색으로 검색된 탐색결과를 클러스터링하는데도 효과적인지를 규명하기 위해 수행되었다. 서명에 출현하는 단어와 색인자가 부여한 통제어를 통합한 색인어를 이진빈도로 가중치를 주어, 다이스와 자카드 계수, 집단 간 평균연결과 완전연결 클러스터링 기법이 테스트되었다. 16개의 서명단어 탐색으로 검색된 문헌을 클러스터링한 결과 최적으로 선택된 클러스터의 정확률은 유사도 계수나 클러스터링 기법에 관계없이 서명단어탐색보다 100%이상 향상되었다. 1단계와 최종단계 클러스터링 모두에서, 정확률 측면에서는 완전연결이, 재현을 측면에서는 집단 간 평균연결이 더 효과적이었으나 통계적으로 유의한 수준은 아니었다. 1단계 클러스터에서 집단 간 평균연결이 보다 높은 재현율을 보인 것은 유의하였다. 다이스와 자카드 사이에 차이는 없었다. 최종클러스터가 선택되기까지 집단 간 평균연결은 너무 긴 계층군집 단계를 필요로 하여 탐색효율 측면에서 바람직해 보이지 않았다.

개인화된 소프트웨어 교육을 위한 콘텐츠 추천 기법 (Content Recommendation Techniques for Personalized Software Education)

  • 김완섭
    • 디지털융복합연구
    • /
    • 제17권8호
    • /
    • pp.95-104
    • /
    • 2019
  • 최근 소프트웨어 교육이 4차 산업혁명의 핵심요소로 강조되고 있으며, 이러한 시대적 요구에 따라 많은 대학들이 전교생을 대상으로 하는 소프트웨어 교육을 강화하고 있다. 전교생을 대상으로 하는 SW교육 도입을 위해 온라인 콘텐츠의 활용은 효과적인 방안이라고 할 수 있다. 그러나 일률적인 온라인 콘텐츠의 제공은 학생들의 개별적인 특성(전공, 흥미, 이해력, 관심분야 등)을 고려하지 못하는 한계를 갖는다. 본 연구에서는 불리언 형태의 시청이력 데이터 환경에서 콘텐츠 간의 방향성 있는 유사도를 활용하는 추천 기법을 제안한다. 연관규칙 분석의 확신도를 유사도 값으로 활용하는 새로운 아이템기반 추천 수식을 제안하여 국내의 실제 유료 콘텐츠 사이트의 데이터에 적용하였다. 실험 결과 코사인, 자카드 등의 전통적인 유사도 방식을 기반으로 하는 협력적 추천방식을 사용할 때 보다 추천 정확도가 향상됨을 확인할 수 있었다.

보호지역의 식물종 보전 상보성 평가 (Complimentary Assessment for Conserving Vegetation on Protected Areas in South Korea)

  • 박진한;최혜영;모용원
    • 한국환경생태학회지
    • /
    • 제34권5호
    • /
    • pp.436-445
    • /
    • 2020
  • 아이치 생물다양성 목표11을 달성하기 위하여, 국내 보호지역은 양적으로 꾸준히 증가되어왔으며, 추가 지정이 필요한 잠재 보호지역에 대한 연구도 진행되어왔다. 하지만 효과적인 생물다양성 보전을 위한 보호지역의 상보성에 대한 평가는 미흡하다. 본 연구에서는 제3차 전국자연환경조사의 식물종을 대상으로 종분포모형을 이용하여 잠재서식지역을 도출하고, 기존 보호지역과 잠재보호지역 내 잠재서식지역이 포함되는 종의 풍부도를 유사도 지수인 Jaccard, Sorenson, Bray-curtis를 이용하여 비교분석하였다. 연구결과로 기존 보호지역과 잠재보호지역 대부분이 상보성이 낮아 유사한 식물종을 보전하는 것으로 나타났다. 국립수목원 완충지역이 상보성이 높아 보호지역으로서의 가치가 높다고 할 수 있다. 잠재서식지역이 포함되는 경우가 적은 식물종을 보호하기 위해서는 기존 또는 잠재 보호지역 외 지역에 추가로 보호지역을 선정할 필요가 있음을 확인할 수 있었다. 본 연구는 개별 보호지역이 보호지역으로서 고유한 생태계 또는 생물종 보전이 가능한지 각 보호지역의 생태적 대표성을 확인하고, 공간적으로 추가 보호가 필요한 지역을 탐색하는 방법을 제안했다는 점에서 의의가 있으며, 향후 동물종까지 포함한 상보성 평가를 통한 보호지역의 질적 개선과 계속적으로 조사되는 전국자연환경조사 자료를 이용한 보호지역의 효과성평가 연구 등으로 발전시킬 수 있을 것으로 판단된다.

채집법에 따른 연엽산 일대 딱정벌레목의 출현상 비교 분석 (Comparison of Occurrences of Coleoptera by Three Sampling Methods in Mt. Yeonyeop Area, Korea)

  • 정종국;이승일;최재석;권오길
    • 환경생물
    • /
    • 제23권3호
    • /
    • pp.228-237
    • /
    • 2005
  • 2004년 4월부터 9월까지 총 6개월 동안, 강원대학교 학술림내 연엽산 일대의 딱정벌레목의 출현상을 채집방법에 따라 조사하여 비교하였다. Sweeping에 총35과 151종 690개체가 나타났고, light trap에 30과 148종 689개체가 출현하였으며, 그리고 pitfall trap에는 총18과 112종 1674개체가 채집되었다. 채집방법별 건중량은 pitfall trap (181.46 g), light trap (39.85 g), 그리고 sweeping (10.89 g)의 순으로 나타났다. Light trap으로는 크기가 작고, 비행성이 강한 Coccinellidae, Nitidulidae, Scarabaeidae 등이 주로 출현하였으며, 7월에 종수가 가장 많았다. 또한 pitfall trap의 경우, 크기가 크고, 육식성 또는 부식성인 Carabidae, Silphidae, Staphylinidae종류가 많이 출현하였다. 특히 가장 많은 개체수가 채집되었지만, 종수는 상대적으로 적었다. 그리고 sweeping의 경우 식식성이거나 미소 곤충을 포식하는 작은 크기의 Chrysomelidae, Curculionidae, Coccinellidae등이 많이 출현하였고,5월에 종수가 가장 많았다. 채집방법간 유사도 분석 결과, Jaccard's index의 값이 light trap-pitfall trap에서 0.07, light trap-sweeping에서 0.10,그리고 pitfall trap-sweeping에서 0.01로 상관성이 매우 낮은 것으로 나타났다. 결론적으로 각 채집방법에 따른 효과는 모두 달랐으며, 다양성 연구 시 세 가지 방법 모두를 사용하는 것이 타당하다고 본다.