• 제목/요약/키워드: Jaccard Similarity

검색결과 50건 처리시간 0.032초

한글 저자명 군집화를 위한 계층적 기법 비교 (Exploration of Hierarchical Techniques for Clustering Korean Author Names)

  • 강인수
    • 정보관리연구
    • /
    • 제40권2호
    • /
    • pp.95-115
    • /
    • 2009
  • 저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다. 이 연구는 다이스계수, 코사인유사도, 유클리디안 거리, 자카드계수, 피어슨 상관계수 등의 다양한 개체거리/유사도수식과 계층적 군집법들의 상관관계와 계층적 군집기법들의 한글 저자식별 성능에 대한 비교/분석을 다룬다.

Brain Tumor Detection Based on Amended Convolution Neural Network Using MRI Images

  • Mohanasundari M;Chandrasekaran V;Anitha S
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2788-2808
    • /
    • 2023
  • Brain tumors are one of the most threatening malignancies for humans. Misdiagnosis of brain tumors can result in false medical intervention, which ultimately reduces a patient's chance of survival. Manual identification and segmentation of brain tumors from Magnetic Resonance Imaging (MRI) scans can be difficult and error-prone because of the great range of tumor tissues that exist in various individuals and the similarity of normal tissues. To overcome this limitation, the Amended Convolutional Neural Network (ACNN) model has been introduced, a unique combination of three techniques that have not been previously explored for brain tumor detection. The three techniques integrated into the ACNN model are image tissue preprocessing using the Kalman Bucy Smoothing Filter to remove noisy pixels from the input, image tissue segmentation using the Isotonic Regressive Image Tissue Segmentation Process, and feature extraction using the Marr Wavelet Transformation. The extracted features are compared with the testing features using a sigmoid activation function in the output layer. The experimental findings show that the suggested model outperforms existing techniques concerning accuracy, precision, sensitivity, dice score, Jaccard index, specificity, Positive Predictive Value, Hausdorff distance, recall, and F1 score. The proposed ACNN model achieved a maximum accuracy of 98.8%, which is higher than other existing models, according to the experimental results.

염포산 산림식생의 군락 구조 및 공간 분포의 경시적 변화 (Changes Over Time in the Community Structure and Spatial Distribution of Forest Vegetation on Mt. Yeompo, Ulsan City, South Korea)

  • 오정학;김준수;조현제
    • 한국산림과학회지
    • /
    • 제109권2호
    • /
    • pp.145-156
    • /
    • 2020
  • 울산광역시의 대표적인 고립된 도시숲인 염포산을 대상으로 2000년과 2018년에 산림식생에 대한 식물사회학적 식생조사를 수행하여 그 구조, 조성 및 공간 분포 변화 경향을 비교하였다. 분석 결과, 총피도(/100㎡)는 거의 변화가 없었으나 자연식생에서는 약 9%의 증가율을 보였다. 구성종의 중요치는 그 순위에 있어서는 다소간의 변화가 있었으며 난대성 수종인 비목나무와 오염내성이 강한 때죽나무가 각각 835%, 269%의 매우 높은 증가율을 보였다. 종풍부도(S)와 종다양도(H')는 각각 약 22%, 약 8%의 감소율을 보였는데 주로 하층 식생 발달에 따라 임상 식생 구성종이 자연 감소한 결과로 판단되며 모두 인공식생이 자연식생에 비해 다소 높은 감소율을 나타내었다. 생활형 조성 체계는 2000년과 2018년 모두 'MM-R5-D4-e'로 동일하게 나타났다. 전체 산림식생의 유사도(Jaccard 계수)는 약 75%로 종구성적 특성이 거의 동질적으로 나타났다. 지표종은 2000년 16종에서 2018년 7종으로 9종이 감소하였으며 대부분 교란에 민감한 반지중식물(H), 지중식물(G) 그리고 일년생식물(Th) 등 초본식물이었다. 상관식생 유형 간 공간 분포 면적은 큰 변화가 없었으며, 산림경관 요소인 패치(patch)의 개수는 2000년 537개에서 2018년 721개로 약 25%의 증가율을 보인 반면, 그 평균 크기는 2000년 1.28 ha에서 2018년 1.03 ha로 약 20%의 감소율을 보였다.

태그 네트워크를 이용한 개인화 북마크 추천시스템 (Personalized Bookmark Recommendation System Using Tag Network)

  • 엄태영;김우주;박상언
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.181-195
    • /
    • 2010
  • 웹 2.0을 이끌어가는 원동력이라고 할 수 있는 일반 개인 사용자의 참여와 공유는 블로그, 소셜 네트워크(Social Network), 집단지성, 소셜 북마크(Social Bookmark), 태깅(Tagging) 등의 다양한 형태로 나타나고 있다. 이 중에서 소셜 북마크는 개인이 사용하는 북마크를 웹에 추가하여 공유함으로써, 다수의 사람들이 유용하다고 생각하는 북마크에 대한 정보를 기반으로 한 다양한 서비스를 제공하는 개념이다. 딜리셔스(Delicious.com)는 소셜 북마크 서비스의 대표적인 사례라고 할 수 있으며, 북마크에 사용자들이 붙인 태그를 이용하여 검색 서비스를 제공한다. 본 논문은 북마크 검색에 대해 개인화된 검색결과를 추천하기 위하여 사용자 태그를 기반으로 하여 딜리셔스가 제공하는 북마크들의 순위를 재순위화 하는 방법론을 제안하였다. 또한 태그유사도를 기반으로 한 태그 네트워크를 이용하여 사용자의 검색어에 의미적으로 유사한 다른 태그들도 순위에 반영될 수 있도록 하였다. 그리고 실험을 통하여 딜리셔스가 제시하는 순위에 비해 본 논문에서 제안하는 시스템의 재순위화 결과가 사용자들에게 더 만족스러우며 정확성도 높음을 확인하였다.

Isolation, Characterization and Numerical Taxonomy of Novel Oxalate-oxidizing Bacteria

  • Sahin, Nurettin;Gokler, Isa;Tamer, Abdurrahman
    • Journal of Microbiology
    • /
    • 제40권2호
    • /
    • pp.109-118
    • /
    • 2002
  • The present work is aimed at providing additional new pure cultures of oxalate utilizing bacteria and its preliminary characterization for further work in the field of oxalate-metabolism and taxonomic studies. The taxonomy of 14 mesophilic, aerobic oxalotrophic bacteria isolated by an enrichment culture technique from soils rhizosphers, and the juice of the petiole/stem tissue of plants was investigated. Isolates were characterized with 95 morphological, biochemical and physiological tests. Cellular lipid components and carotenoids of isolates were also studied as an aid to taxonomic characterization. All isolates were Gram-negative, oxidase and catalase positive and no growth factors were required. In addition to oxalates, some of the strains grow on methanol and/or formate. The taxonomic similarities among isolates, reference strains or previously reported oxalotrophic bacteria were analysed by using the Simple Matching (S/ sub SM/) and Jaccard (S$\_$J/) Coefficients. Clustering was performed by using the unweighted pair group method with arithmetic averages (UPGMA) algorithm. The oxalotrophic strains formed five major and two single-member clusters at the 70-86% similarity level. Based on the numerical taxonomy, isolates were separated into three phenotypic groups. Pink-pigmented strains belonged to Methylobacterium extorquens, yellow-pigmented strains were most similar to Pseudomonas sp. YOx and Xanthobacter autorophicus, and heterogeneous non-pigmented strains were closely related to genera Azospirillum, Ancylobacter, Burkholderia and Pseudomonas. New strains belonged to the genera Pseudomonas, Azospirillum and Ancylobacter that differ taxonomically from other known oxalate oxidizers were obtained. Numerical analysis indicated that some strains of the yellow-pigmented and nonpigmented clusters might represent new species.

An effective automated ontology construction based on the agriculture domain

  • Deepa, Rajendran;Vigneshwari, Srinivasan
    • ETRI Journal
    • /
    • 제44권4호
    • /
    • pp.573-587
    • /
    • 2022
  • The agricultural sector is completely different from other sectors since it completely relies on various natural and climatic factors. Climate changes have many effects, including lack of annual rainfall and pests, heat waves, changes in sea level, and global ozone/atmospheric CO2 fluctuation, on land and agriculture in similar ways. Climate change also affects the environment. Based on these factors, farmers chose their crops to increase productivity in their fields. Many existing agricultural ontologies are either domain-specific or have been created with minimal vocabulary and no proper evaluation framework has been implemented. A new agricultural ontology focused on subdomains is designed to assist farmers using Jaccard relative extractor (JRE) and Naïve Bayes algorithm. The JRE is used to find the similarity between two sentences and words in the agricultural documents and the relationship between two terms is identified via the Naïve Bayes algorithm. In the proposed method, the preprocessing of data is carried out through natural language processing techniques and the tags whose dimensions are reduced are subjected to rule-based formal concept analysis and mapping. The subdomain ontologies of weather, pest, and soil are built separately, and the overall agricultural ontology are built around them. The gold standard for the lexical layer is used to evaluate the proposed technique, and its performance is analyzed by comparing it with different state-of-the-art systems. Precision, recall, F-measure, Matthews correlation coefficient, receiver operating characteristic curve area, and precision-recall curve area are the performance metrics used to analyze the performance. The proposed methodology gives a precision score of 94.40% when compared with the decision tree(83.94%) and K-nearest neighbor algorithm(86.89%) for agricultural ontology construction.

아까시나무(Robinia pseudo-acacia)종자 단백질의 전기 영동 변이

  • 김창호;이호준;김용옥
    • The Korean Journal of Ecology
    • /
    • 제16권4호
    • /
    • pp.515-526
    • /
    • 1993
  • 한반도 남부 지역에 분포하는 아까시나무(Robinia pseudo-acacia L.)종자의 생태학적 형질변이를 추적하기 위하여, 북위34$^{\circ}$18'~38$^{\circ}$36'사이에 위치한 15개 지역(대진, 속초, 강릉, 수락산, 홍천, 광릉, 남한산성, 충주, 예산, 안동, 전주, 달성, 창원, 목포, 완도)을 선정하여 채종한 종자를 재료로, 단백질 패턴 및 정량 분석을 실시하였다. SDS-PAGE에 의한 단백질 패턴 분석결과, 전 지역데 걸쳐 총 35개의 밴드가 분리되었으며 최고 분자량은 142,232 daltons, 최저 분자량은 17,258 daltons였다. 분리된 단백질 밴드 수를 지역별로 비교한 결과, 대진, 속초가 32개로 가장 많은 반면, 홍천과 달성은 23개로 가장 적었으며, 대체로 고위도로 갈수록 증가하는 경향을 나타냈다. 각 단백질 밴드의 유무에 따라 지역에 따른 단백질 패턴의 차이를 비교해 본 결과, 중북부 동해안형(대진, 속초, 강릉)과 중부형(수락산, 홍천, 광릉, 남한산성, 충주) 및 남부형(에산, 안동, 전주, 달성, 창원, 목포, 완도)등 3가지 지역 유형이 구분되었다. 단백질 패턴의 지역간 유사도 지수(Jaccard 계수)를 근거로 UPGMAdp 의한 cluster analysis 결과, 중북부 등해안형(속초, 강릉), 중북부 I형(수락산, 홍천), 중북부 II형(남한산성, 충주, 대진), 중북부III형(광릉), 중남부형(예산, 달성, 전주) 및 남부형(안동, 창원, 목포, 완도)등 6개 유형이 식별되었다. 분리된 단백질 밴드 가운데, 모든 지역세어 No.12밴드(78,162daltons)가 가장 높은 염색 강도를 나타냈고, No.11.12.13.과No.23~28 밴드 역시 비교적 높은 염색강도를 보였다. 전체적으로 총 단백질 함량이 높은 창원, 목포, 완도 등 남부형 지역에서 특히 높은 염색 강도를 나타냈다. 총 단백질 함량은 각 지역별로 최저9.68mg/g(수락산)에서 최고17.30mg/g(전주)에 이르는 다양한 수치를 나타냈으며, 대체로 저위도로 갈수록 증가하는 경향을 보였다.

  • PDF

인공지능 기반 평가 도구를 이용한 한의사의 체질 진단 평가 및 활용 방안에 대한 연구 (Research on the Evaluation and Utilization of Constitutional Diagnosis by Korean Doctors using AI-based Evaluation Tool)

  • 박무순;황민우;이정윤;김창업;권영규
    • 동의생리병리학회지
    • /
    • 제36권2호
    • /
    • pp.73-78
    • /
    • 2022
  • Since Traditional Korean medicine (TKM) doctors use various knowledge systems during treatment, diagnosis results may differ for each TKM doctor. However, it is difficult to explain all the reasons for the diagnosis because TKM doctors use both explicit and implicit knowledge. In this study, an upgraded random forest (RF)-based evaluation tool was proposed to extract clinical knowledge of TKM doctors. Also, it was confirmed to what extent the professor's clinical knowledge was delivered to the trainees by using the evaluation tool. The data used to construct the evaluation tool were targeted at 106 people who visited the Sasang Constitutional Department at Kyung Hee University Korean Medicine Hospital at Gangdong. For explicit knowledge extraction, four TKM doctors were asked to express the importance of symptoms as scores. In addition, for implicit knowledge extraction, importance score was confirmed in the RF model that learned the patient's symptoms and the TKM doctor's constitutional determination results. In order to confirm the delivery of clinical knowledge, the similarity of symptoms that professors and trainees consider important when discriminating constitution was calculated using the Jaccard coefficient. As a result of the study, our proposed tool was able to successfully evaluate the clinical knowledge of TKM doctors. Also, it was confirmed that the professor's clinical knowledge was delivered to the trainee. Our tool can be used in various fields such as providing feedback on treatment, education of training TKM doctors, and development of AI in TKM.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

사용자 선호도 변화에 따른 추천시스템의 다양성 적용 (Application of diversity of recommender system accordingtouserpreferencechange)

  • 나혜연;남기환
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.67-86
    • /
    • 2020
  • 추천시스템은 시간이 흐를수록 사용자와 기업에게 점점 더 큰 영향을 주고 있다. 최근 코로나(COVID-19) 팬데믹 현상이 전 세계적으로 일어나면서 세대를 뛰어넘어 E-Commerce의 중요성이 증대되었고 추천시스템은 E-Commerce 활성화의 최중심에 있다. 추천시스템이 개발된 이래로 다수의 알고리즘이 추천시스템의 정확도를 올리는 것에 집중되어 있었고, 추천시스템의 희귀성, 다양성, 우연성 등과 같은 다른 가치들이 간과되고 있다. 본 논문에서는 사용자의 만족도는 추천시스템의 정확도에만 달려있지 않고 다양한 성능을 겸비했을 때 고객에게 만족스러운 추천서비스 경험을 제공할 것이라 생각하여 다양성을 위한 그래프 기반의 추천시스템을 개발하였다. 사용자 네트워크를 구성한 뒤 카테고리를 활용한 무게중심변화를 통해 유사도가 낮은 이질적인 사용자를 찾아 추천상품의 유사성을 낮추는 방식으로 다양성을 도모하였다. 또한, 추천의 다양성은 사용자의 다양성 선호 수준에 따라 상이할 것이라는 가정에 따라 사용자의 다양성 선호 수준을 구별하였고 다양성 모델 성능이 사용자 특성별로 다름을 확인할 수 있었다. 전체 연구 결과, 추천시스템의 정확성과 다양성이 트레이드 오프 관계에 놓여있다는 것을 확인할 수 있었지만 본 연구모델을 통해 근소한 정확도 손실 대비 높은 다양성을 얻을 수 있었다. 본 연구는 그래프 기반의 추천시스템을 통해 사용자의 만족도를 향상시키는 다양성을 실현하였다는 연구적 의의와 사용자 수준을 고려한 추천의 다양성을 적용 결과를 통해 기업의 장기적 이윤을 상승시킬 수 있는 모델 개발이라는 실무적 의의를 꼽을 수 있다.