• 제목/요약/키워드: Unsupervised clustering

검색결과 224건 처리시간 0.024초

Automated Training from Landsat Image for Classification of SPOT-5 and QuickBird Images

  • Kim, Yong-Min;Kim, Yong-Il;Park, Wan-Yong;Eo, Yang-Dam
    • 대한원격탐사학회지
    • /
    • 제26권3호
    • /
    • pp.317-324
    • /
    • 2010
  • In recent years, many automatic classification approaches have been employed. An automatic classification method can be effective, time-saving and can produce objective results due to the exclusion of operator intervention. This paper proposes a classification method based on automated training for high resolution multispectral images using ancillary data. Generally, it is problematic to automatically classify high resolution images using ancillary data, because of the scale difference between the high resolution image and the ancillary data. In order to overcome this problem, the proposed method utilizes the classification results of a Landsat image as a medium for automatic classification. For the classification of a Landsat image, a maximum likelihood classification is applied to the image, and the attributes of ancillary data are entered as the training data. In the case of a high resolution image, a K-means clustering algorithm, an unsupervised classification, was conducted and the result was compared to the classification results of the Landsat image. Subsequently, the training data of the high resolution image was automatically extracted using regular rules based on a RELATIONAL matrix that shows the relation between the two results. Finally, a high resolution image was classified and updated using the extracted training data. The proposed method was applied to QuickBird and SPOT-5 images of non-accessible areas. The result showed good performance in accuracy assessments. Therefore, we expect that the method can be effectively used to automatically construct thematic maps for non-accessible areas and update areas that do not have any attributes in geographic information system.

문장 독립 화자 검증을 위한 그룹기반 화자 임베딩 (Group-based speaker embeddings for text-independent speaker verification)

  • 정영문;엄영식;이영현;김회린
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.496-502
    • /
    • 2021
  • 딥러닝 기반의 심층 화자 임베딩 방식은 최근 문장 독립 화자 검증 연구에 널리 사용되고 있으며, 기존의 i-vector 방식에 비해 더 좋은 성능을 보이고 있다. 본 연구에서는 심층 화자 임베딩 방식을 발전시키기 위하여, 화자의 그룹 정보를 도입한 그룹기반 화자 임베딩을 제안한다. 훈련 데이터 내에 존재하는 전체 화자들을 정해진 개수의 그룹으로 비지도 클러스터링 하며, 고정된 길이의 그룹 임베딩 벡터가 각각의 그룹을 대표한다. 그룹 결정 네트워크가 각 그룹에 대응되는 그룹 가중치를 출력하며, 이를 이용한 그룹 임베딩 벡터들의 가중 합을 통해 집합 그룹 임베딩을 추출한다. 최종적으로 집합 그룹 임베딩을 심층 화자 임베딩에 더해주어 그룹기반 화자 임베딩을 생성한다. 이러한 방식을 통해 그룹 정보를 심층 화자 임베딩에 도입함으로써, 화자 임베딩이 나타낼 수 있는 전체 화자의 검색 공간을 줄일 수 있고, 이를 통해 화자 임베딩은 많은 수의 화자를 유연하게 표현할 수 있다. VoxCeleb1 데이터베이스를 이용하여 본 연구에서 제안하는 방식이 기존의 방식을 개선시킨다는 것을 확인하였다.

Pattern analysis of lower limb magnetic resonance images in Korean patients with distal myopathy

  • Park, Hyung Jun;Shin, Ha Young;Kim, Seung Min;Park, Kee Duk;Choi, Young-Chul
    • Annals of Clinical Neurophysiology
    • /
    • 제21권2호
    • /
    • pp.79-86
    • /
    • 2019
  • Background: Magnetic resonance (MR) images are useful for diagnosing myopathy. The purpose of this study was to determine the usefulness of lower-limb MR images in Korean patients with distal myopathy. Methods: We reviewed medical records in the myopathy database from January 2002 to October 2016. We selected 21 patients from 91 unrelated families with distal myopathy: four with GNE myopathy, 11 with dysferlinopathy, and six with ADSSL1 myopathy. Results: Ten (48%) of the 21 patients were men. The ages of the participants at symptom onset and imaging were $19.2{\pm}9.5$ and $30.4{\pm}9.0$ years (mean${\pm}$standard deviation), respectively. Their grade on the modified Gardner-Medwin and Walton grade was $3.3{\pm}1.7$. The strength grade of the knee extensors was not correlated with the Mercuri scale for the quadriceps (r = -0.247, p = 0.115). However, the Medical Research Council grades of the knee flexors, ankle dorsiflexors, and ankle plantar flexors were significantly correlated with the Mercuri scale ratings of the knee flexors (r = -0.497, p = 0.001), tibialis anterior (r = -0.727, p < 0.001), and ankle plantar flexors (r = -0.620, p < 0.001), respectively. T1-weighted MR images showed characteristic fatty replacement patterns that were consistent with the causative genes. Unsupervised hierarchical clustering of the Mercuri scale showed that the main factors contributing to the dichotomy were the causative gene and the clinical severity. Conclusions: This study is the first to reveal the usefulness of lower-limb MR images in the differential diagnosis of distal myopathy in Korea.

Expression profiling of cultured podocytes exposed to nephrotic plasma reveals intrinsic molecular signatures of nephrotic syndrome

  • Panigrahi, Stuti;Pardeshi, Varsha Chhotusing;Chandrasekaran, Karthikeyan;Neelakandan, Karthik;PS, Hari;Vasudevan, Anil
    • Clinical and Experimental Pediatrics
    • /
    • 제64권7호
    • /
    • pp.355-363
    • /
    • 2021
  • Background: Nephrotic syndrome (NS) is a common renal disorder in children attributed to podocyte injury. However, children with the same diagnosis have markedly variable treatment responses, clinical courses, and outcomes, suggesting molecular heterogeneity. Purpose: This study aimed to explore the molecular responses of podocytes to nephrotic plasma to identify specific genes and signaling pathways differentiating various clinical NS groups as well as biological processes that drive injury in normal podocytes. Methods: Transcriptome profiles from immortalized human podocyte cell line exposed to the plasma of 8 subjects (steroid-sensitive nephrotic syndrome [SSNS], n=4; steroid-resistant nephrotic syndrome [SRNS], n=2; and healthy adult individuals [control], n=2) were generated using microarray analysis. Results: Unsupervised hierarchical clustering of global gene expression data was broadly correlated with the clinical classification of NS. Differential gene expression (DGE) analysis of diseased groups (SSNS or SRNS) versus healthy controls identified 105 genes (58 up-regulated, 47 down-regulated) in SSNS and 139 genes (78 up-regulated, 61 down-regulated) in SRNS with 55 common to SSNS and SRNS, while the rest were unique (50 in SSNS, 84 genes in SRNS). Pathway analysis of the significant (P≤0.05, -1≤ log2 FC ≥1) differentially expressed genes identified the transforming growth factor-β and Janus kinase-signal transducer and activator of transcription pathways to be involved in both SSNS and SRNS. DGE analysis of SSNS versus SRNS identified 2,350 genes with values of P≤0.05, and a heatmap of corresponding expression values of these genes in each subject showed clear differences in SSNS and SRNS. Conclusion: Our study observations indicate that, although podocyte injury follows similar pathways in different clinical subgroups, the pathways are modulated differently as evidenced by the heatmap. Such transcriptome profiling with a larger cohort can stratify patients into intrinsic subtypes and provide insight into the molecular mechanisms of podocyte injury.

메탄 가스 기반 가스 누출 위험 예측을 위한 다변량 특이치 제거 (Multivariate Outlier Removing for the Risk Prediction of Gas Leakage based Methane Gas)

  • 홍고르출;김미혜
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.23-30
    • /
    • 2020
  • 본 연구에서는, 천연가스(NG) 데이터와 가스 관련 환경 요소 간의 관계를 기계학습 알고리즘을 사용하여 가스 누출 데이터를 직접 측정하지 않고 가스 누출 위험 수준을 예측하였다. 이번 연구는 서버가 제공하는 오픈 데이터인 IoT 기반 원격 제어 피카로(Picarro) 가스 센서 사양을 기반으로 사용했다. 천연 가스는 공기 중으로 누출이 되며, 대기 오염, 환경, 그리고 건강에 큰 문제가 된다. 본 연구에서 제안하는 방법은 천연 가스의 누출 위험 예측을 위한 랜덤 포레스트(Random Forest) 분류 기반 다변량 특이치 제거 방법이다. 비지도 k-평균 클러스터링 후에 실험 데이터 집합은 불균형 데이터이다. 따라서 우리는 제안된 모델이 중간과 높은 위험 수준을 가장 잘 예측할 수 있다는 점에 초점을 맞춘다. 이 경우 각 분류 모델에 대한 수신자 조작 특성(ROC) 곡선, 정확도, 평균 표준 오차(MSE)를 비교했다. 실험 결과로 정확도, 수신자 조작 특성의 곡선 아래 영역(AUC, Area Under the ROC Curve), MSE가 각각 MOL_RF의 경우 99.71%, 99.57%, 및 0.0016의 결과 값을 얻었다.

Arabic Stock News Sentiments Using the Bidirectional Encoder Representations from Transformers Model

  • Eman Alasmari;Mohamed Hamdy;Khaled H. Alyoubi;Fahd Saleh Alotaibi
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.113-123
    • /
    • 2024
  • Stock market news sentiment analysis (SA) aims to identify the attitudes of the news of the stock on the official platforms toward companies' stocks. It supports making the right decision in investing or analysts' evaluation. However, the research on Arabic SA is limited compared to that on English SA due to the complexity and limited corpora of the Arabic language. This paper develops a model of sentiment classification to predict the polarity of Arabic stock news in microblogs. Also, it aims to extract the reasons which lead to polarity categorization as the main economic causes or aspects based on semantic unity. Therefore, this paper presents an Arabic SA approach based on the logistic regression model and the Bidirectional Encoder Representations from Transformers (BERT) model. The proposed model is used to classify articles as positive, negative, or neutral. It was trained on the basis of data collected from an official Saudi stock market article platform that was later preprocessed and labeled. Moreover, the economic reasons for the articles based on semantic unit, divided into seven economic aspects to highlight the polarity of the articles, were investigated. The supervised BERT model obtained 88% article classification accuracy based on SA, and the unsupervised mean Word2Vec encoder obtained 80% economic-aspect clustering accuracy. Predicting polarity classification on the Arabic stock market news and their economic reasons would provide valuable benefits to the stock SA field.

정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구 (Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process)

  • 정영미;이용구
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.125-145
    • /
    • 2005
  • 이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 $92\%$의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 $67\%$ 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 $39.6\%$의 정확률을 보였고, EM 알고리즘 통합 검색이 약 $36\%$의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 $37\%$와 비교하면 나이브 베이즈 통합 검색은 약 $7.4\%$의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 $3\%$의 성능 저하율을 보였다.

올리고 마이크로어래이를 이용한 활성화된 인간 제대 정맥 내피세포의 유전자 발현 조사 (DNA Microarray Analysis of the Gene Expression Profile of Activated Human Umbilical Vein En-dothelial Cells.)

  • 김선용;오호균;이수영;남석우;이정용;안현영;신종철;홍용길;조영애
    • 생명과학회지
    • /
    • 제14권5호
    • /
    • pp.874-881
    • /
    • 2004
  • 혈관 신생은 암의 성장 및 전이뿐만 아니라 염증, 관절염, 건성, 동맥경화 등의 병적인 진행에 주요한 역할을 하며, 혈관신생 억제를 통한 암의 치료를 시도하는 연구들이 활발하게 진행되고 있다. 혈관 신생 시 내피세포의 증식, 이동을 유도하는 활성화 과정이 필수적으로 일어나는 것으로 알려져 있다 본 연구에서는 in vitro에서 내피세포를 배양하여, 각종 growth factor가 풍부한 배지에서 활성화 시켰을 때, 그렇지 않는 세포들과의 유전자 발현 형태를 비교 조사하였다. HUVEC을 70∼80% cofluency로 배양시킨 후에 endothelial cell growth supplement (ECCS), 20% fetal bovine serum, heparin이 첨가된 Ml99 배지에서 13 시간 활성화시킨 세포(AHUVEC)와 대조군 세포(RHUVEC)로부터 분리한 total RNA로부터 CDNA를 제작하였고, 이것을 18,864 개의 유전자가 올려져있는 인간 올리고 칩과 hybridization 반응을 시켰다. 반응된 유전자를 이용하여 random clustering분석을 실시한 결과, 활성화 시켰던 HUVEC과 그렇지 않은 HUVEC으로 dendrogram 상에서 두개의 subgroup으로 나뉘어 지는 것을 확인할 수 있었다. 최소 2배 이상 발현 변화가 있는 유전자 122종이 활성화 시켰던 HUVEC으로부터 추출되었다. 이중에서 기능이 알려진 32 개의 유전자는 활성화시킨 HUVEC에서 발현이 증가하였고, 38 개의 유전자 발현은 감소하였다. 흥미롭게도 세포 증식과 이동, 염증, 면역반응에 관련한 유전자의 발현이 증가된 반면에 세포 흡착과 혈관 조직과 기능에 관련한 유전자의 발현이 감소된 것이 관찰되었다. 예상외로 규명이 잘된 혈관신생 인자와 관련한 유전자들의 발현에는 크기 차이를 보이지 않았으나, Eph-B4의 발현은 약 4 배 감소된 것으로 관찰되었다 또한, 2배 이상 발현에 차이를 보이고 기능이 알려져 있지 않은 유전자 52종이 발견되었다. 따라서, 이러한 연구 결과로부터 새로운 혈관 표적 물질 개발에 대한 기회가 제공될 수 있을 것이라 사료된다.

현장 및 원격 초분광 정보 계측을 통한 하천 수변공간 재료 구분 (Field and remote acquisition of hyperspectral information for classification of riverside area materials)

  • 신재현;성호제;이동섭
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1265-1274
    • /
    • 2021
  • 본 연구에서는 남한강에서 드론에 탑재된 초분광 센서를 활용하여 수변공간을 측정한 후, 초분광 분석을 통하여 재료를 구분하였다. 식생, 콘크리트, 흙 등의 재료를 대상으로 구분하였으며, 각각 재료의 고유한 분광반사 곡선의 특성을 비교 및 분석하였다. 드론으로 측정한 초분광 자료를 검증하기 위하여 지상분광측정기를 사용하여 현장조사를 실시하고 각 재료를 비교하였다. 분석 비교 결과 각 재료별로 고유한 유형의 파장대가 발생하는 것을 확인하였고 드론으로 수행한 원격 탐사 결과가 지상분광측정 결과와 유사하다는 결론을 내릴 수 있었다. 수변 공간의 분류를 위하여 K-means 군집화 기법과 SVM 분류 기법을 활용하여 측정 구역의 공간 분류를 수행할 수 있었다. 비교 결과, 지도학습인 SVM 분류 기법의 수변공간 분류가 비지도학습인 K-means 기법과 비교하여 상세한 구분이 수행되었음을 확인할 수 있었다. 이와 같이 분류 및 군집 분석 기법을 활용하여 각 수변공간 재료의 고유 분광 특성을 활용하여 측정되는 드론탑재 초분광 이미지의 각 데이터를 분류할 수 있게 되었다.

K-평균 군집분석을 활용한 중학생의 군집화 및 특성 분석 (Analysis of Characteristics of Clusters of Middle School Students Using K-Means Cluster Analysis)

  • 이재봉
    • 한국과학교육학회지
    • /
    • 제42권6호
    • /
    • pp.611-619
    • /
    • 2022
  • 최근 교육에서 교육 데이터마이닝에 관한 관심이 높아지고 있는 시점에 과학교육에서 평가 결과를 활용하여 학생들에게 적합한 피드백을 제공하기 위해 빅데이터 분석의 적용 가능성을 탐색해 보고자 하였다. 연구에서는 국가수준 학업성취도 평가의 24문항에 응시한 2,576명의 평가 자료를 활용하여 비지도 기계학습의 한 가지 방법인 K-평균 군집분석을 이용하여 학생들을 군집화하였다. 학업성취도 평가 자료를 활용한 군집화 결과, 학생들을 6개의 군집으로 나누어 볼수 있었다. 상위권이나 하위권에 비해 중위권 학생들이 다양하게 다른 군집으로 구분됨을 알 수 있다. 군집분석의 결과를 보면, 군집화에서 가장 중요하게 영향을 주는 요인은 학업 성취였으며, 군집별로는 교육과정의 내용 영역별, 교과 역량별, 정의적 특성 면에서 서로 다른 특성을 보이고 있었다. 하위 군집에서는 정의적 영역 중에서 학습의욕이 중요하게 영향을 주고, 교과 역량 면에서는 과학적 탐구 및 문제 해결력과 과학적 의사소통 능력이 중요하게 영향을 주고 있었다. 내용 영역 면에서는 운동과 에너지와 물질 영역에 대한 성취가 군집의 특성을 구분하는 중요한 요인으로 작용하고 있었다. 따라서 평가 자료를 활용해 학생을 군집화한 후, 이러한 군집별 특성을 바탕으로 학생들에게 학습을 위한 맞춤형 피드백을 제공할 수 있을 것으로 판단된다. 본 연구에서는 이러한 연구 결과를 바탕으로 군집분석 연구 결과 활용의 가능성, 내용 영역별 균형 있는 학습, 교과 역량 증진, 과학적 태도의 향상 등 과학교육의 시사점을 제안하였다.