• 제목/요약/키워드: cluster sets

검색결과 223건 처리시간 0.03초

SNP마커 개발을 통한 사료용 옥수수 품종판별 (Distinguishing the Korean Silage Corn Varieties through Development of PCR-Based SNP Marker)

  • 김상곤;이진석;배환희;김정태;손범영;백성범
    • 한국초지조사료학회지
    • /
    • 제37권2호
    • /
    • pp.168-175
    • /
    • 2017
  • 옥수수 품종판별 마커 개발을 위하여 SNAP 방법을 변형하여 2bp 불일치 SNP PCR 방법을 옥수수 품종판별에 적용하였다. SNP 마커개발을 위하여 MaizeGDB 웹사이트(www.maizegdb.org)를 통해서 200 SNP 위치를 확인하였으며, 표준맵으로 알려진 B73 옥수수 게놈서열을 바탕으로 2bp 불일치 Primer을 디자인하였다. PCR 생성물은 200-500bp 사이에서 결정되었으며 SNP site가 있을시 PCR 생성물이 생성되지 않게 디자인 되었다. 선행연구에서 선발된 16개의 Primer조합을 이용해서 농촌진흥청에서 개발된 사료용 옥수수 10품종(강다옥, 광평옥, 다평옥, 안다옥, 양안옥, 신광옥, 장다옥, 청다옥, 평광옥, 평안옥)과 수입 사료용 옥수수 40품종과의 판별 가능성을 검정하였다. SNP PCR 결과를 바탕으로 한 Cluster분석에서 신광옥과 PI1395 그리고 몇몇 수입 사료용 옥수수를 제외하고는 모두 판별 가능한 것으로 검정되었다. SNP 통한 품종판별 최소조합수를 선발한 결과 강다옥은 IBM911과 IBM1798, 장다옥은 IBM440과 IBM549, 평강옥은 IBM440과 IBM1269, 평안옥은 IBM795와 IBM1601였다. 이는 SNP 마커 개발을 통해 빠르고, 손쉽게 품종판별이 가능한 마커로 활용가능하다는 것을 보여준다.

1,2-, 1,3-dioxetanes, 그리고 1,3-cyclodisiloxane의 분자구조, 에너지와 진동주파수에 대한 순 이론 양자 역학적 연구 (Ab Initio Quantum Mechanical Studies of 1,2-, 1,3-Dioxetanes and 1,3-Cyclodisiloxane; Energetics, Molecular Structures, Vibrational Frequencies)

  • 최근식;김승준
    • 대한화학회지
    • /
    • 제47권4호
    • /
    • pp.325-333
    • /
    • 2003
  • 1,2-와 1,3-dioxetane$(C_2O_2H_4)$, 그리고 1,3-cyclodisiloxane$(Si_2O_2H_4)$에 대하여 높은 이론 수준에서 분자구조, 진동주파수, 그리고 에너지 등을 계산하였다. 위의 모든 분자들에 대하여 TZ2P CCSD(T)의 이론 수준까지 분자구조를 최적화 하였으며. 진동주파수는 여러 basis set에서 SCF 방법으로 계산하였다. 본 연구에서 최적화된 분자구조들에 대한 진동주파수가 모두 실수(real number)로 예측됨으로서, 제안된 모든 분자구조가 local minimum 구조임을 확인하였다. 1,2- 및 1,3-dioxetane들과 cyclodisiloxane이 두 분자의 aldehyde와 silanone으로 해리 될 때의 중합에너지를 zero-point vibrational energy(ZPVE)를 고려하여 계산하고, 안정성을 비교하였다.

범주형 데이터의 분류를 위한 퍼지 군집화 기법 (A Fuzzy Clustering Algorithm for Clustering Categorical Data)

  • 김대원;이광형
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.661-666
    • /
    • 2003
  • 본 논문에서는 범주형 데이터의 분류를 위한 새로운 기법을 제시한다. 기존의 대표적인 퍼지 군집화 방법인 k-modes 알고리즘과 fuzzy k-modes 알고리즘은 군집의 중심을 단일 값으로 표현하고, 군집에 속하는 데이터의 빈도 수에 기반한 중신 갱신 기법을 사용하였다. 이와 같은 기존의 방법들은 분류의 경계가 모호한 데이트를 군집화할 경우, 알고리즘의 각 단계에서 발생하는 분류의 에러를 보정하지 못해 최종적으로 지역해에 빠지는 단점이 있다. 이를 극복하기 위해 본 논문에서는 군집 중심을 퍼지 집합을 이용하여 정의한다. 퍼지 군집 중심은 주어진 데이터와 군집간의 거리 관계를 퍼지 값을 이용해 표현하며, 각 군집의 중심은 데이터의 소속 정도 값을 이용해 갱신된다. 이와 같은 퍼지 중심 표현기법을 도입하여 범주형 데이터의 분류 시에 보다 세밀한 결정을 내림으로써, 인접한 군집들의 경계에서 발생하는 불확실성을 최소화한다. 기존의 대표적인 방법들과의 비교실험을 수행함으로써 제안한 방법의 성능을 검증하였다.

영상 분류를 위한 분류기 통합모델 (Classifier Integration Model for Image Classification)

  • 박동철
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.96-102
    • /
    • 2012
  • 영상 분류를 위한 다단계 특성벡터 기반의 분류기 모델(Partitioned Feature-based Classification Model with Expertise Table: PFC-ET)의 성능을 더욱 향상시킨 진보된 형태의 분류기 통합모델 (Classifier Integration Model: CIM)이 본 논문에서 제안되었다. CIM은 PFC-ET과 같이 주어진 데이터에서 추출된 전체의 특징벡터를 연결하여 이용하지 않고, 같은 성질의 특징 벡터들끼리 모아서, 각각의 국지적 학습기를 통하여 분류에 이용한다. PFC-ET에서 분류판단 확률행렬에 의한 오류를 최소화하기위해 국지적 분류기로 사용되는 군집화 알고리즘의 멤버 비율을 사용하여 최종적인 분류의 정확도를 높이는 방안을 제안한다. 제안된 CIM의 성능을 검증하기 위하여, Caltech 데이터에 대한 일반적인 영상 분류와 6 클래스 위성 영상 분류 문제에 대한 실험을 진행하였다. 제안된 CIM은 기존의 PFC 와 PFC-ET 모델과 비교한 실험에서 분류 정확도와 후처리 문제의 복잡성 면에서 향상된 성능을 보여주었다.

과시소비성향집단별 패션관여가 자기만족도에 미치는 영향 (The Effects of Fashion Involvement on Self-Satisfaction by Conspicuous Consumption Tendency Groups)

  • 박현주;박숙현
    • 한국의류학회지
    • /
    • 제36권11호
    • /
    • pp.1162-1173
    • /
    • 2012
  • This study classifies conspicuous consumption groups and the difference of fashion involvement and selfsatisfaction by each group. It also examined the effect of fashion involvement on self-satisfaction by each group. A questionnaire method was used for the study method and the subjects of the study were females in their 20s-50s. A total of 580 sets of questionnaires were distributed and 554 sets were used for the final analysis. Data were analyzed by factor analysis, t-test, ANOVA, factor analysis, cluster analysis, Cronbach's alpha coefficients, and multiple regression analysis. The results of this study were as follows: First, this study classified 4 groups of active conspicuous consumption, the group of passive conspicuous consumption, the group of syntonic conspicuous consumption and the group pursuing individuality & frugal consumption. Second, as a result of the examination of the impact of fashion involvement for each group with a propensity for conspicuous consumption on their self-satisfaction, it was found that the sex appeal of fashion involvement had no significant impact on the economic satisfaction in the group of active conspicuous consumption, and had no significant impact on all elements of self-satisfaction in the group of passive conspicuous consumption. It was also found that social symbolism had a negative impact on satisfaction with looks in the group of syntonic conspicuous consumption, and the physical complementation and directions of looks had a negative impact on satisfaction with living, the social symbolism on satisfaction with looks and the syntone on satisfaction with looks in the group of pursuing individuality & frugal consumption.

한강수질 평가를 위한 COD (화학적 산소 요구량) 모델 평가 (Chemical Oxygen Demand (COD) Model for the Assessment of Water Quality in the Han River, Korea)

  • Kim, Jae Hyoun;Jo, Jinnam
    • 한국환경보건학회지
    • /
    • 제42권4호
    • /
    • pp.280-292
    • /
    • 2016
  • Objectives: The objective of this study was to build COD regression models for the Han River and evaluate water quality. Methods: Water quality data sets for the dry season (as of January) during a four-year period (2012-2015) were collected from the database of the Han River automatic water quality monitoring stations. Statistical techniques, including combined genetic algorithm-multiple linear regression (GA-MLR) were used to build five-descriptor COD models. Multivariate statistical techniques such as principal component analysis (PCA) and cluster analysis (CA) are useful tools for extracting meaningful information. Results: The $r^2$ of the best COD models provided significant high values (> 0.8) between 2012 and 2015. Total organic carbon (TOC) was a surrogate indicator for COD (as COD/TOC) with high reliability ($r^2=0.63$ in 2012, $r^2=0.75$ for 2013, $r^2=0.79$ for 2014 and $r^2=0.85$ for 2015). The ratios of COD/TOC were calculated as 2.08 in 2012, 1.79 in 2013, 1.52 and 1.45 in 2015, indicating that biodegradability in the water body of the Han River was being sustained, thereby further improving water quality. The BOD/COD ratio supported these findings. The cluster analysis revealed higher annual levels of microorganisms and phosphorous at stations along the Hangang-Seoul and Hantangang areas. Nevertheless, the overall water quality over the last four years showed an observable trend toward continuous improvement. These findings also suggest that non-point pollution control strategies should consider the influence of upstreams and downstreams to protect water quality in the Han River. Conclusion: This data analysis procedure provided an efficient and comprehensive tool to interpret complex water quality data matrices. Results from a trend analysis provided much important information about sources and parameters for Han River water quality management.

부분적 주변 비율에 의한 확률적 흥미도 측도 기반 유사성 측도의 상한 및 하한의 설정 (Bounds of PIM-based similarity measures with partially marginal proportion)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권4호
    • /
    • pp.857-864
    • /
    • 2015
  • 데이터 마이닝은 다양한 형태의 방대한 데이터 집합으로부터 보이지 않는 지식이나 새로운 법칙을 발견한 후, 이를 바탕으로 의사결정 등을 위한 정보로 활용하고자 하는 것이다. 데이터 마이닝 기법중의 하나인 군집 분석은 거리 또는 유사성 측도를 이용하여 집단을 분류하고, 구분된 각 집단의 특성을 파악하기 위한 기법이다. 본 논문에서는 주변 확률이 일부 포함된 확률적 흥미도 측도 기반의 유사성 측도들인 Peirce I, Peirce II, Cole I, Cole II, 그리고 이들을 응용한 Park I 및 Park II에 대한 대소 관계를 수식의 증명뿐만 아니라 예제 데이터에 의해서도 규명하였다. 그 결과, Cole I과 Cole II의 측도를 동시에 고려한 Loevinger 측도가 기존의 측도들 중에서는 상한이 되나 Park I 및 Park II를 함께 고려했을 경우에는 동시발생비율, 동시 비발생비율, 그리고 두 가지 형태의 불일치비율의 크기에 따라 변한다는 사실을 확인하였다.

능동적 학습을 위한 군집화 기반의 다양한 복수 문의 예제 선정 방법 (Cluster-Based Selection of Diverse Query Examples for Active Learning)

  • 강재호;류광렬;권혁철
    • 지능정보연구
    • /
    • 제11권1호
    • /
    • pp.169-189
    • /
    • 2005
  • 능동적 학습은 훈련 예제의 수가 제한적일 때 효율적으로 분류기를 생성할 수 있는 학습 방법이다. 이 방법에서는 분류하기 모호한 예제에 카테고리를 부여하기 위한 문의 과정과 이렇게 얻어진 예제들을 추가해 가면서 분류기를 재생성 하는 과정을 반복적으로 수행한다. 특히 온라인 환경에서는 반복적으로 예제에 카테고리를 부여해야 하는 사용자의 부담을 줄이기 위해 문의 예제의 총 수뿐만이 아니라 문의 횟수 또한 최소화하여야 한다. 예제 수와 문의 횟수를 줄이면서도 좋은 분류기를 생성하기 위해서는 매 문의 시 사용자에게 다양하면서도 대표성이 높은 복수의 모호한 예제들을 선정하여 제시하는 것이 좋다. 본 논문에서는 다양하면서, 대표적이며, 또한 모호성이 높아 능동적 학습에 효과적인 복수의 문의 예제를 선별하기 위하여 군집화 기법을 활용하는 방안을 제안한다. 문서 분류 문제를 대상으로 본 제안 방안을 실험한 결과 모호성만을 기준으로 복수의 문의 예제를 선정하는 방법보다 우수한 분류기를 생성할 수 있음을 확인하였다.

  • PDF

문장 클러스터링에 기반한 자동요약 모형 (A Text Summarization Model Based on Sentence Clustering)

  • 정영미;최상희
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.159-178
    • /
    • 2001
  • 본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

  • PDF

Temporal 데이터의 최적의 클러스터 수 결정에 관한 연구 (A Study for Determining the Best Number of Clusters on Temporal Data)

  • 조영희;이계성;전진호
    • 한국콘텐츠학회논문지
    • /
    • 제6권1호
    • /
    • pp.23-30
    • /
    • 2006
  • Temporal 데이터의 클러스터링 방법론 중의 하나로 모델기반 방법론이 있다. 이는 각 클러스터에 대하여 오토마타기반의 모델을 가정하는 것이다. 개별 모델을 추출하기 위해서는 먼저 전체 데이터에 대한 적합한 모델을 찾는 것이 필요하다. 전체에 대한 모델은 데이터집합에 대한 최적의 클러스터의 수를 결정함으로 개별 모델 구축의 준비를 완료한다. 본 연구에서는 클러스터 수를 결정하기 위한 기준인 베이지안 정보기준(BIC : Bayesian Information Criterion) 근사법의 활용도를 검증하고 데이터 크기와 BIC 값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안한다. 실험에서는 인위적 모델을 통하여 생성된 인공적인 여러 형태의 데이터집합을 활용하여 BIC근사 측도의 활용성에 대해 살펴보았다. 실험결과에서 보여주는 것처럼 BIC 근사 측도는 데이터의 크기가 비교적 클 경우에 올바른 파티션의 사이즈를 추정함을 확인하였다.

  • PDF