• 제목/요약/키워드: Over-clustering

검색결과 385건 처리시간 0.03초

Deconstructing Opinion Survey: A Case Study

  • Alanazi, Entesar
    • International Journal of Computer Science & Network Security
    • /
    • 제21권4호
    • /
    • pp.52-58
    • /
    • 2021
  • Questionnaires and surveys are increasingly being used to collect information from participants of empirical software engineering studies. Usually, such data is analyzed using statistical methods to show an overall picture of participants' agreement or disagreement. In general, the whole survey population is considered as one group with some methods to extract varieties. Sometimes, there are different opinions in the same group, but they are not well discovered. In some cases of the analysis, the population may be divided into subgroups according to some data. The opinions of different segments of the population may be the same. Even though the existing approach can capture the general trends, there is a risk that the opinions of different sub-groups are lost. The problem becomes more complex in longitudinal studies where minority opinions might fade over time. Longitudinal survey data may include several interesting patterns that can be extracted using a clustering process. It can discover new information and give attention to different opinions. We suggest using a data mining approach to finding the diversity among the different groups in longitudinal studies. Our study shows that diversity can be revealed and tracked over time using the clustering approach, and the minorities have an opportunity to be heard.

Extended Kepler Grid-based System for Diabetes Study Workspace

  • Hazemi, Fawaz Al;Youn, Chan-Hyun
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.230-233
    • /
    • 2011
  • Chronic disease is linked to patient's' lifestyle. Therefore, doctor has to monitor his/her patient over time. This may involve reviewing many reports, finding any changes, and modifying several treatments. One solution to optimize the burden is using a visualizing tool over time such as a timeline-based visualization tool where all reports and medicine are integrated in a problem centric and time-based style to enable the doctor to predict and adjust the treatment plan. This solution was proposed by Bui et. al. [2] to observe the medical history of a patient. However, there was limitation of studying the diabetes patient's history to find out what was the cause of the current development in patient's condition; moreover what would be the prediction of current implication in one of the diabetes' related factors (such as fat, cholesterol, or potassium). In this paper, we propose a Grid-based Interactive Diabetes System (GIDS) to support bioinformatics analysis application for diabetes diseases. GIDS used an agglomerative clustering algorithm as clustering correlation algorithm as primary algorithm to focus medical researcher in the findings to predict the implication of the undertaken diabetes patient. The algorithm was Chronological Clustering proposed by P. Legendre [11] [12].

Deconstructing Agile Survey to Identify Agile Skeptics

  • Entesar Alanazi;Mohammad Mahdi Hassan
    • International Journal of Computer Science & Network Security
    • /
    • 제24권3호
    • /
    • pp.201-210
    • /
    • 2024
  • In empirical software engineering research, there is an increased use of questionnaires and surveys to collect information from practitioners. Typically, such data is then analyzed based on overall, descriptive statistics. Overall, they consider the whole survey population as a single group with some sampling techniques to extract varieties. In some cases, the population is also partitioned into sub-groups based on some background information. However, this does not reveal opinion diversity properly as similar opinions can exist in different segments of the population, whereas people within the same group might have different opinions. Even though existing approach can capture the general trends there is a risk that the opinions of different sub-groups are lost. The problem becomes more complex in case of longitudinal studies where minority opinions might fade or resolute over time. Survey based longitudinal data may have some potential patterns which can be extracted through a clustering process. It may reveal new information and attract attention to alternative perspectives. We suggest using a data mining approach to finding the diversity among the different groups in longitudinal studies (agile skeptics). In our study, we show that diversity can be revealed and tracked over time with the use of clustering approach, and the minorities have an opportunity to be heard.

Detection of Differentially Expressed Genes by Clustering Genes Using Class-Wise Averaged Data in Microarray Data

  • Kim, Seung-Gu
    • Communications for Statistical Applications and Methods
    • /
    • 제14권3호
    • /
    • pp.687-698
    • /
    • 2007
  • A normal mixture model with which dependence between classes is incorporated is proposed in order to detect differentially expressed genes. Gene clustering approaches suffer from the high dimensional column of microarray expression data matrix which leads to the over-fit problem. Various methods are proposed to solve the problem. In this paper, use of simple averaging data within each class is proposed to overcome the various problems due to high dimensionality when the normal mixture model is fitted. Some experiments through simulated data set and real data set show its availability in actuality.

다차원 색인을 이용한 하향식 계층 클러스터링 (Top-down Hierarchical Clustering using Multidimensional Indexes)

  • 황재준;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.367-380
    • /
    • 2002
  • 최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

시계열데이터의 모델기반 클러스터 결정 (Determining on Model-based Clusters of Time Series Data)

  • 전진호;이계성
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.22-30
    • /
    • 2007
  • 대부분의 실세계의 시스템들, 즉 경제, 주식시장, 의료분야 등의 많은 시스템들은 동적이며 복잡한 현상을 갖는다. 이러한 특징들의 시스템을 이해하는 전형적인 방법은 시스템행위에 대한 모델을 세우고 분석하는 것이다. 본 연구에서는 실세계의 동적 시스템에서 발생되는 시계열데이터들에 대하여 최적의 클러스터를 형성하기 위한 방법을 연구한다. 먼저 클러스터 수를 결정하는 기준으로 베이지안정보기준(BIC : Bayesian Information Criterion)근사법의 활용도를 검증하고 데이터 크기와 베이지안정보기준값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안하며 클러스터링 과정으로 모델기반과 유사기반의 방법론을 비교 확인하여 본다. 실제의 시계열데이터(주가)에 대해 실험을 시행하였고 베이지안정보기준 근사 측도는 데이터의 크기에 따라 파티션의 사이즈를 정확히 추정하는 것을 확인하였으며 또한 유사기반의 방식보다 모델기반의 방법론이 클러스터링에서 더 나은 결과를 갖는 것을 확인하였다.

무선 센서 네트워크를 위한 에너지 효율적인 이중 레이어 분산 클러스터링 기법 (A Dual-layer Energy Efficient Distributed Clustering Algorithm for Wireless Sensor Networks)

  • 여명호;김유미;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권1호
    • /
    • pp.84-95
    • /
    • 2008
  • 최근 무선 센서 네트워크는 다양한 응용분야의 플랫폼으로써 사용되고 있다. 무선 센서를 배치하고, 센서 네트워크를 구성함으로써 원격으로 어떤 영역에 포함된 객체들의 동작, 상태, 위치 등에 관한 정보를 얻을 수 있다. 일반적으로 센서 노드들은 제한된 배터리로 동작하기 때문에 센서 네트워크의 생명주기를 연장시키기 위한 에너지 효율적인 데이타 수집 메커니즘은 필수 조건이다. 본 논문에서는 클러스터 헤드의 에너지 소모를 분산할 수 있는 새로운 클러스터링 기법을 제안한다. 먼저 클러스터 헤드의 역할에 따른 에너지 소모를 분석하고, 클러스터를 수집과 전송을 위한 두 계층으로 분리한다. 다음 각 계층을 담당하는 센서 노드를 선출하여 단일 클러스터 헤드의 에너지 소모를 2개의 센서 노드로 분산한다. 제안하는 클러스터링 기법의 우수성을 보이기 위해 시뮬레이션을 통해 기존의 클러스터링 기법과 성능을 비교했다. 그 결과, 기존의 알고리즘에 비해 생명 주기(lifetime)가 $10%{\sim}40%$ 향상되는 것을 확인할 수 있었다.

불균형 이분 데이터 분류분석을 위한 데이터마이닝 절차 (A Data Mining Procedure for Unbalanced Binary Classification)

  • 정한나;이정화;전치혁
    • 대한산업공학회지
    • /
    • 제36권1호
    • /
    • pp.13-21
    • /
    • 2010
  • The prediction of contract cancellation of customers is essential in insurance companies but it is a difficult problem because the customer database is large and the target or cancelled customers are a small proportion of the database. This paper proposes a new data mining approach to the binary classification by handling a large-scale unbalanced data. Over-sampling, clustering, regularized logistic regression and boosting are also incorporated in the proposed approach. The proposed approach was applied to a real data set in the area of insurance and the results were compared with some other classification techniques.

수중음향 센서 네트워크에서 효율적인 저전력 군집화 기법 (An Energy-Efficient Clustering Scheme in Underwater Acoustic Sensor Networks)

  • 이재훈;서보민;조호신
    • 한국음향학회지
    • /
    • 제33권5호
    • /
    • pp.341-350
    • /
    • 2014
  • 본 논문에서는 수중음향 센서 네트워크에서 자기 조직화 기법을 활용하는 에너지 효율적 클러스터링 기법을 제안한다. 제안 기법은 클러스터 헤드 선출에 각 노드의 배터리 잔여량 정보와 이웃 노드의 수를 고려하며, 클러스터 헤드의 배터리 잔여량이 특정 수준 이하로 떨어졌을 경우에만 클러스터 재구성을 수행함으로써 노드의 에너지 소모를 줄이고 네트워크 전체에 에너지 소모를 분산시켜 네트워크의 수명을 연장시킬 수 있다. 또한, 클러스터 헤드는 클러스터 멤버 노드로부터 수집한 데이터를 다중 홉 중계 방식으로 싱크 노드에 전송하여 에너지 소모를 줄인다. 컴퓨터 모의실험을 통해, 일정 시간 경과 후 전체 노드의 배터리 잔여량의 합, 생존 노드의 수, 네트워크 구성 단계에서의 에너지 소모량, 전체 노드의 에너지 소모 편차 등을 구하고 대표적 클러스터링 기법 중의 하나인 LEACH 기법과 비교 및 분석한다. 모의실험 결과, 제안 기법이 LEACH 기법에 비해 네트워크 운용 시간을 두 배 향상시킬 수 있으며, 전체 노드의 에너지 소모 편차 또한 감소시킴을 알 수 있다.

Active Learning과 군집화를 이용한 고정키어구 추출 (Keyphrase Extraction Using Active Learning and Clustering)

  • 이현우;차정원
    • 대한음성학회지:말소리
    • /
    • 제66호
    • /
    • pp.87-103
    • /
    • 2008
  • We describe a new active learning method in conditional random fields (CRFs) framework for keyphrase extraction. To save elaboration in annotation, we use diversity and representative measure. We select high diversity training candidates by sentence confidence value. We also select high representative candidates by clustering the part-of-speech patterns of contexts. In the experiments using dialog corpus, our method achieves 86.80% and saves 88% training corpus compared with those of supervised method. From the results of experiment, we can see that the proposed method shows improved performance over the previous methods. Additionally, the proposed method can be applied to other applications easily since its implementation is independent on applications.

  • PDF