• 제목/요약/키워드: software clustering

검색결과 318건 처리시간 0.024초

공유자전거 시스템의 이용 예측을 위한 K-Means 기반의 군집 알고리즘 (A K-Means-Based Clustering Algorithm for Traffic Prediction in a Bike-Sharing System)

  • 김경옥;이창환
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권5호
    • /
    • pp.169-178
    • /
    • 2021
  • 최근 들어 공유자전거 시스템은 대중교통 이용이 어렵거나 불가능한 마지막 목적지까지의 거리인 "라스트 마일"을 해소하는 방안으로 주목받고 있다. 공유자전거 시스템에서는 자전거의 대여와 반납의 불균형으로 인해서 사용자가 원하는 시간에 원하는 대여소에서 자전거를 빌리거나 반납할 수 있는 문제가 자주 발생한다. 이에 자전거 재배치는 공유자전거 시스템을 효율적으로 운영하는데 매우 중요한 이슈이다. 자전거 재배치를 효율적이고 효과적으로 진행하기 위해서는 무엇보다 정확한 수요 예측이 이뤄져야 한다. 최근에는 대여소의 수요를 보다 정확하게 예측하기 위해 군집 기반의 수요 예측 모델을 활용하는 방법이 개발되고 있는데, 여기서는 군집 분석 단계가 매우 중요하다. 이 연구에서는 비결정적이고 수렴이 어려운 기존의 공유자전거 수요 예측을 위한 군집 방법의 단점을 극복하는 k-means 기반의 군집 알고리즘을 제안한다. 이 방법은 초기 중심점 방법을 활용하기 때문에 매번 동일한 결과를 얻을 수 있으며, 대여소의 시간별 반납/대여 비중을 이용하여 기존 방법과는 달리 이전 단계의 군집 결과를 필요로 하지 않아 반복해서 군집 분석을 수행할 필요가 없어 빠른 군집 분석이 가능한 장점이 있다.

Defect Severity-based Defect Prediction Model using CL

  • Lee, Na-Young;Kwon, Ki-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권9호
    • /
    • pp.81-86
    • /
    • 2018
  • Software defect severity is very important in projects with limited historical data or new projects. But general software defect prediction is very difficult to collect the label information of the training set and cross-project defect prediction must have a lot of data. In this paper, an unclassified data set with defect severity is clustered according to the distribution ratio. And defect severity-based prediction model is proposed by way of labeling. Proposed model is applied CLAMI in JM1, PC4 with the least ambiguity of defect severity-based NASA dataset. And it is evaluated the value of ACC compared to original data. In this study experiment result, proposed model is improved JM1 0.15 (15%), PC4 0.12(12%) than existing defect severity-based prediction models.

부모-자식 행렬을 사용한 XML 문서 유사도 측정과 군집 기법 (Similarity Measure and Clustering Technique for XML Documents by a Parent-Child Matrix)

  • 이윤구;김우생
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1599-1607
    • /
    • 2015
  • 최근 들어, 인터넷에서 자주 사용되는 XML 문서들에 대한 접근, 질의와 관리를 위한 효율적인 기법들이 연구 되어 왔다. 이 논문에서, 우리는 XML 문서를 효율적으로 군집화하기 위해 부모-자식 행렬 기법을 제안한다. 부모-자식 행렬은 XML 문서의 내용과 구조의 특징들을 분석한다. 부모-자식 행렬의 각 셀은 XML 트리 노드의 값이거나, 트리에서 부모-자식 관계가 존재할 때의 자식 노드의 값이 된다. 따라서 두 XML 문서의 유사도는 대응하는 부모-자식 행렬들의 유사도로 측정된다. 실험을 통해 우리가 제안하는 기법이 좋은 결과를 냄을 보였다.

A Sentiment Classification Approach of Sentences Clustering in Webcast Barrages

  • Li, Jun;Huang, Guimin;Zhou, Ya
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.718-732
    • /
    • 2020
  • Conducting sentiment analysis and opinion mining are challenging tasks in natural language processing. Many of the sentiment analysis and opinion mining applications focus on product reviews, social media reviews, forums and microblogs whose reviews are topic-similar and opinion-rich. In this paper, we try to analyze the sentiments of sentences from online webcast reviews that scroll across the screen, which we call live barrages. Contrary to social media comments or product reviews, the topics in live barrages are more fragmented, and there are plenty of invalid comments that we must remove in the preprocessing phase. To extract evaluative sentiment sentences, we proposed a novel approach that clusters the barrages from the same commenter to solve the problem of scattering the information for each barrage. The method developed in this paper contains two subtasks: in the data preprocessing phase, we cluster the sentences from the same commenter and remove unavailable sentences; and we use a semi-supervised machine learning approach, the naïve Bayes algorithm, to analyze the sentiment of the barrage. According to our experimental results, this method shows that it performs well in analyzing the sentiment of online webcast barrages.

소프트웨어의 유지보수를 위한 PSDG기반 의미분할모형의 설계 (A design of the PSDG based semantic slicing model for software maintenance)

  • 여호영;이기오;류성열
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.2041-2049
    • /
    • 1998
  • 소프트웨어의 품질을 향상시키며, 기존코드의 결함식별을 용이하게 하는 방법으로 프로그램의 후상태 종속성 분석을 통한 프로그램 ?살 및 유지보수지원 기법을 제안한다. 결함을 식별하고 분석하기에 이해도가 중요시 되는 교정유지보수를 위해서, 기존 코드의 분석 및 세그먼트화를 후상태 종속성모형(PSDG)을 이용하여 정적분할과 동적분할 및 의미분할의 장점을 살린 코드분할로 수행한다. 분할의 원리는 기존코드의 상태 종속성을 추적하여 그래프로 모형화한 후, 조각화(Clustering)와 강조분할(Highlighting)을 통해서 프로그램을 분할한다. PSDG 모형화의 결과로 비효율적인 프로그램 결함코드(Deadcode)의 식별 및 제거가 가능하며, 관련 프로그램 문장들을 일반화할 수 있고, 상태전이도 모형과의 확장연계로 분석 및 설계의 문서로 이용될 수 있다.

  • PDF

Clustering-Based Federated Learning for Enhancing Data Privacy in Internet of Vehicles

  • Zilong Jin;Jin Wang;Lejun Zhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1462-1477
    • /
    • 2024
  • With the evolving complexity of connected vehicle features, the volume and diversity of data generated during driving continue to escalate. Enabling data sharing among interconnected vehicles holds promise for improving users' driving experiences and alleviating traffic congestion. Yet, the unintentional disclosure of users' private information through data sharing poses a risk, potentially compromising the interests of vehicle users and, in certain cases, endangering driving safety. Federated learning (FL) is a newly emerged distributed machine learning paradigm, which is expected to play a prominent role for privacy-preserving learning in autonomous vehicles. While FL holds significant potential to enhance the architecture of the Internet of Vehicles (IoV), the dynamic mobility of vehicles poses a considerable challenge to integrating FL with vehicular networks. In this paper, a novel clustered FL framework is proposed which is efficient for reducing communication and protecting data privacy. By assessing the similarity among feature vectors, vehicles are categorized into distinct clusters. An optimal vehicle is elected as the cluster head, which enhances the efficiency of personalized data processing and model training while reducing communication overhead. Simultaneously, the Local Differential Privacy (LDP) mechanism is incorporated during local training to safeguard vehicle privacy. The simulation results obtained from the 20newsgroups dataset and the MNIST dataset validate the effectiveness of the proposed scheme, indicating that the proposed scheme can ensure data privacy effectively while reducing communication overhead.

Integrating Ant Colony Clustering Method to a Multi-Robot System Using Mobile Agents

  • Kambayashi, Yasushi;Ugajin, Masataka;Sato, Osamu;Tsujimura, Yasuhiro;Yamachi, Hidemi;Takimoto, Munehiro;Yamamoto, Hisashi
    • Industrial Engineering and Management Systems
    • /
    • 제8권3호
    • /
    • pp.181-193
    • /
    • 2009
  • This paper presents a framework for controlling mobile multiple robots connected by communication networks. This framework provides novel methods to control coordinated systems using mobile agents. The combination of the mobile agent and mobile multiple robots opens a new horizon of efficient use of mobile robot resources. Instead of physical movement of multiple robots, mobile software agents can migrate from one robot to another so that they can minimize energy consumption in aggregation. The imaginary application is making "carts," such as found in large airports, intelligent. Travelers pick up carts at designated points but leave them arbitrary places. It is a considerable task to re-collect them. It is, therefore, desirable that intelligent carts (intelligent robots) draw themselves together automatically. Simple implementation may be making each cart has a designated assembly point, and when they are free, automatically return to those points. It is easy to implement, but some carts have to travel very long way back to their own assembly point, even though it is located close to some other assembly points. It consumes too much unnecessary energy so that the carts have to have expensive batteries. In order to ameliorate the situation, we employ mobile software agents to locate robots scattered in a field, e.g. an airport, and make them autonomously determine their moving behaviors by using a clustering algorithm based on the Ant Colony Optimization (ACO). ACO is the swarm intelligence-based methods, and a multi-agent system that exploit artificial stigmergy for the solution of combinatorial optimization problems. Preliminary experiments have provided a favorable result. In this paper, we focus on the implementation of the controlling mechanism of the multi-robots using the mobile agents.

대표적인 클러스터링 알고리즘을 사용한 비감독형 결함 예측 모델 (Unsupervised Learning Model for Fault Prediction Using Representative Clustering Algorithms)

  • 홍의석;박미경
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.57-64
    • /
    • 2014
  • 입력 모듈의 결함경향성을 결정하는 결함 예측 모델 연구들은 대부분 훈련 데이터 집합을 사용하는 감독형 모델에 관련된 것들이었다. 하지만 과거 데이터 집합이 없거나 데이터 집합이 있더라도 현재 프로젝트와 성격이 다른 경우는 비감독형 모델이 필요하며, 이들에 관한 연구들은 모델 구축의 어려움 때문에 극소수 존재한다. 본 논문에서는 기존 비감독형 모델 연구들에서 사용하지 않은 대표적인 클러스터링 알고리즘인 EM, DBSCAN을 사용한 비감독형 모델들을 제작하여, 기존 연구들에서 사용한 K-means 모델과 성능을 비교하였다. 그 결과 오류율 면에서 EM이 K-means보다 약간 나은 성능을 보였으며, DBSCAN은 두 모델에 떨어지는 성능을 보였다.

행동 시계열 데이터와 k-평균 군집화를 통한 젖소의 일일 행동패턴 검출 (Daily Behavior Pattern Extraction using Time-Series Behavioral Data of Dairy Cows and k-Means Clustering)

  • 이성훈;박기철;박재화
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권1호
    • /
    • pp.83-92
    • /
    • 2021
  • 지난 동안 낙농업계에서는 다양한 센서 기술과 ICT 응용이 도입되어왔으며 축적된 낙농 데이터를 토대로 과학적인 낙농생산관리가 가능해졌다. 그러나 이러한 시도들은 젖소의 출산이나 우유 생산량과 같은 낙농 생산성에 직접적으로 관여하는 요인들에 대해서만 집중적으로 이루어졌으며 이러한 결과에 근본적으로 관여하는 생리학적 혹은 동물심리학적 요인에 대해서는 연구가 더딘 실정이다. 이 논문에서는 이러한 연구의 일환으로서 젖소의 시간별 행동 데이터로부터 일일 행동패턴을 검출하는 기초적인 방안을 제시하였다. k-평균 군집화를 통해 한 젖소의 1594일간 행동을 네 개의 군집으로 구분하였으며 각 군집에 속한 데이터와 군집의 대푯값을 시각화하여 군집 형성의 합리성을 확인하였다. 또한 개체의 일별 군집 변화를 토대로 군집 개수의 적정성을 판단하였다. 이 연구 결과가 향후 젖소의 이상상태나 질병징후의 포착 연구에 기여하기를 기대한다.

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF