• Title/Summary/Keyword: Software Clustering

검색결과 321건 처리시간 0.02초

SDS 환경의 유사도 기반 클러스터링 및 다중 계층 블룸필터를 활용한 분산 중복제거 기법 (Distributed data deduplication technique using similarity based clustering and multi-layer bloom filter)

  • 윤다빈;김덕환
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권5호
    • /
    • pp.60-70
    • /
    • 2018
  • 클라우드 환경에서 다수의 사용자가 물리적 서버를 가상화하여 사용할 수 있도록 편의성을 제공하는 Software Defined Storage(SDS)를 적용하고 있지만 한정된 물리적 자원을 고려하여 공간 효율성을 최적화하는 솔루션이 필요하다. 기존의 데이터 중복제거 시스템에서는 서로 다른 스토리지에 업로드 된 중복 데이터가 중복제거되기 어렵다는 단점이 있다. 본 논문에서는 유사도기반 클러스터링과 다중 계층 블룸 필터를 적용한 분산 중복제거 기법을 제안한다. 라빈 해시를 이용하여 가상 머신 서버들 간의 유사도를 판단하고 유사도가 높은 가상머신들을 클러스터 함으로써 개별 스토리지 노드별 중복제거 효율에 비하여 성능을 향상시킨다. 또한 중복제거 프로세스에 다중 계층 블룸 필터를 접목하여 처리 시간을 단축하고 긍정오류를 감소시킬 수 있다. 실험결과 제안한 방법은 IP주소 기반 클러스터를 이용한 중복제거 기법에 비해 처리 시간의 차이가 없으면서, 중복제거율이 9% 높아짐을 확인하였다.

클라우드네이티브 애플리케이션 구축을 위한 마이크로서비스 식별 방법 (Identification of Microservices to Develop Cloud-Native Applications)

  • 최옥주;김유경
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권1호
    • /
    • pp.51-58
    • /
    • 2021
  • 최근 주목받고 있는 마이크로서비스는 독립적으로 개발될 뿐만 아니라 독립적으로 실행 및 배포가 가능하다는 장점 때문에, 클라우드 컴퓨팅 환경에서 보다 유연한 확장과 효율적인 협력을 보장할 수 있다. 이러한 영향으로 최근 마이크로서비스지향 애플리케이션 환경으로의 전환이 급격히 증가하고 있다. 마이크로서비스의 도입을 위해서는 무엇보다 모노리식 아키텍처로 구축된 단일 애플리케이션의 구성요소를 마이크로서비스 단위로 식별하는 문제가 선결되어야 한다. 본 논문에서는 레거시 시스템으로부터 마이크로서비스 식별의 문제를 알고리즘 기반으로 해결하기 이한 접근방법을 제안한다. 코드의 메타정보를 이용하여 그래프를 생성하고 클러스터링 알고리즘을 적용하여 마이크로서비스 후보를 추출한다. 추출된 마이크로서비스 후보에 대해 메트릭을 이용하여, 모듈화 품질을 평가한다. 또한 제안된 식별 방법의 효과를 검증하기 위해 벤치마크를 위해 많이 사용되는 공개 소프트웨어의 코드를 이용하여 후보 서비스를 도출하고, 메트릭을 이용하여 모듈화 수준을 평가한다. 결과적으로 좀더 작은 단위의 마이크로서비스로 식별해 내면서 모듈품질을 향상시키는 결과를 확인할 수 있다.

Opcode와 API의 군집화와 유사도 분석을 활용한 랜섬웨어 탐지모델 연구 (A Study on the Ransomware Detection Model Using the Clustering and Similarity Analysis of Opcode and API)

  • 이계혁;황민채;구영인;현동엽;유동영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.179-182
    • /
    • 2022
  • 최근 코로나 19 팬더믹 이후 원격근무의 확대와 더불어 랜섬웨어 팬더믹이 심화하고 있다. 현재 안티바이러스 백신 업체들이 랜섬웨어에 대응하고자 노력하고 있지만, 기존의 파일 시그니처 기반 정적분석은 패킹의 다양화, 난독화, 변종 혹은 신종 랜섬웨어의 등장 앞에 무력화될 수 있고, 실제로 랜섬웨어의 피해 규모 지속 증가가 이를 설명한다. 본 논문에서는 기계학습을 기반으로 한 단일 분석만을 이용하여 탐지모델에 적용하는 것이 아닌 정적 분석 정보(.text Section Opcode)와 동적 분석 정보(Native API)를 추출하고 유사도를 바탕으로 연관성을 찾아 결합하여 기계학습에 적용하는 탐지모델을 제안한다.

그래프 컷을 이용한 학습된 자기 조직화 맵의 자동 군집화 (Automatic Clustering on Trained Self-organizing Feature Maps via Graph Cuts)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.572-587
    • /
    • 2008
  • SOFM(Self-organizing Feature Map)은 고차원의 데이타를 군집화(clustering)하거나 시각화(visualization)하기 위해 많이 사용되고 있는 비교사 학습 신경망(unsupervised neural network)의 한 종류이며, 컴퓨터비전이나 패턴인식 분야에서 다양하게 활용되고 있다. 최근 SOFM이 실제 응용분야에 다양하게 활용되고 좋은 결과를 보이고 있지만, 학습된 SOFM의 뉴론(neuron)을 다시 군집화해야 하는 후처리가 필요하며, 대부분의 경우 수동으로 이루어지고 있다. 후처리를 자동으로 하기 위해 k-means와 같은 기존의 군집화 알고리즘을 많이 이용하지만, 이 방법은 특히 다양한 모양의 클래스를 가진 고차원의 데이타에서 만족스럽지 못한 결과를 보인다. 다양한 모양의 클래스에서 좋은 성능을 보이기 위해, 본 논문에서는 그래프 컷(graph cut)을 이용하여 학습된 SOFM을 자동으로 군집화하는 방법을 제안한다. 그래프 컷을 이용할 때 터미널(terminal)이라는 두 개의 추가적인 정점(vertex)이 필요하며, 터미널과 각 정점 사이의 가중치는 대부분 사용자에 의해 입력받은 사전정보를 기반으로 설정된다. 제안된 방법은 SOFM의 거리 매트릭스(distance matrix)를 기반으로 한 모드 탐색(mode-seeking)과 모드의 군집화를 통하여 자동으로 사전정보를 설정하며, 학습된 SOFM의 군집화를 자동으로 수행한다. 실험에서 효율성을 검증하기 위해 제안된 방법을 텍스처 분할(texture segmentation)에 적용하였다. 실험 결과에서 제안된 방법은 기존의 군집화 알고리즘을 이용한 방법보다 높은 정확도를 보였으며, 이는 그래프기반의 군집화를 통해 다양한 모양의 클러스터를 처리할 수 있기 때문이다.

휴리스틱 진화에 기반한 효율적 클러스터링 알고리즘 (An Efficient Clustering Algorithm based on Heuristic Evolution)

  • 류정우;강명구;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.80-90
    • /
    • 2002
  • 클러스터링이란 한 군집에 포함된 데이터들 간의 유사한 성질을 갖도록 데이터들을 묶는 것으로 패턴인식, 영상처리 등의 공학 분야에 널리 적용되고 있을 뿐만 아니라, 최근 많은 관심의 대상이 되고 있는 데이터 마이닝의 주요 기술로서 활발히 응용되고 있다. 클러스터링에 있어서 K-means나 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최적해에 수렴하는 것과 사전에 클러스터 개수를 미리 결정해야 하는 문제점을 개선하였으며, 클러스터링의 특성을 분산도와 분리도로 정의하였다. 분산도는 임의의 클러스터의 중심으로부터 포함된 데이터들이 어느 정도 흩어져 있는지를 나타내는 척도인 반면, 분리도는 임의의 데이터와 모든 클러스터 중심간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터 중심간의 거리를 나타내는 척도이다. 이 두 척도를 이용하여 자동으로 적절한 클러스터 개수를 결정하게 하였다. 또한 진화알고리즘의 문제점인 탐색공간의 확대에 따른 수행시간의 증가는 휴리스틱 연산을 적용함으로써 크게 개선하였다. 제안한 알고리즘의 성능 및 타당성을 보이기 위해 이차원과 다차원 실험데이타를 사용하여 실험한 결과 제안한 알고리즘의 성능이 우수함을 나타내었다.

픽셀간의 칼라공간에서의 거리와 이웃관계를 고려하는 클러스터링을 통한 칼라영상 분할 (Color Image Segmentation based on Clustering using Color Space Distance and Neighborhood Relation Among Pixels)

  • 이화정;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권10호
    • /
    • pp.1038-1045
    • /
    • 2000
  • 본 논문에서는 칼라공간상의 거리와 이웃정보를 이용한 클러스터링을 통한 칼라영상 분할 방법을 제안한다. 칼라영상의 한 픽셀은 칼라정보(R.G.B)와 위치정보(x.y)를 가진다. 대개의 칼라공간에서의 클러스터링방법은 픽셀을 (R,G,B)공간으로 변환후 (R,G,B)공간상의 분포만을 이용하지만 여기서는(R,G,B)와 (x.y)모두를 사용하여 클러스터링함으로 영상의 세그먼트들을 찾는다. 클러스터링 방법으로서 인력을 모방하는 중력 클러스터링(gravitational clustering)을 사용하였다. 이 방법은 클러스터의 중심값과 클러스터 수를 미리 정해주지 않아도 자동적으로 결정할 수 있는 장점이 있다. 중력 클러스터링에서 찾은 클러스터 수를 가지고 다른 클러스터링 방법(K-means)에 입력으로 주어 결과를 비교해 본다. 본 논문에서는 이웃관계를 따라 클러스터링하는 것이 정확한 경계선을 찾는데 효과적임을 보여준다.

  • PDF

Incidence of Online Public Opinion on Guangzhou Simultaneous Renting and Purchasing Policy - A data mining application

  • Wang, Yancheng;Li, Haixian
    • Asian Journal for Public Opinion Research
    • /
    • 제5권4호
    • /
    • pp.266-284
    • /
    • 2018
  • This paper adopts the big data research method, and draws 491 data from the Tianya Forum about the Simultaneous Renting and Purchasing policy of Guangzhou. The qualitative analysis software Nvivo11 is used to cluster the main questions about the Simultaneous Renting and Purchasing policy in the forum. The 36 high-frequency word frequencies are obtained through text clustering. Through rooted theory analysis, the main driving factors for summarizing people's doubts are 9 main categories, 3 core categories, and the model of driving factors for online forums is established. The study finds that resource factors are the most key factor, economic factors are the important drivers, and policy guiding factors are sub-important drivers.

Bayesian Learning through Weight of Listener's Prefered Music Site for Music Recommender System

  • Cho, Young Sung;Moon, Song Chul
    • Journal of Information Technology Applications and Management
    • /
    • 제23권1호
    • /
    • pp.33-43
    • /
    • 2016
  • Along with the spread of digital music and recent growth in the digital music industry, the demands for music recommender are increasing. These days, listeners have increasingly preferred to digital real-time streamlining and downloading to listen to music because it is convenient and affordable for the listeners to do that. We use Bayesian learning through weight of listener's prefered music site such as Melon, Billboard, Bugs Music, Soribada, and Gini. We reflect most popular current songs across all genres and styles for music recommender system using user profile. It is necessary for us to make the task of preprocessing of clustering the preference with weight of listener's preferred music site with popular music charts. We evaluated the proposed system on the data set of music sites to measure its performance. We reported some of the experimental result, which is better performance than the previous system.

공작기계 열오차 모델의 최적 센서위치 선정 (Selection of Optimal Sensor Locations for Thermal Error Model of Machine tools)

  • 안중용
    • 한국공작기계학회:학술대회논문집
    • /
    • 한국공작기계학회 1999년도 추계학술대회 논문집 - 한국공작기계학회
    • /
    • pp.345-350
    • /
    • 1999
  • The effectiveness of software error compensation for thermally induced machine tool errors relies on the prediction accuracy of the pre-established thermal error models. The selection of optimal sensor locations is the most important in establishing these empirical models. In this paper, a methodology for the selection of optimal sensor locations is proposed to establish a robust linear model which is not subjected to collinearity. Correlation coefficient and time delay are used as thermal parameters for optimal sensor location. Firstly, thermal deformation and temperatures are measured with machine tools being excited by sinusoidal heat input. And then, after correlation coefficient and time delays are calculated from the measured data, the optimal sensor location is selected through hard c-means clustering and sequential selection method. The validity of the proposed methodology is verified through the estimation of thermal expansion along Z-axis by spindle rotation.

  • PDF

바일 기기를 위한 확장 문서 포맷의 맵 서비스 (Extended document format map service for mobile device)

  • 김정숙
    • 디지털산업정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.83-94
    • /
    • 2010
  • Mobile network infrastructure is being completed with the development of hardware and software for mobile devices. Network in mobile devices has evolved for telematics that is expanded much more than its existing concept. Telematics is compound word that is formed from the words "telecommunication" and "informatics". It means that telematics performs control and monitoring service with using mobile device resources. These services provide their services for users' requests through wired or wireless network from mobile devices and server that offers contents and network service collects management information of mobile devices. Map service is one of the preferred services for many telematics users. However, mobile map service has a limit between traffic and information sharing. Therefore it is very important to supply their information for both service provider and terminal user. In this paper, we design a new interactive sketch map using routes and information on the space to be applied effectively, and provide an extended document format that is defined to an extensible and dynamic clustering scheme to have portability map service for mobile device.