• 제목/요약/키워드: 클러스터 간 유사도

검색결과 107건 처리시간 0.259초

U.K. 지구시스템모델 UM의 리눅스 클러스터 설치와 성능 평가 (An Installation and Model Assessment of the UM, U.K. Earth System Model, in a Linux Cluster)

  • 윤대옥;송형규;박성수
    • 한국지구과학회지
    • /
    • 제43권6호
    • /
    • pp.691-711
    • /
    • 2022
  • 지구 대기에 영향을 주는 거의 모든 인간활동과 자연현상을 수치적으로 담아내는 지구시스템모델은 기후 위기의 시대에 활용될 가장 진보한 과학적 도구이다. 특히 우리나라 기상청이 도입한 지구시스템모델인 Unified Model (UM)은 지구 대기 연구의 과학적 도구로써 매우 활용성이 높다. 하지만 UM은 수치 적분과 자료 저장에 방대한 자원이 필요하여 개별 연구자들은 최근까지도 기상청 슈퍼컴퓨터에만 UM을 가동하는 상황이다. 외부와 차단된 기상청 슈퍼컴퓨터만을 이용하여 모델 연구를 수행하는 것은 UM을 이용한 모형 개선과 수치 실험의 원활한 수행에 있어 효율성이 떨어진다. 본 연구는 이러한 한계점을 극복할 수 있도록 개별 연구자가 보유한 고성능 병렬 컴퓨터(리눅스 클러스터) 에서 최신 버전 UM을 원활하게 설치하여 활용할 수 있도록 UM 시스템 환경 구축 과정과 UM 모델 설치 과정을 구체적으로 제시하였다. 또한 UM이 성공적으로 설치된 리눅스 클러스터 상에서 N96L85과 N48L70의 두 가지 모형 해상도에 대하여 UM 가동 성능을 평가하였다. 256코어를 사용하였을 때, 수평으로 1.875° ×1.25° (위도×경도)와 수직으로 약 85 km까지 85층 해상도를 가진 N96L85 해상도에 대한 UM의 AMIP과 CMIP 타입 한 달 적분 실험은 각각 169분과 205분이 소요되었다. 저해상도인 3.75° ×2.5° 와 70층 N48L70 해상도에 대해 AMIP 한달 적분은 252코어를 사용하여 33분이 소요되는 적분 성능을 보였다. 또한 적분을 위해 사용된 코어의 개수에 비례하여 적분 성능이 향상되었다. 성능 평가 외에 29년 간의 장기 적분을 수행하여 과거 지상 2-m 온도와 강수 강도를 ERA5 재분석자료와 비교하였고, 해상도에 따른 차이도 정성적으로 살펴보았다. 재분석자료와 비교할 때, 공간 분포가 유사하였고, 해상도와 대기-해양 접합에 따라 모의 결과에서 차이가 나타났다. 본 연구를 통해 슈퍼컴퓨터가 아닌 개별 연구자의 고성능 리눅스 클러스터 상에서도 UM이 성공적으로 구동됨을 확인하였다.

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.

대기화학-에어로졸 연동에 따른 기후예측시스템(GloSea6)의 동아시아 봄철 예측 성능 향상 가능성 (Possibilities for Improvement in Long-term Predictions of the Operational Climate Prediction System (GloSea6) for Spring by including Atmospheric Chemistry-Aerosol Interactions over East Asia)

  • 송형규;윤대옥;이조한;신범철
    • 한국지구과학회지
    • /
    • 제45권1호
    • /
    • pp.19-36
    • /
    • 2024
  • 1개월과 3개월 장기 예보를 지원하기 위해 기상청에서 현업운용 중인 GloSea6 기후예측시스템에는 대기 중 대기화학-에어로졸 물리과정(UKCA)이 연동되어 있지 않다. 본 연구에서는 저해상도의 GloSea6와 여기에 대기화학-에어로졸 과정을 연동시킨 GloSea6-UKCA를 CentOS 기반 리눅스 클러스터에 설치하여 2000년 봄철에 대한 예비적인 예측결과를 살펴보았다. 현업 고해상도 GloSea6 모델이 방대한 전산자원을 필요로 한다는 점을 고려할 때, 저해상도 GloSea6와 GloSea6-UKCA 모델은 대기화학-에어로졸 과정의 연동에 따른 효과를 살펴보기에 적합하다. 저해상도 GloSea6와 GloSea6-UKCA는 2000년 3월 1일 00Z부터 75일 간 구동되었으며, 두 모델이 예측한 2000년 4월 지상 기온과 일평균 강수량의 공간 분포를 ERA5 재분석자료와 비교하였다. GloSea6-UKCA가 예측한 기온과 강수 분포는 기존 GloSea6에 비해 ERA5 재분석자료에 보다 더 유사해졌다. 특히 우리나라를 포함한 동아시아 지역에 대해 과대 모의 경향이 있던 봄철 지상 기온과 일평균 강수량의 예측 결과의 개선이 주목할 만하다. 또한 적분 시간에 따른 예측된 기온과 강수량의 시계열에서도 GloSea6-UKCA가 GloSea6보다 재분석자료에 더 가까워진 시간 변화 경향을 살펴볼 수 있었다. 이는 대기화학-에어로졸 과정이 GloSea6에 연동되었을 때 동아시아지역 봄철 예측 성능이 개선될 수 있음을 보여준다.

한국 동해 중부해역에 서식하는 볼락속(Sebastes) 어류의 미토콘드리아 유전체 비교분석 (Comparative Analysis of Mitochondrial Genomes of the Genus Sebastes (Scorpaeniformes, Sebastidae) Inhabiting the Middle East Sea, Korea)

  • 장요순;황선완;이은경;김성
    • 한국어류학회지
    • /
    • 제33권4호
    • /
    • pp.226-239
    • /
    • 2021
  • 좀볼락 (Sebastes minor), 세줄볼락 (Sebastes trivittatus), 황볼락 (Sebastes owstoni) 및 노랑볼락 (Sebastes steindachneri)은 한국 동해 중부 이북해역에 서식하는 동해안 특산 어종이다. 이들 동해안 특산 볼락류의 분자진화를 이해하기 위하여 좀볼락과 세줄볼락의 미토콘드리아 유전체 (미토게놈)를 해독하였고, 한반도 주변 해역에 출현하는 16종 볼락의 미토게놈과 비교하였다. 좀볼락 및 세줄볼락의 미토게놈 전체 크기는 각각 16,408 bp 및 16,409 bp이었으며, 37개의 유전자 (13개의 단백질 코딩 유전자, 2개의 리보솜 RNA 유전자 및 22개의 tRNA 유전자)와 1개의 비암호화 영역으로 이루어져 있었다. 동해안 특산 볼락에 속하는 좀볼락, 세줄볼락, 황볼락 및 노랑볼락의 미토게놈을 분석한 결과, 유전체 구조, 뉴클레오티드 구성, 유전자 배열 등에서 매우 유사한 특징을 가지고 있었다. 또한 비암호화 영역인 조절영역에 잘 보존된 "ATGTA" 모티프(motif) 2개가 존재하는 것이 확인되었고, 특정 염기서열의 반복(tandem repeats)은 발견되지 않았다. 이들 동해안 특산 볼락류 4종의 미토게놈 염기서열 간에 차이는 단백질 코딩 유전자 영역보다 조절영역에서 더 큰 것으로 나타났다. 한반도 주변 해역에 출현하는 볼락속 어류의 미토게놈 정보를 이용하여 분자계통학적 유연관계를 분석한 결과, 16종의 볼락을 4개의 클러스터(cluster)로 그룹화할 수 있었고, 이 중에서 동해안 특산 볼락류 4종은 3개의 클러스터에 속해 있었다. 황볼락(S. owstoni)은 흰꼬리볼락(S. longispinis), 우럭볼락(S. hubbsi), 개볼락(S. pachycephalus), 황점볼락(S. oblongus), 황해볼락 (S. koreanus), 조피볼락 (S. schlegelii) 및 탁자볼락(S. taczanowskii)과 동일한 클러스터에 속하고, 세줄볼락 (S. trivittatus)은 누루시볼락 (S. vulpes)과 동일한 유전적 분기군으로 나타났다. 동해안 특산 볼락류 4종 중에서 좀볼락(S. minor)과 노랑볼락(S. steindachneri)은 동일한 클러스터로 분류되어 유연관계가 가장 높은 것으로 나타났다. 본 연구의 결과는 한국 동해 중부해역에 서식하는 볼락류의 진화양상을 이해하거나, Sebastidae 어류의 유전적 진화연구에 유용한 정보로 활용될 수 있을 것으로 판단된다.

온톨로지와 군집분석을 이용한 지하공간 정보모델 개발 (Development of Subsurface Spatial Information Model with Cluster Analysis and Ontology Model)

  • 이상훈
    • 한국지리정보학회지
    • /
    • 제13권4호
    • /
    • pp.170-180
    • /
    • 2010
  • 지하공간 개발의 증가에 따라 지층단면도 등 다양한 형태로 제공되는 지하공간 정보모델의 신뢰성이 요구되고 있다. 그러나 지반은 근본적으로 불확실하며, 이를 표현하는 정보모델도 자료부족, 해석표준 부재 등의 비통계적 요인과 외부환경 변수라는 통계적 요인으로 불확실성을 가진다. 따라서, 현재의 모델 생성은 고도로 훈련된 전문가에 의해 이뤄지고 있다. 본 연구는 지반공학 전문가의 경험과 지식에서 시맨틱을 추출하고, 이를 온톨로지 모델과 정보량으로 정량화하였다. 정량화한 온톨로지 모델은 군집분석의 클러스터간 거리계산에 적용하여 시맨틱을 고려한 군집분석 방법론을 제안하였다. 본 제안 방법을 실험지역에 적용한 결과 기존 K-Means 방법에 비해 전문가의 해석과 유사한 결과를 도출하였으며, 수작업으로는 어려운 대용량 데이터를 손쉽게 처리하고 3차원 GIS로 가시화가 가능하였다. 본 연구를 통해 지반공학 전문가의 도움 없이도, 그 경험을 고려하면서 대량의 지반정보 데이터를 효과적으로 처리하여 신뢰성 있는 지하공간 정보모델을 생성할 수 있을 것이다.

동시발생 행렬과 하둡 분산처리를 이용한 추천시스템에 관한 연구 (A Study On Recommend System Using Co-occurrence Matrix and Hadoop Distribution Processing)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.468-475
    • /
    • 2014
  • 추천시스템은 선호 데이터가 대형화, 컴퓨터 처리능력과 추천 알고리즘 등에 의해 실시간 추천이 어려워지고 있다. 이에 따라 추천시스템은 대형 선호데이터를 분산처리 하는 방법에 대한 연구가 활발히 진행되고 있다. 본 논문은 하둡 분산처리 플랫폼과 머하웃 기계학습 라이브러리를 이용하여, 선호데이터를 분산 처리하는 방법을 연구하였다. 추천 알고리즘은 아이템 협업필터링과 유사한 동시발생 행렬을 이용하였다. 동시발생 행렬은 하둡 클러스터의 여러 노드에서 분산처리를 할 수 있으며, 기본적으로 많은 계산량이 필요하지만, 분산처리과정에서 계산량을 줄일 수 있다. 또한, 본 논문은 동시발생 행렬처리의 분산 처리과정을 4 단계에서 3 단계로 단순화하였다. 결과로서, 맵리듀스 잡을 감소할 수 있으며, 동일한 추천 파일을 생성할 수 있었다. 또한, 하둡 의사 분산모드를 이용하여 데이터를 처리하였을 때 빠른 처리속도를 보였으며, 맵 출력 데이터가 감소되었다.

세부 동작 기반 사물인터넷 서비스 분류 기법 개발 (Development of IoT Service Classification Method based on Service Operation Characteristic)

  • 조정훈;이화민;이대원
    • 인터넷정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.17-26
    • /
    • 2018
  • 최근 사물인터넷 서비스의 등장 및 융합으로 통합 사물인터넷 서비스 플랫폼에 관한 다양한 연구가 진행되었다. 현재 사물인터넷 서비스는 서비스 제공자의 목적에 따라 독립적인 시스템으로 구축되어 유사한 서비스를 제공하는 서비스 간의 정보 교환 및 모듈 재사용이 불가능 하였다. 이에 본 연구에서는 통합 사물인터넷 플랫폼 환경을 제공하기 위하여 다양한 서비스들의 세부 동작 기반 서비스 분류 알고리즘을 제안한다. 구현을 통하여 상용화된 100여개의 사물인터넷 서비스를 분류 및 군집화를 진행하였으며 이를 기반으로 K-means알고리즘과 비교하여 제안하는 알고리즘의 성능을 평가하였다. 또한 표본 집단의 부족으로 발생하는 단일 클러스터를 방지하기 위하여 K-means 알고리즘을 활용하여 재 군집화를 진행하였다. 향후 연구로 기존의 서비스 표본 집단을 확대하고 현재 구현한 분류 시스템을 보다 빠르고 대량의 데이터 처리를 위하여 스파크를 활용할 예정이다.

러프 엔트로피를 이용한 범주형 데이터의 클러스터링 (lustering of Categorical Data using Rough Entropy)

  • 박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.183-188
    • /
    • 2013
  • 객체를 분류하기 위하여 유사한 특징을 기반으로 하는 다양한 클러스터해석은 데이터 마이닝에서 필수적이다. 그러나 많은 데이터베이스에 포함되어 있는 범주형 데이터의 경우에 기존의 분할접근방법은 객체간의 불확실성을 처리하는데 한계가 있다. 범주형 데이터의 분할과정에서 식별불가능에 의한 동치류의 불확실성에 대한 접근논리가 러프집합의 대수학적인 논리에만 국한되어서 알고리즘의 안정성과 효율성이 떨어지는 요인으로 작용하고 있다. 본 논문에서는 범주형 데이터에 존재하는 속성의 의존도를 고려하기 위하여 정보이론적인 척도를 기반으로 러프엔트로피를 정의하고 MMMR이라는 알고리즘을 제안하여 분할속성을 추출한다. 제안된 방법의 성능을 분석하고 비교하기 위하여 K-means, 퍼지에 의한 방법과 표준편차를 이용한 기존의 방법과 비교우위를 ZOO데이터에 국한하여 알아본다. ZOO데이터를 이용하여 기존의 범주형 알고리즘과의 비교우위를 살펴보고 제안된 알고리즘의 효율성을 검증한다.

효과적인 운송 컨테이너 영상의 식별자 인식을 위한 개선된 퍼지 ART 알고리즘 (An Enhanced Fuzzy ART Algorithm for The Effective Identifier Recognition From Shipping Container Image)

  • 김광백
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.486-492
    • /
    • 2003
  • 퍼지 ART 알고리즘에서 경계 변수는 임의의 패턴과 저장된 패턴과의 불일치(mismatch) 허용도를 결정한다. 이 경계 변수가 크면 입력 패턴과 저장 패턴 사이에 약간의 차이가 있어도 새로운 카테고리(category)로 분류하게 된다. 반대로 경계 변수가 작으면 입력 패턴과 저장 패턴 사이에 많은 차이가 있더라도 유사성이 인정되어 입력 패턴을 저장 패턴의 카테고리로 분류한다. 따라서 영상 인식에 적용하기 위해서는 경계 변수를 경험적으로 설정한다. 그리고 연결 가중치를 조정하는 과정에서 저장된 패턴들의 정보들이 손실되는 경우가 발생하여 인식률을 저하시킨다. 본 논문에서는 퍼지 ART 알고리즘의 문제점을 개선하기 위하여 퍼지 논리 접속 연산자를 이용하여 경계 변수를 동적으로 조정하고 저장 패턴과 학습 패턴간의 실제적인 왜곡 정도를 충분히 고려하여 승자 노드로 선택된 빈도수를 가중치 조정에 적용하는 개선된 퍼지 ART 알고리즘을 제안하였다. 제안된 방법의 인식 성능을 확인하기 위해서 운송 컨테이너 영상을 대상으로 실험한 결과, 기존의 ART2 알고리즘이나 퍼지 ART 알고리즘보다 클러스터의 수가 적게 생성되었고 인식 성능도 기존의 방법들보다 우수한 성능이 있음을 확인하였다.