• 제목/요약/키워드: Data Merge

검색결과 189건 처리시간 0.026초

Algal genomics perspective: the pangenome concept beyond traditional molecular phylogeny and taxonomy

  • Lee, JunMo
    • Journal of Species Research
    • /
    • 제10권2호
    • /
    • pp.142-153
    • /
    • 2021
  • Algal genomics approaches provide a massive number of genome/transcriptome sequences and reveal the evolutionary history vis-à-vis primary and serial endosymbiosis events that contributed to the biodiversity of photosynthetic eukaryotes in the eukaryote tree of life. In particular, phylogenomic methods using several hundred or thousands of genes have provided new insights into algal taxonomy and systematics. Using this method, many novel insights into algal species diversity and systematics occurred, leading to taxonomic revisions. In addition, horizontal gene transfers (HGTs) of functional genes have been identified in algal genomes that played essential roles in environmental adaptation and genomic diversification. Finally, algal genomics data can be used to address the pangenome, including core genes shared among all isolates and partially shared strain-specific genes. However, some aspects of the pangenome concept (genome variability of intraspecies level) conflict with population genomics concepts, and the issue is closely related to defining species boundaries using genome variability. This review suggests a desirable future direction to merge algal pangenomics and population genomics beyond traditional molecular phylogeny and taxonomy.

Super Resolution Convolutional Neural Network(SRCNN)를 이용한 다중 해상도 기반의 강수 데이타 병합 (Merging of multiple resolution-based precipitation data using super resolution convolution neural network)

  • 노규호;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.121-121
    • /
    • 2023
  • 다수의 서로 다른 해상도의 자료를 병합(Merge)하는 것은 강수 자료 사용에 중요한 절차 중 하나이다. 강수 자료는 다수의 소스(관측소, 레이더, 위성 등)에서 관측 자료를 제공한다. 연구자들은 각 원본 자료의 장점을 취하고 단점을 보완하기 위해 다중소스 기반의 재분석 강수 자료를 제작하여 사용하고 있다. 기존의 방법은 자료를 병합하기 위해 서로 다른 공간적 특성을 갖는 자료들을 공간적으로 동일한 위치로 보간(Interpolation) 하는 과정이 필요하다. 하지만 보간 절차는 원본자료에 인위적인 변형을 주기 때문에 많은 오차(Error)를 발생시키는 것으로 알려져 있다. 따라서 본 연구는 병합 과정에서 보간 절차를 제외하고 원본 해상도 자료를 그대로 입력하기 위해 머신 러닝 방법의 하나인 Super resolution convolutional neural network(SRCNN)에 기반한 병합 방법을 제안하고자 한다. 이 방법은 원본 자료의 영향을 모델이 직접 취사선택하여 최종 자료에 도달하기 때문에 병합 과정의 오류를 줄일 수 있을 것으로 기대된다.

  • PDF

데이터베이스 정규화 이론을 이용한 국민건강영양조사 중 다년도 식이조사 자료 정제 및 통합 (Data Cleaning and Integration of Multi-year Dietary Survey in the Korea National Health and Nutrition Examination Survey (KNHANES) using Database Normalization Theory)

  • 권남지;서지혜;이헌주
    • 한국환경보건학회지
    • /
    • 제43권4호
    • /
    • pp.298-306
    • /
    • 2017
  • Objectives: Since 1998, the Korea National Health and Nutrition Examination Survey (KNHANES) has been conducted in order to investigate the health and nutritional status of Koreans. The food intake data of individuals in the KNHANES has also been utilized as source dataset for risk assessment of chemicals via food. To improve the reliability of intake estimation and prevent missing data for less-responded foods, the structure of integrated long-standing datasets is significant. However, it is difficult to merge multi-year survey datasets due to ineffective cleaning processes for handling extensive numbers of codes for each food item along with changes in dietary habits over time. Therefore, this study aims at 1) cleaning the process of abnormal data 2) generation of integrated long-standing raw data, and 3) contributing to the production of consistent dietary exposure factors. Methods: Codebooks, the guideline book, and raw intake data from KNHANES V and VI were used for analysis. The violation of the primary key constraint and the $1^{st}-3rd$ normal form in relational database theory were tested for the codebook and the structure of the raw data, respectively. Afterwards, the cleaning process was executed for the raw data by using these integrated codes. Results: Duplication of key records and abnormality in table structures were observed. However, after adjusting according to the suggested method above, the codes were corrected and integrated codes were newly created. Finally, we were able to clean the raw data provided by respondents to the KNHANES survey. Conclusion: The results of this study will contribute to the integration of the multi-year datasets and help improve the data production system by clarifying, testing, and verifying the primary key, integrity of the code, and primitive data structure according to the database normalization theory in the national health data.

천리안해양관측위성 산출물 활용성 향상을 위한 오픈소스 R 기반 데이터 처리기술 연구 (A Study on Data Processing Technology based on a open source R to improve utilization of the Geostationary Ocean Color Imager(GOCI) Products)

  • 오정희;최현우;이철용;양현;한희정
    • 한국지리정보학회지
    • /
    • 제22권4호
    • /
    • pp.215-228
    • /
    • 2019
  • 해양관측 정지궤도 위성인 GOCI(Geostationary Ocean Color Imager) 데이터는 대용량 산출물을 효과적으로 저장, 배포하기 위해 HDF5 자료 형식을 사용하고 있다. 해양위성센터에서는 HDF5(Hierarchical Data Format version5) 포맷에 익숙지 않은 일반 사용자를 위해 GDPS(GOCI Data Processing System)를 개발하여 관측자료와 함께 제공하고 있다. 그럼에도 불구하고 위성데이터 특성에 대한 이해와 GDPS의 사용법을 익혀야 하는 점, 그리고 위치정보와 속성정보가 분리되어 있는 HDF5 형식의 자료를 병합하고 가공하는 일은 쉽지 않은 일이다. 따라서 본 연구에서는 오픈소스 R과 rhdf5, data.table, matrixStats 패키지를 이용하여 GDPS를 이용하는 과정 없이도 HDF5 형식의 위성데이터를 손쉽게 활용할 수 있는 알고리즘을 개발하였다.

임의쓰기 성능향상을 위한 로그블록 기반 FTL의 효율적인 합병연산 (The Efficient Merge Operation in Log Buffer-Based Flash Translation Layer for Enhanced Random Writing)

  • 이준혁;노홍찬;박상현
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.161-186
    • /
    • 2012
  • 최근 플래시 메모리의 꾸준한 용량 증가와 가격 하락으로 인해 대용량 SSD(Solid State Drive)가 점차 대중화 되고 있다. 하지만, 플래시 메모리는 하드웨어적인 제약사항이 존재하며, 이러한 제약사항을 보완하기 위해 FTL(Flash Translation Layer)이라는 특별한 미들웨어 계층을 필요로 한다. FTL은 플래시 메모리의 하드웨어적인 제약사항을 효율적으로 운용하기 위해 필요한 계층으로서 파일 시스템으로부터의 논리적 섹터 번호(logical sector number)를 플래시 메모리의 물리적 섹터 번호(physical sector number)로 변환해주는 역할을 한다. 특히, 플래시 메모리의 여러 제약사항 중 "쓰기 전 지우기(erase-before-write)"는 플래시 메모리 성능 저하의 주요한 원인이 되고 있으며, 이와 관련하여 로그블록 기반의 여러 연구들이 활발히 진행되어 왔지만, 대용량의 플래시 메모리를 효율적으로 운용하기 위해서는 몇몇 문제점들이 존재한다. 로그블록 기반의 FAST는 넓은 지역에 임의쓰기(random writing)가 빈번하게 발생하면 데이터 블록 내 사용되지 않은 섹터들로 인해 효율적이지 못한 합병 연산이 발생한다. 즉, 효율적이지 못한 블록 쓰레싱(thrashing)이 빈번하게 발생하고, 플래시 메모리의 성능을 저하시킨다. 로그블록은 덮어쓰기(overwriting) 발생 시 일종의 캐쉬처럼 운영되며, 이러한 기법은 플래시 메모리 성능 향상에 많은 발전을 주었다. 본 연구에서는 임의쓰기에 대한 성능 향상을 위해 로그 블록만을 캐쉬처럼 운영하는 것이 아니라 플래시 메모리 전체를 캐쉬처럼 운용하고, 이를위해 별도의 오프셋이라는 매핑 테이블을 운용하여 플래시 메모리 성능 저하의 주요한 원인이 되는 합병연산과 삭제연산을 줄였다. 새로운 FTL은 XAST(eXtensively-Associative Sector Translation)이라 명명하며, XAST에서는 공간지역성과 시간지역성에 대한 기본적인 이론을 바탕으로 오프셋 매핑 테이블을 효율적으로 운용한다.

Environmental IoT-Enabled Multimodal Mashup Service for Smart Forest Fires Monitoring

  • Elmisery, Ahmed M.;Sertovic, Mirela
    • Journal of Multimedia Information System
    • /
    • 제4권4호
    • /
    • pp.163-170
    • /
    • 2017
  • Internet of things (IoT) is a new paradigm for collecting, processing and analyzing various contents in order to detect anomalies and to monitor particular patterns in a specific environment. The collected data can be used to discover new patterns and to offer new insights. IoT-enabled data mashup is a new technology to combine various types of information from multiple sources into a single web service. Mashup services create a new horizon for different applications. Environmental monitoring is a serious tool for the state and private organizations, which are located in regions with environmental hazards and seek to gain insights to detect hazards and locate them clearly. These organizations may utilize IoT - enabled data mashup service to merge different types of datasets from different IoT sensor networks in order to leverage their data analytics performance and the accuracy of the predictions. This paper presents an IoT - enabled data mashup service, where the multimedia data is collected from the various IoT platforms, then fed into an environmental cognition service which executes different image processing techniques such as noise removal, segmentation, and feature extraction, in order to detect interesting patterns in hazardous areas. The noise present in the captured images is eliminated with the help of a noise removal and background subtraction processes. Markov based approach was utilized to segment the possible regions of interest. The viable features within each region were extracted using a multiresolution wavelet transform, then fed into a discriminative classifier to extract various patterns. Experimental results have shown an accurate detection performance and adequate processing time for the proposed approach. We also provide a data mashup scenario for an IoT-enabled environmental hazard detection service and experimentation results.

Study on Supervision System of Chinese Specialized Farmers Cooperatives: Experience of the Korean NongHyup

  • Guilian, Cui;Yang, Tian
    • 유통과학연구
    • /
    • 제13권4호
    • /
    • pp.21-28
    • /
    • 2015
  • Purpose - The Chinese government's policies and funds enable specialized farmers cooperatives to develop vigorously. However, the non-systematic supervision system affects the interests of farmer-members of these cooperatives, which are similar to the Korean NongHyup in many aspects but differ in their supervision systems such as distribution. Therefore, this paper aims to identify the problems of specialized farmers cooperatives, and obtain some insights from NongHyup. Research design, data, and methodology - Data were collected from farmers, the government, and cooperatives in northern China's Shandong Province (the cities of Jinan, Qingdao, Weifang, Linyi, and Heze) through a literature survey, case analysis, and comparative analysis in each city. Results - 1) Specialized farmers cooperatives should establish a transparent regulatory mechanism and be subject to dual supervision from both the Chinese government and farmers. 2) The Chinese government and civil society should offer more support to the cooperatives, and strive to change farmers' backward attitude through education and training. Conclusions - Small cooperatives could merge into large ones and undertake social responsibility through the establishment of labor unions.

고차원 데이타에 대한 투영 클러스터링에서 특성 가중치 부여 (Feature Weighting in Projected Clustering for High Dimensional Data)

  • 박종수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.228-242
    • /
    • 2005
  • 투영 클러스터링은 고 차원 데이타집합에서 서로 다른 부분공간들에서 클러스터들을 찾으려고 모색한다. 사용자가 출력 클러스터들의 개수와 투영 클러스터들의 부분공간의 평균 차원수를 지정하지 않아도, 거의 최적인 투영 클러스터들을 탐사해내는 알고리즘을 제안한다. 클러스터링의 각 단계에서 알고리즘의 목적 함수는 투영 에너지, 품질, 그리고 이상치들의 개수를 계산한다. 클러스터링에서 투영 에너지를 최소화하고 품질을 최대화하기 위하여, 전체 차원의 표준 편차들을 비교함으로 입력 점들의 밀도 상에서 각 클러스터의 최선의 부분영역을 찾기 시작한다. 부분공간의 각 차원에 대한 가중치 요소가 투영 거리 측정에서 확률 오차를 없애기 위하여 사용된다. 제안된 알고리즘이 투영 클러스터들을 정확하게 발견해내고 대 용량의 데이타 집합에서 비례확장성을 갖는다는 것을 여러 가지 실험으로 보여준다.

디스크 파티션내 고정 블록에 기반한 다중 스트림의 효율적 저장 방식 (An efficient storing method of multiple streams based on fixed blocks in disk parititions)

  • 최성욱;박승규;최덕규
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.2080-2089
    • /
    • 1997
  • 최근 급격히 발전된 컴퓨터 기술에 힘입어 다양한 분야에서의 멀티미디어 데이터 처리가 가능하게 되었다. 그러나, 기존의 디스크 저장 시스템으로 멀티미디어의 특징을 수용하기에는 무리가 있다. 현재, 몇몇의 연구에서 멀티미디어 저장에 관한 향상된 기술을 소개하였고, 그 중 Bocheck는 엑세스 주기와 단위가 동일한 다중스트림의 분할 저장 기법을 제안하였으나, 서로 상이한 주기를 갖는 연속 미디어의 스트림에 관해서는 고려되지 않았다. 이 논문에서는 조회 주기가 서로 상이한 스트림을 고정된 몇 개의 블록으로 할당하는 방안을 제안하고 주어진 다중스트림을 m개의 시퀀스로 스케줄링시 그 가능성을 분석하였으며, 기존의 Scan-EDF와 디스크 분할 저장 방식과 비교하기 위해서 시뮬레이션을 행하였다.

  • PDF

다중해상도 kd-트리와 클러스터 유효성을 이용한 점증적 EM 알고리즘과 이의 영상 분할에의 적용 (Incremental EM algorithm with multiresolution kd-trees and cluster validation and its application to image segmentation)

  • 이경미
    • 한국지능시스템학회논문지
    • /
    • 제25권6호
    • /
    • pp.523-528
    • /
    • 2015
  • 본 논문은 효율적인 영상 분할을 수행하기 위한 다중해상도와 동적인 성질을 가지고 있는 새로운 EM 알고리즘을 제안한다. EM 알고리즘은 가장 많이 사용되고 성능이 우수한 클러스터링 방법이다. 그러나, 기존의 EM 알고리즘은 다중해상도 데이터 처리에 대한 문제점과 클러스터 개수에 대한 사전 지식 요구라는 단점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해서 E-단계에 다중해상도 kd-트리를 적용함으로써 다중해상도 데이터 처리 문제를 해결하였고, 순차적 데이터에 따라 클러스터를 할당할 수 있데 하였다. 클러스터의 유효성을 검사하기 위해서, 클러스터 병합 원칙을 이용한다. 본 논문에서는 제안하는 알고리즘을 텍스쳐 영상 분할에 적용하였고, 우수한 성능을 보였다.