• Title/Summary/Keyword: 시퀀스 데이터

Search Result 410, Processing Time 0.037 seconds

Processing Method of Mass Small File Using Hadoop Platform (하둡 플랫폼을 이용한 대량의 스몰파일 처리방법)

  • Kim, Chang-Bok;Chung, Jae-Pil
    • Journal of Advanced Navigation Technology
    • /
    • v.18 no.4
    • /
    • pp.401-408
    • /
    • 2014
  • Hadoop is composed with MapReduce programming model for distributed processing and HDFS distributed file system. Hadoop is suitable framework for big data processing, but processing of mass small files have many problems. The processing of mass small file in hadoop have problems to created one mapper per one file, and it have problems to needed many memory for store of meta information of file. This paper have comparison evaluation processing method of mass small file with various method in hadoop platform. The processing of general compression format is inadequate because of processing by one mapper regardless of data size. The processing of sequence and hadoop archive file is removed memory problem of namenode by compress and combine of small file. Hadoop archive file is faster then sequence file about combine time of small file. The processing using CombineFileInputFormat class is needed not combine of small file, and it have similar speed big data processing method.

A Study on Coding Techniques for Flicker Reduction and BER Performance Improvement in Visible Light Communication (가시광통신에서 플리커 완화 및 BER 성능 향상을 위한 코딩 기법에 대한 연구)

  • Lee, Kyu-Jin
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.2
    • /
    • pp.25-30
    • /
    • 2021
  • In this paper, we studied the coding technique for flicker mitigation and BER performance improvement in visible light communication system. In order to increase the transmission speed of visible light communication, a multi-transmission multi-LED transmission system using a plurality of LEDs is being actively studied. However, when data is transmitted through N LEDs in a multi-LED visible light communication system using N LEDs, there is a continuous zero section in which 0 is transmitted simultaneously according to the data sequence, and since the transmission section of 1 is different, flickering Or, a phenomenon in which the dimming level changes occurs. The visible light communication system is a communication system that simultaneously performs communication and lighting functions. Therefore, transmission efficiency of communication and brightness of lighting must be considered at the same time. To solve this problem, we proposed a flicker reduction mapping that can alleviate flicker and dimming level problems, improve error detection and BER performance through coding mapping of each LED data sequence.

A Single Index Approach for Time-Series Subsequence Matching that Supports Moving Average Transform of Arbitrary Order (단일 색인을 사용한 임의 계수의 이동평균 변환 지원 시계열 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jinho
    • Journal of KIISE:Databases
    • /
    • v.33 no.1
    • /
    • pp.42-55
    • /
    • 2006
  • We propose a single Index approach for subsequence matching that supports moving average transform of arbitrary order in time-series databases. Using the single index approach, we can reduce both storage space overhead and index maintenance overhead. Moving average transform is known to reduce the effect of noise and has been used in many areas such as econometrics since it is useful in finding overall trends. However, the previous research results have a problem of occurring index overhead both in storage space and in update maintenance since tile methods build several indexes to support arbitrary orders. In this paper, we first propose the concept of poly-order moving average transform, which uses a set of order values rather than one order value, by extending the original definition of moving average transform. That is, the poly-order transform makes a set of transformed windows from each original window since it transforms each window not for just one order value but for a set of order values. We then present theorems to formally prove the correctness of the poly-order transform based subsequence matching methods. Moreover, we propose two different subsequence matching methods supporting moving average transform of arbitrary order by applying the poly-order transform to the previous subsequence matching methods. Experimental results show that, for all the cases, the proposed methods improve performance significantly over the sequential scan. For real stock data, the proposed methods improve average performance by 22.4${\~}$33.8 times over the sequential scan. And, when comparing with the cases of building each index for all moving average orders, the proposed methods reduce the storage space required for indexes significantly by sacrificing only a little performance degradation(when we use 7 orders, the methods reduce the space by up to 1/7.0 while the performance degradation is only $9\%{\~}42\%$ on the average). In addition to the superiority in performance, index space, and index maintenance, the proposed methods have an advantage of being generalized to many sorts of other transforms including moving average transform. Therefore, we believe that our work can be widely and practically used in many sort of transform based subsequence matching methods.

Korean Abbreviation Generation using Sequence to Sequence Learning (Sequence-to-sequence 학습을 이용한 한국어 약어 생성)

  • Choi, Su Jeong;Park, Seong-Bae;Kim, Kweon-Yang
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.3
    • /
    • pp.183-187
    • /
    • 2017
  • Smart phone users prefer fast reading and texting. Hence, users frequently use abbreviated sequences of words and phrases. Nowadays, abbreviations are widely used from chat terms to technical terms. Therefore, gathering abbreviations would be helpful to many services, including information retrieval, recommendation system, and so on. However, manually gathering abbreviations needs to much effort and cost. This is because new abbreviations are continuously generated whenever a new material such as a TV program or a phenomenon is made. Thus it is required to generate of abbreviations automatically. To generate Korean abbreviations, the existing methods use the rule-based approach. The rule-based approach has limitations, in that it is unable to generate irregular abbreviations. Another problem is to decide the correct abbreviation among candidate abbreviations generated rules. To address the limitations, we propose a method of generating Korean abbreviations automatically using sequence-to-sequence learning in this paper. The sequence-to-sequence learning can generate irregular abbreviation and does not lead to the problem of deciding correct abbreviation among candidate abbreviations. Accordingly, it is suitable for generating Korean abbreviations. To evaluate the proposed method, we use dataset of two type. As experimental results, we prove that our method is effective for irregular abbreviations.

A Navigation Model of Web Applications with Extended Behavioral Diagrams of UML 2.0 (UML 2.0 행위 다이어그램을 확장한 웹 응용의 항해 모델)

  • Park Sanghyun;Lee Wook-jin;Lee ByungJeong;Kim Heechern;Wu Chisu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.319-321
    • /
    • 2005
  • 항해는 웹 응용의 대표적인 행위 특성이다. 본 연구에서는 UML 2.0의 행위 다이어그램 메타 모델을 확장한 웹 응용 항해 모델을 제안한다. 본 항해 모델은 딜 판정 항해 모델과 데이터 전송 관점 항해 모델로 구성된다. 뷰 관점 항해 모델은 UML 상태 기계 다이어그램을 확장하여 사용자에게 표시되는 항해를 기술한다. 데이터 전송 관점 항해 모델은 데이터가 전송되는 항해를 나타내며 UML 시퀀스 다이어그램을 확장하여 표현한다. 두 항해 모델은 상호 보완적으로 작용하여 온전한 항해 문맥을 형성한다. 본 논문에서는 UML 2.0 메타 모델의 확장점과 항해 모델의 표기법을 제시하고, 사례 연구를 통하여 실제적인 항해 모델의 예를 보인다.

  • PDF

Alignment Benefits of Merging Paired-End Reads in Genome Analysis (유전체 연구를 위한 Paired-End Reads 병합 데이터의 정렬 이득에 관한 분석)

  • Kwon, Sun Young;Yoon, Sungroh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.59-61
    • /
    • 2014
  • 유전체 연구를 위한 분석 작업은 표준유전체에 시퀀스 데이터를 정렬하는 과정을 필수적으로 요구한다. 정렬에는 single-end 또는 paired-end reads가 사용된다. Paired-end reads는 유전체 조각의 양쪽에서 시퀀싱 된 데이터로 좀 더 긴 길이에 대한 정보를 얻을 수 있어 많이 이용된다. 정렬 툴 자체적으로 paired-end reads를 다룰수 있으나, 병합툴을 활용하는 것이 더 좋은 결과를 보인다. 다섯 가지 병합툴 중에서 CASPER와 pear에서 정렬 이득이 가장 크게 나타난다.

DNA Sequence Alignment Using a Graph-based Distributed System (그래프 기반 분산 시스템을 이용한 염기 서열 정렬)

  • Lee, Jun-Su;Ahn, Jae-Gyoon;Yeu, Yun-Ku;Roh, Hong-Chan;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.894-897
    • /
    • 2013
  • 서열 정렬(sequence alignment)은 유전학(genomic)에서 널리 사용되는 도구 중 하나이다. 최근에는 차세대 시퀀싱 기술(NGS)이 발달함에 따라 데이터의 생산량이 크게 증가했고, 이에 따라 높은 처리량(throughput)을 가진 서열 정렬 알고리즘의 필요성이 증가하였다. 본 논문에서 제안하는 염기 서열 정렬 알고리즘은 시퀀스(sequence)데이터를 그래프 형태로 변형시킨 다음, 마이크로소프트사의 그래프 기반인 메모리(in-memory) 분산시스템(distributed system) 트리니티(Trinity)를 이용해 서열 정렬을 수행한다. 본 논문의 알고리즘은 트리니티 시스템에서 시뮬레이션 염기 데이터를 성공적으로 정렬하였으며, 슬레이브의 개수가 늘어날수록 빠른 속도를 나타내어 확장성(scalability)을 입증했다.

EEG Classification using Time-series Learning Algorithm (시계열 학습 알고리즘을 이용한 뇌파 자동 분류)

  • Kim, Jong-Hwan;Nam, Sang-Ha;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.240-243
    • /
    • 2013
  • 본 논문에서는 로봇 제어 목적의 응용을 위해 SVM 알고리즘과 HMM 알고리즘을 근간으로 하는 효과적인 뇌파 데이터 자동 분류 방법을 제안한다. Emotive Epoc 헤드셋 뇌파 측정 장비를 이용하여 뇌파 데이터를 수집하고, 수집된 뇌파 데이터로부터 FFT알고리즘을 이용하여 특징 추출을 수행한다. 그리고 SVM 알고리즘을 이용한 1단계 분류 방법과 SVM 알고리즘의 분류 결과를 다시 입력 시퀀스로 삼아 시계열 학습 알고리즘인 HMM에 적용하는 2단계 분류 방법의 실험 결과를 소개한다.

Design of a Two-Phase Activity Recognition System Using Smartphone Accelerometers (스마트폰 가속도 센서를 이용한 2단계 행위 인식 시스템의 설계)

  • Kim, Jong-Hwan;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1328-1331
    • /
    • 2013
  • 본 논문에서는 스마트폰 내장 가속도 센서를 이용한 2단계 행위 인식 시스템을 제안한다. 제안하는 행위 인식 시스템에서는 행위 별 시간에 따른 가속도 센서 데이터의 변화 패턴을 충분히 반영하기 위해, 1단계 분류에서는 결정트리 모델 학습과 분류를 수행하고, 2단계 분류에서는 1단계 분류 결과들의 시퀀스를 이용하여 HMM모델 학습과 분류를 수행하였다. 또한, 본 논문에서는 특정 사용자나 스마트폰의 특정 위치, 방향 변화에도 견고한 행위 인식을 위하여, 동일한 행위에 대해 사용자와 스마트폰의 위치, 방향을 변경하면서 다양한 훈련 데이터를 수집하였다. 6720개의 가속도 센서 데이터를 이용하여 총 6가지 실내 행위들을 인식하기 위한 실험들을 수행하였고, 그 결과 높은 인식 성능을 확인 할 수 있었다.

Predictions of dam inflow on Han-river basin using LSTM (LSTM을 이용한 한강유역 댐유입량 예측)

  • Kim, Jongho;Tran, Trung Duc
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.319-319
    • /
    • 2020
  • 최근 데이터 과학의 획기적인 발전 덕분에 딥러닝 (Deep Learning) 알고리즘이 개발되어 다양한 분야에 널리 적용되고 있다. 본 연구에서는 인공신경망 중 하나인 LSTM(Long-Short Term Memory) 네트워크를 사용하여 댐 유입량을 예측하였다. 구체적인 내용으로, (1) LSTM에 필요한 입력 데이터를 효율적으로 사전 처리하는 방법, (2) LSTM의 하이퍼 매개변수를 결정하는 방법 및 (3) 다양한 손실 함수(Loss function)를 선택하고 그 영향을 평가하는 방법 등을 다루었다. 제안된 LSTM 모델은 강우량(R), 댐유입량(Q) 기온(T), 기저유량(BF) 등을 포함한 다양한 입력 변수들의 함수로 가정하였으며, CCF(Cross Correlations), ACF(Autocorrelations) 및 PACF(Partial Autocorrelations) 등의 기법을 사용하여 입력 변수를 결정하였다. 다양한 sequence length를 갖는 (즉 t, t-1, … t-n의 시간 지연을 갖는) 입력 변수를 적용하여 데이터 학습에 최적의 시퀀스 길이를 결정하였다. LSTM 네트워크 모델을 적용하여 2014년부터 2020년까지 한강 유역 9개의 댐 유입량을 추정하였다. 본 연구로부터 댐 유입량을 예측하는 것은 홍수 및 가뭄 통제를 위한 필수 요건들 중 하나이며 수자원 계획 및 관리에 도움이 될 것이다.

  • PDF