• 제목/요약/키워드: Data Sequence

검색결과 3,093건 처리시간 0.048초

An Efficient DNA Sequence Compression using Small Sequence Pattern Matching

  • Murugan., A;Punitha., K
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.281-287
    • /
    • 2021
  • Bioinformatics is formed with a blend of biology and informatics technologies and it employs the statistical methods and approaches for attending the concerning issues in the domains of nutrition, medical research and towards reviewing the living environment. The ceaseless growth of DNA sequencing technologies has resulted in the production of voluminous genomic data especially the DNA sequences thus calling out for increased storage and bandwidth. As of now, the bioinformatics confronts the major hurdle of management, interpretation and accurately preserving of this hefty information. Compression tends to be a beacon of hope towards resolving the aforementioned issues. Keeping the storage efficiently, a methodology has been recommended which for attending the same. In addition, there is introduction of a competent algorithm that aids in exact matching of small pattern. The DNA representation sequence is then implemented subsequently for determining 2 bases to 6 bases matching with the remaining input sequence. This process involves transforming of DNA sequence into an ASCII symbols in the first level and compress by using LZ77 compression method in the second level and after that form the grid variables with size 3 to hold the 100 characters. In the third level of compression, the compressed output is in the grid variables. Hence, the proposed algorithm S_Pattern DNA gives an average better compression ratio of 93% when compared to the existing compression algorithms for the datasets from the UCI repository.

한국 대륙붕 VI-1광구 고래 II지역의 3D탄성파 자료해석 (3D Seismic Data Interpretation of the Gorse II Area, Block VI-1, Offshore Southeast Korea)

  • 신국선;유강민;김건득;엄창렬
    • 한국석유지질학회지
    • /
    • 제5권1_2호
    • /
    • pp.27-35
    • /
    • 1997
  • 연구지역인 고래 II지역은 한반도 동남쪽 육지에 근접해 있으며 울릉분지(쓰시마분지)의 서남부에 위치한다. 동지역에 대한 3D탐사는 2D탐사에 의해 기확인된 구조들의 정밀평가를 목적으로 시행되었으며, 동작업의 일환으로 울릉분지의 층서 및 구조의 정밀분석이 시행되었다. 동지역은 기반암이 얕고 울릉분지의 구조운동이 모두 영향을 미친 지역으로 고해상도의 기반암지역 자료를 토대로 기반암을 포함하는 구조운동 및 층서와의 상관관계가 분석되었다. 3D 탄성파 자료 해석결과, 본 지역에는 조구조운동과 성인적 연관을 가진 8개의 건층면이 관찰되고 있다. 연구지역에서 관찰되는 지질구조는 분지형성초기에 형성된 블록단층과 후기 마이오세 스러스트 및 플라이오세 렌치단층 등 세 종류의 단층이 관찰되며, 울룽곡분으로 불리는 완만한 향사가 발달되어 있다. 본 지역에서 상기 지질 구조와 관련된 퇴적 시퀀스로는 음향 기반암, 열개동시성 시퀀스(시퀀스 $A_1, A_2$), 후열개 시퀀스 (시퀀스 $B_1{\~}B_3$),횡압력 동시성 시퀀스 (시퀀스 C) ,후횡압력 시퀀스 (시퀀스 D)등이 인지되었다. 각 시퀀스에 대해 구조도, 등시선도 등이 작성되어 상분석, 퇴적환경 해석작업이 이루어 졌다. 조구조운동 및 퇴적물 공급량에 따른 상대 해수면 변화와 관련하여 발달한 본 지역 시퀀스의 해석 결과, 울릉분지는 여러 형태의 조구조운동 및 퇴적물공급에의해 형성된 복합적인 분지의 층서 및 구조 양상을 나타낸다.

  • PDF

비지도 학습 기반의 임베딩과 오토인코더를 사용한 침입 탐지 방법 (Intrusion Detection Method Using Unsupervised Learning-Based Embedding and Autoencoder)

  • 이준우;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.355-364
    • /
    • 2023
  • 최근 지능화된 사이버 위협이 지속적으로 증가함에 따라 기존의 패턴 혹은 시그니처 기반의 침입 탐지 방식은 새로운 유형의 사이버 공격을 탐지하는데 어려움이 있다. 따라서 데이터 학습 기반 인공지능 기술을 적용한 이상 징후 탐지 방법에 관한 연구가 증가하고 있다. 또한 지도학습 기반 이상 탐지 방식은 학습을 위해 레이블 된 이용 가능한 충분한 데이터를 필요로 하기 때문에 실제 환경에서 사용하기에는 어려움이 있다. 최근에는 정상 데이터로 학습하고 데이터 자체에서 패턴을 찾아 이상 징후를 탐지하는 비지도 학습 기반의 방법에 대한 연구가 활발히 진행되고 있다. 그러므로 본 연구는 시퀀스 로그 데이터로부터 유용한 시퀀스 정보를 보존하는 잠재 벡터(Latent Vector)를 추출하고, 추출된 잠재 벡터를 사용하여 이상 탐지 학습 모델을 개발하는데 있다. 각 시퀀스의 특성들에 대응하는 밀집 벡터 표현을 생성하기 위하여 Word2Vec을 사용하였으며, 밀집 벡터로 표현된 시퀀스 데이터로부터 잠재 벡터를 추출하기 위하여 비지도 방식의 오토인코더(Autoencoder)를 사용하였다. 개발된 오토인코더 모델은 시퀀스 데이터에 적합한 순환신경망 GRU(Gated Recurrent Unit) 기반의 잡음 제거 오토인코더, GRU 네트워크의 제한적인 단기 기억문제를 해결하기 위한 1차원 합성곱 신경망 기반의 오토인코더 및 GRU와 1차원 합성곱을 결합한 오토인코더를 사용하였다. 실험에 사용된 데이터는 시계열 기반의 NGIDS(Next Generation IDS Dataset) 데이터이며, 실험 결과 GRU 기반의 오토인코더나, 1차원 합성곱 기반의 오토인코더를 사용한 모델보다 GRU와 1차원 합성곱을 결합한 오토인코더가 훈련 데이터로부터 유용한 잠재 패턴을 추출하기 위한 학습 시간적 측면에서 효율적이었고 이상 탐지 성능 변동의 폭이 더 작은 안정된 성능을 보였다.

택시 기종점 빈번 순차 패턴 분석 (Frequent Origin-Destination Sequence Pattern Analysis from Taxi Trajectories)

  • 이태영;전승배;정명훈;최연웅
    • 대한토목학회논문집
    • /
    • 제39권3호
    • /
    • pp.461-467
    • /
    • 2019
  • IoT (Internet of Things) 기술과 위치기반 기술의 발전은 대용량의 이동데이터를 급속하게 생성하고 있다. 대용량 이동 데이터의 분석은 도시 이동의 흐름 및 교통 계획 등에 활용되고 있다. 본 연구에서는 불규칙한 공간적 및 시간적 해상도의 택시 승차 정보로부터 빈번 승차 패턴을 분석하였다. 택시 승차 지점을 중심으로 군집 분석을 실시한 후 군집분석에 기반한 영역을 기준으로 순차패턴 분석을 적용하여 택시 승차 지점이 빈번하게 일어나는 패턴을 분석하였다. 실험용 데이터는 서울특별시 택시 운행 정보로부터 아침 출근 시간인 7시부터 9시 사이의 승차 정보를 분석하였다. 분석 결과는 아침 출근 시간대에 가장 빈도가 높게 발생하는 승차 순차 패턴은 강남 지역 안에서 많이 발생하였으며 지역과의 연계에 있어서는 강남으로부터 서울 시청 지역으로의 이동이 많이 발생하였다. 또한 본 연구는 순차 패턴 분석을 위한 기본 단위로 행정동 경계를 기준으로 분석하였다. 하지만 행정동 경계 기반의 분석은 지역간의 이동 패턴을 찾기가 어려웠다. 본 연구 결과는 향후 택시 공차율 감소와 도시 흐름관리를 위하여 활용할 수 있을 것으로 사료된다.

A Novel Sensor Data Transferring Method Using Human Data Muling in Delay Insensitive Network

  • Basalamah, Anas
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12호
    • /
    • pp.21-28
    • /
    • 2021
  • In this paper, a novel data transferring method is introduced that can transmit sensor data without using data bandwidth or an extra-processing cycle in a delay insensitive network. The proposed method uses human devices as Mules, does not disturb the device owner for permission, and saves energy while transferring sensor data to the collection hub in a wireless sensor network. This paper uses IP addressing technique as the data transferring mechanism by embedding the sensor data with the IP address of a Mule. The collection hub uses the ARP sequence method to extract the embedded data from the IP address. The proposed method follows WiFi standard in its every step and ends when data collection is over. Every step of the proposed method is discussed in detail with the help of figures in the paper.

전기로용 다단 H-브릿지 STATCOM의 전류제어 (Current Control in Cascaded H-bridge STATCOM for Electric Arc Furnaces)

  • 권병기;정승기;김태형;김윤현
    • 전력전자학회논문지
    • /
    • 제20권1호
    • /
    • pp.19-30
    • /
    • 2015
  • A static synchronous compensator (STATCOM) applied to rapidly changing, highly unbalanced loads such as electric arc furnaces (EAFs), requires both positive-sequence and negative-sequence current control, which indicates fast response characteristics and can be controlled independently. Furthermore, a delta-connected STATCOM with cascaded H-bridge configuration accompanying multiple separate DC-sides, should have high performance zero-sequence current control to suppress a phase-to-phase imbalance in DC-side voltages when compensating for unbalanced load. In this paper, actual EAF data is analyzed to reflect on the design of current controllers and a pioneering zero-sequence current controller with a superb transient performance is devised, which generates an imaginary -axis component from the presumed response of forwarded reference. Via simulation and experiments, the performance of the positive, negative, and zero-sequence current control of a cascaded H-bridge STATCOM for EAF is verified.

Out of Sequence Measurement 환경에서의 MPDA 성능 분석 (The Performance Analysis of MPDA in Out of Sequence Measurement Environment)

  • 서일환;임영택;송택열
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제55권9호
    • /
    • pp.401-408
    • /
    • 2006
  • In a multi-sensor multi-target tracking systems, the local sensors have the role of tracking the target and transferring the measurements to the fusion center. The measurements from the same target can arrive out of sequence called the out-of-sequence measurements(OOSMs). Out-of-sequence measurements can arise at the fusion center due to communication delay and varying preprocessing time for different sensor platforms. In general, the track fusion occurs to enhance the tracking performance of the sensors using the measurements from the sensors at the fusion center. The target informations can wive at the fusion center with the clutter informations in cluttered environment. In this paper, the OOSM update step with MPDA(Most Probable Data Association) is introduced and tested in several cases with the various clutter density through the Monte Carlo simulation. The performance of the MPDA with OOSM update step is compared with the existing NN, PDA, and PDA-AI for the air target tracking in cluttered and out-of-sequence measurement environment. Simulation results show that MPDA with the OOSM has compatible root mean square errors with out-of-sequence PDA-AI filter and the MPDA is sufficient to be used in out-of-sequence environment.

FPGA를 이용한 시퀀스 제어용 32비트 마이크로프로세서 설계 (The Design of 32 Bit Microprocessor for Sequence Control Using FPGA)

  • 양오
    • 대한전자공학회논문지SD
    • /
    • 제40권6호
    • /
    • pp.431-441
    • /
    • 2003
  • 본 논문은 FPGA를 이용하여 시퀀스 제어용 32비트 마이크로프로세서를 설계하였다. 이를 위해 VHDL을 이용하여 톱-다운 방식으로 마이크로프로세서를 설계하였으며, 고속처리의 문제점을 해결하기 위해 프로그램 메모리부와 데이터 메모리부를 분리하여 설계함으로써 인스트럭션을 페치 하는 도중에 시퀀스 명령을 실행할 수 있는 Harvard 구조로 설계하였다. 또한 마이크로프로세서의 명령어들을 시퀀스제어에 적합하도록 RISC형태의 32 비트 명령어로 고정하여 명령어의 디코딩 시간과 데이터 메모리의 인터페이스 시간을 줄였다. 특히 설계된 마이크로프로세서의 실시간 디버깅 기능을 구현하기 위해 싱글 스텝 런, 일정 프로그램 카운터 브레이크, 데이터 메모리와 일치시 정지 기능 등을 구현함으로써 구현된 프로세서의 디버깅을 쉽게 하였다. 또한, 시퀀스제어에 적합한 펄스명령, 스텝 콘트롤 명령, 마스터 콘트롤 명령 등과 같은 비트 조작 명령과, BIN형과 BCD형 산술명령, 배럴 쉬프트명령 등을 구현하였다. 이와 같은 기능들을 FPGA로 구현하기 위하여 자이링스(Xilinx)사의 V600EHQ240(60만 게이트)과 Foundation 4.2i를 사용하여 로직을 합성하였다. Foundation 합성툴 환경에서 시뮬레이션과 실험에서 성공적으로 수행되었다. 본 논문에서 구현된 시퀀스 제어용 마이크로프로세서의 우수성을 보이기 위해 시퀀스제어용 명령어를 많이 가지고 있는 Hitachi사의 마이크로프로세서인 H8S/2148과 성능을 비교하여 본 논문에서 설계된 시퀀스 제어용 프로세서가 우수함을 확인하였다.

Protein Ontology: Semantic Data Integration in Proteomics

  • Sidhu, Amandeep S.;Dillon, Tharam S.;Chang, Elizabeth;Sidhu, Baldev S.
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.388-391
    • /
    • 2005
  • The Protein Structural and Functional Conservation need a common language for data definition. With the help of common language provided by Protein Ontology the high level of sequence and functional conservation can be extended to all organisms with the likelihood that proteins that carry out core biological processes will again be probable orthologues. The structural and functional conservation in these proteins presents both opportunities and challenges. The main opportunity lies in the possibility of automated transfer of protein data annotations from experimentally traceable model organisms to a less traceable organism based on protein sequence similarity. Such information can be used to improve human health or agriculture. The challenge lies in using a common language to transfer protein data annotations among different species of organisms. First step in achieving this huge challenge is producing a structured, precisely defined common vocabulary using Protein Ontology. The Protein Ontology described in this paper covers the sequence, structure and biological roles of Protein Complexes in any organism.

  • PDF

An Approach for a Substitution Matrix Based on Protein Blocks and Physicochemical Properties of Amino Acids through PCA

  • You, Youngki;Jang, Inhwan;Lee, Kyungro;Kim, Heonjoo;Lee, Kwanhee
    • Interdisciplinary Bio Central
    • /
    • 제6권4호
    • /
    • pp.3.1-3.10
    • /
    • 2014
  • Amino acid substitution matrices are essential tools for protein sequence analysis, homology sequence search in protein databases and multiple sequence alignment. The PAM matrix was the first widely used amino acid substitution matrix. The BLOSUM series then succeeded the PAM matrix. Most substitution matrixes were developed by using the statistical frequency of substitution between each amino acid at blocks representing groups of protein families or related proteins. However, substitution of amino acids is based on the similarity of physiochemical properties of each amino acid. In this study, a new approach was used to obtain major physiochemical properties in multiple sequence alignment. Frequency of amino acid substitution in multiple sequence alignment database and selected attributes of amino acids in physiochemical properties database were merged. This merged data showed the major physiochemical properties through principle components analysis. Using factor analysis, these four principle components were interpreted as flexibility of electronic movement, polarity, negative charge and structural flexibility. Applying these four components, BAPS was constructed and validated for accuracy. When comparing receiver operated characteristic ($ROC_{50}$) values, BAPS scored slightly lower than BLOSUM and PAM. However, when evaluating for accuracy by comparing results from multiple sequence alignment with the structural alignment results of two test data sets with known three-dimensional structure in the homologous structure alignment database, the result of the test for BAPS was comparatively equivalent or better than results for prior matrices including PAM, Gonnet, Identity and Genetic code matrix.