• 제목/요약/키워드: Data Sequence

검색결과 3,089건 처리시간 0.035초

단일 스캔을 통한 웹 방문 패턴의 탐색 기법 (An Efficient Approach for Single-Pass Mining of Web Traversal Sequences)

  • 김낙민;정병수;아메드 파한
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.221-227
    • /
    • 2010
  • 인터넷 사용의 급증과 더불어 보다 편리한 인터넷 서비스를 위한 여러 연구가 활발히 진행되어 왔다. 웹 로그 데이터로부터 빈번하게 발생되는 웹 페이지들의 방문 시퀀스를 탐색하는 기법 역시 효과적인 웹 사이트를 설계하기 위한 목적으로 많이 연구되어 왔다. 그러나 기존의 방법들은 모두 여러 번의 데이터베이스 스캔을 필요로 하는 방법으로 지속적으로 생성되는 웹 로그 데이터로부터 빠르게 실시간적으로 웹 페이지 방문 시퀀스를 탐색하기에는 많은 어려움이 있었다. 또한 점진적(incremental)이고 대화형식(interactive)의 탐색 기법 역시 지속적으로 생성되는 웹 로그 데이터를 처리하기 위하여 필요한 기능들이다. 본 논문에서는 지속적으로 생성되는 웹 로그 데이터로부터 단일 스캔을 통하여 빈번히 발생하는 웹 페이지 방문 시퀀스를 점진적이고 대화 형식적인 방법으로 탐색하는 방법을 제안한다. 제안하는 방법은 WTS(web traversal sequence)-트리 구조를 사용하며 다양한 실험을 통하여 기존의 방법들에 비해 성능적으로 우수하고 효과적인 방범임을 증명한다.

유사 시퀀스 매칭을 위한 하이브리드 저차원 변환 (Hybrid Lower-Dimensional Transformation for Similar Sequence Matching)

  • 문양세;김진호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.31-40
    • /
    • 2008
  • 유사 시퀀스 매칭에서는 고차원인 시퀀스를 저차원의 점으로 변환하기 위하여 저차원 변환을 사용한다. 그런데, 이러한 저차원 변환은 시계열 데이터의 종류에 따라 인덱싱 성능에 있어서 큰 차이를 나타낸다. 즉, 어떤 저차원 변환을 선택하느냐가 유사 시퀀스 매칭의 인덱싱 성능에 큰 영향을 주게 된다. 이 문제를 해결하기 위하여, 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 제안한다. 먼저, 하나의 시퀀스에 두 개 이상의 저차원 변환을 적용하는 하이브리드 저차원 변환의 개념을 제안하고, 변환된 시퀀스간의 거리를 계산하는 하이브리드 거리를 정의한다. 다음으로, 이러한 하이브리드 접근법 사용하면 유사 시퀀스 매칭을 정확하게 수행할 수 있음을 정형적으로 증명한다. 또한, 제안한 하이브리드 접근법을 사용하는 인덱스 구성 및 유사 시퀀스 매칭 알고리즘을 제시한다. 다양한 시계열 데이터에 대한 실험 결과, 제안한 하이브리드 접근법은 단일 저차원 변환을 사용하는 경우에 비해서 우수한 성능을 보이는 것으로 나타났다. 이 같은 결과를 볼 때, 제안한 하이브리드 접근법은 다양한 특성을 지닌 다양한 시계열 데이터에 두루 적용될 수 있는 우수한 방법이라 사료된다.

LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기 (LSTM based sequence-to-sequence Model for Korean Automatic Word-spacing)

  • 이태석;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.17-23
    • /
    • 2018
  • 자동 띄어쓰기 특성을 효과적으로 처리할 수 있는 LSTM(Long Short-Term Memory Neural Networks) 기반의 RNN 모델을 제시하고 적용한 결과를 분석하였다. 문장이 길거나 일부 노이즈가 포함된 경우에 신경망 학습이 쉽지 않은 문제를 해결하기 위하여 입력 데이터 형식과 디코딩 데이터 형식을 정의하고, 신경망 학습에서 드롭아웃, 양방향 다층 LSTM 셀, 계층 정규화 기법, 주목 기법(attention mechanism)을 적용하여 성능을 향상시키는 방법을 제안하였다. 학습 데이터로는 세종 말뭉치 자료를 사용하였으며, 학습 데이터가 부분적으로 불완전한 띄어쓰기가 포함되어 있었음에도 불구하고, 대량의 학습 데이터를 통해 한글 띄어쓰기에 대한 패턴이 의미 있게 학습되었다. 이것은 신경망에서 드롭아웃 기법을 통해 학습 모델의 오버피팅이 되지 않도록 함으로써 노이즈에 강한 모델을 만들었기 때문이다. 실험결과로 LSTM sequence-to-sequence 모델이 재현율과 정확도를 함께 고려한 평가 점수인 F1 값이 0.94로 규칙 기반 방식과 딥러닝 GRU-CRF보다 더 높은 성능을 보였다.

패킷형 데이터를 위한 저전력 전송방법 (A Low-Power Bus Transmission Scheme for Packet-Type Data)

  • 윤명철
    • 대한전자공학회논문지SD
    • /
    • 제41권7호
    • /
    • pp.71-79
    • /
    • 2004
  • 패킷형 데이터전송은 다량의 데이터가 연속적으로 전달되는 특성이 있다. 이와 같은 데이터를 버스를 통하여 전송할 패에 데이터의 전송순서는 버스의 전력소모에 영향을 주는 하나의 요소로서 작용한다. 본 논문에서는 패킷형 데이터를 전송할 때 데이터의 전송순서를 변화시켜 버스의 전이횟수를 줄임으로써 버스의 소비전력을 감소시키는 순서변환코딩 (Sequence-Switch Coding, SSC)을 제안하였다. 또한 SSC를 구현하는 알고리즘을 개발하였으며, 실험을 통하여 이들 알고리즘으로 기존의 널리 알려진 Bus-Invert Coding보다 우수한 성능을 얻을 수 있음을 보였다. SSC는 버스의 소비전력을 줄이는 하나의 방법이며, 이를 실현하는 알고리즘은 무수히 많다. 알고리즘의 다양성은 SSC가 갖는 하나의 장점으로써 회로설계자에게 버스의 소비전력과 회로의 구현부담 사이에서 넓은 범위에 걸쳐 절충할 수 있는 자유를 제공해 준다.

러프 셋 이론을 이용한 시퀀스 데이터의 클러스터링 알고리즘 (A Clustering Algorithm for Sequence Data Using Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.113-119
    • /
    • 2008
  • 월드 와이드 웹에는 거대한 양의 하이퍼링크들과 웹 사용 정보들을 포함하고 있는 동적인 페이지들이 모여 있다. 이러한 구조화되어 있지 않은 웹 데이터들과 온라인 정보들의 폭발적인 증가로 인해 효율적인 웹 데이터 마이닝 툴이 필요로 하게 되었다. 최근에는 웹 사용자들의 특성을 자동적으로 발견하기 위한 Web usage mining 분야에서 많은 연구가 진행되고 있다. 본 연구에서는 웹 사용자들의 방문 기록, 단백질 시퀀스, 소매점 거래 데이터 등과 같은 시퀀스 데이터를 분석하는 방법에 대하여 연구한다. 러프 셋 이론을 이용하여 시퀀스 데이터들을 클러스터링 하는 방법을 제안하고, 간단한 예제를 통하여 제안하는 절차를 소개하고 splice 데이터셋과 합성 데이터셋을 통한 실험 결과를 제시한다.

  • PDF

An XPDL-Based Workflow Control-Structure and Data-Sequence Analyzer

  • Kim, Kwanghoon Pio
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1702-1721
    • /
    • 2019
  • A workflow process (or business process) management system helps to define, execute, monitor and manage workflow models deployed on a workflow-supported enterprise, and the system is compartmentalized into a modeling subsystem and an enacting subsystem, in general. The modeling subsystem's functionality is to discover and analyze workflow models via a theoretical modeling methodology like ICN, to graphically define them via a graphical representation notation like BPMN, and to systematically deploy those graphically defined models onto the enacting subsystem by transforming into their textual models represented by a standardized workflow process definition language like XPDL. Before deploying those defined workflow models, it is very important to inspect its syntactical correctness as well as its structural properness to minimize the loss of effectiveness and the depreciation of efficiency in managing the corresponding workflow models. In this paper, we are particularly interested in verifying very large-scale and massively parallel workflow models, and so we need a sophisticated analyzer to automatically analyze those specialized and complex styles of workflow models. One of the sophisticated analyzers devised in this paper is able to analyze not only the structural complexity but also the data-sequence complexity, especially. The structural complexity is based upon combinational usages of those control-structure constructs such as subprocesses, exclusive-OR, parallel-AND and iterative-LOOP primitives with preserving matched pairing and proper nesting properties, whereas the data-sequence complexity is based upon combinational usages of those relevant data repositories such as data definition sequences and data use sequences. Through the devised and implemented analyzer in this paper, we are able eventually to achieve the systematic verifications of the syntactical correctness as well as the effective validation of the structural properness on those complicate and large-scale styles of workflow models. As an experimental study, we apply the implemented analyzer to an exemplary large-scale and massively parallel workflow process model, the Large Bank Transaction Workflow Process Model, and show the structural complexity analysis results via a series of operational screens captured from the implemented analyzer.

RNN과 강화 학습을 이용한 자동 문서 제목 생성 (Automatic Document Title Generation with RNN and Reinforcement Learning)

  • 조성민;김우생
    • Journal of Information Technology Applications and Management
    • /
    • 제27권1호
    • /
    • pp.49-58
    • /
    • 2020
  • Lately, a large amount of textual data have been poured out of the Internet and the technology to refine them is needed. Most of these data are long text and often have no title. Therefore, in this paper, we propose a technique to combine the sequence-to-sequence model of RNN and the REINFORCE algorithm to generate the title of the long text automatically. In addition, the TextRank algorithm was applied to extract a summarized text to minimize information loss in order to protect the shortcomings of the sequence-to-sequence model in which an information is lost when long texts are used. Through the experiment, the techniques proposed in this study are shown to be superior to the existing ones.

Sequence driven features for prediction of subcellular localization of proteins

  • Kim, Jong-Kyoung;Bang, Sung-Yang;Choi, Seung-Jin
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.237-242
    • /
    • 2005
  • Predicting the cellular location of an unknown protein gives a valuable information for inferring the possible function of the protein. For more accurate prediction system, we need a good feature extraction method that transforms the raw sequence data into the numerical feature vector, minimizing information loss. In this paper, we propose new methods of extracting underlying features only from the sequence data by computing pairwise sequence alignment scores. In addition, we use composition based features to improve prediction accuracy. To construct an SVM ensemble from separately trained SVM classifiers, we propose specificity based weighted majority voting. The overall prediction accuracy evaluated by the 5-fold cross-validation reached 88.53% for the eukaryotic animal data set. By comparing the prediction accuracy of various feature extraction methods, we could get the biological insight on the location of targeting information. Our numerical experiments confirm that our new feature extraction methods are very useful for predicting subcellular localization of proteins.

  • PDF

Memory Tester 알고리즘의 VHDL Chip Set 설계 및 검증 (VHDL Chip Set Design and implementation for Memory Tester Algorithm)

  • 정지원;강창헌;최창;박종식
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 학술회의 논문집 정보 및 제어부문 B
    • /
    • pp.924-927
    • /
    • 2003
  • In this paper, we design the memory tester chip set playing an important role in the memory tester as central parts. Memory tester has the sixteen inner instructions to control the test sequence and the address and data signals to DUT. These instructions are saved in memory with each chip such as sequence chip and address/data generator chip. Sequence chip controls the test sequence according to instructions saved in the memory. And Generator chip generates the address and data signals according to instructions saved in the memory, too.

  • PDF

Converting Panax ginseng DNA and chemical fingerprints into two-dimensional barcode

  • Cai, Yong;Li, Peng;Li, Xi-Wen;Zhao, Jing;Chen, Hai;Yang, Qing;Hu, Hao
    • Journal of Ginseng Research
    • /
    • 제41권3호
    • /
    • pp.339-346
    • /
    • 2017
  • Background: In this study, we investigated how to convert the Panax ginseng DNA sequence code and chemical fingerprints into a two-dimensional code. In order to improve the compression efficiency, GATC2Bytes and digital merger compression algorithms are proposed. Methods: HPLC chemical fingerprint data of 10 groups of P. ginseng from Northeast China and the internal transcribed spacer 2 (ITS2) sequence code as the DNA sequence code were ready for conversion. In order to convert such data into a two-dimensional code, the following six steps were performed: First, the chemical fingerprint characteristic data sets were obtained through the inflection filtering algorithm. Second, precompression processing of such data sets is undertaken. Third, precompression processing was undertaken with the P. ginseng DNA (ITS2) sequence codes. Fourth, the precompressed chemical fingerprint data and the DNA (ITS2) sequence code were combined in accordance with the set data format. Such combined data can be compressed by Zlib, an open source data compression algorithm. Finally, the compressed data generated a two-dimensional code called a quick response code (QR code). Results: Through the abovementioned converting process, it can be found that the number of bytes needed for storing P. ginseng chemical fingerprints and its DNA (ITS2) sequence code can be greatly reduced. After GTCA2Bytes algorithm processing, the ITS2 compression rate reaches 75% and the chemical fingerprint compression rate exceeds 99.65% via filtration and digital merger compression algorithm processing. Therefore, the overall compression ratio even exceeds 99.36%. The capacity of the formed QR code is around 0.5k, which can easily and successfully be read and identified by any smartphone. Conclusion: P. ginseng chemical fingerprints and its DNA (ITS2) sequence code can form a QR code after data processing, and therefore the QR code can be a perfect carrier of the authenticity and quality of P. ginseng information. This study provides a theoretical basis for the development of a quality traceability system of traditional Chinese medicine based on a two-dimensional code.