• 제목/요약/키워드: Seq2Seq(Sequence to Sequence)

검색결과 47건 처리시간 0.029초

Seq2SPARQL: 신경망 기계 번역을 사용한 지식 베이스 질의 언어 자동 생성 (Seq2SPARQL: Automatic Generation of Knowledge base Query Language using Neural Machine Translation)

  • 홍동균;심홍매;김광민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.898-900
    • /
    • 2019
  • SPARQL(SPARQL Protocol and RDF Query Language)은 지식 베이스를 위한 표준 시맨틱 질의 언어이다. 최근 인공지능 분야에서 지식 베이스는 질의 응답 시스템, 시맨틱 검색 등 그 활용성이 커지고 있다. 그러나 SPARQL 과 같은 질의 언어를 사용하기 위해서는 질의 언어의 문법을 이해하기 때문에, 일반 사용자의 경우에는 그 활용성이 제한될 수밖에 없다. 이에 본 논문은 신경망 기반 기계 번역 기술을 활용하여 자연어 질의로부터 SPARQL 을 생성하는 방법을 제안한다. 우리는 제안하는 방법을 대규모 공개 지식 베이스인 Wikidata 를 사용해 검증하였다. 우리는 실험에서 사용할 Wikidata 에 존재하는 영화 지식을 묻는 자연어 질의-SPARQL 질의 쌍 20,000 건을 생성하였고, 여러 sequence-to-sequence 모델을 비교한 실험에서 합성곱 신경망 기반의 모델이 BLEU 96.8%의 가장 좋은 결과를 얻음을 보였다.

Deep Learning-based Delinquent Taxpayer Prediction: A Scientific Administrative Approach

  • YongHyun Lee;Eunchan Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권1호
    • /
    • pp.30-45
    • /
    • 2024
  • This study introduces an effective method for predicting individual local tax delinquencies using prevalent machine learning and deep learning algorithms. The evaluation of credit risk holds great significance in the financial realm, impacting both companies and individuals. While credit risk prediction has been explored using statistical and machine learning techniques, their application to tax arrears prediction remains underexplored. We forecast individual local tax defaults in Republic of Korea using machine and deep learning algorithms, including convolutional neural networks (CNN), long short-term memory (LSTM), and sequence-to-sequence (seq2seq). Our model incorporates diverse credit and public information like loan history, delinquency records, credit card usage, and public taxation data, offering richer insights than prior studies. The results highlight the superior predictive accuracy of the CNN model. Anticipating local tax arrears more effectively could lead to efficient allocation of administrative resources. By leveraging advanced machine learning, this research offers a promising avenue for refining tax collection strategies and resource management.

문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론 (A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean)

  • 박주희;박원준;서희철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-448
    • /
    • 2018
  • 웹검색 결과의 품질 향상을 위해서는 질의의 정확한 매칭 뿐만이 아니라, 서로 같은 대상을 지칭하는 한글 문자열과 영문 문자열(예: 네이버-naver)의 매칭과 같은 유연한 매칭 또한 중요하다. 본 논문에서는 문장대문장 학습을 통해 영문 문자열을 한글 문자열로 음차변환하는 방법론을 제시한다. 또한 음차변환 결과로 얻어진 한글 문자열을 동일 영문 문자열의 다양한 음차변환 결과와 매칭시킬 수 있는 발음 유사성 기반 부분 매칭 방법론을 제시하고, 위키피디아의 리다이렉트 키워드를 활용하여 이들의 성능을 정량적으로 평가하였다. 이를 통해 본 논문은 문장대문장 학습 기반의 음차 변환 결과가 복잡한 문맥을 고려할 수 있으며, Damerau-Levenshtein 거리의 계산에 자모 유사도를 활용하여 기존에 비해 효과적으로 한글 키워드들 간의 부분매칭이 가능함을 보였다.

  • PDF

다양한 동작 학습을 위한 깊은신경망 구조 비교 (A Comparison of Deep Neural Network Structures for Learning Various Motions)

  • 박수환;이제희
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.73-79
    • /
    • 2021
  • 최근 컴퓨터 애니메이션 분야에서는 기존의 유한상태기계나 그래프 기반의 방식들에서 벗어나 딥러닝을 이용한 동작 생성 방식이 많이 연구되고있다. 동작 학습에 요구되는 네트워크의 표현력은 학습해야하는 동작의 단순한 길이보다는 그 안에 포함된 동작의 다양성에 더 큰 영향을 받는다. 본 연구는 이처럼 학습해야하는 동작의 종류가 다양한 경우에 효율적인 네트워크 구조를 찾는것을 목표로 한다. 기본적인 fully-connected 구조, 여러개의 fully-connected 레이어를 병렬적으로 사용하는 mixture of experts구조, seq2seq처리에 널리 사용되는 순환신경망(RNN), 그리고 최근 시퀀스 형태의 데이터 처리를 위해 자연어 처리 분야에서 사용되고있는 transformer구조의 네트워크들을 각각 학습하고 비교한다.

실내 사람 위치 추적 기반 LSTM 모델을 이용한 고객 혼잡 예측 연구 (An Approach Using LSTM Model to Forecasting Customer Congestion Based on Indoor Human Tracking)

  • 채희주;곽경헌;이다연;김은경
    • 한국시뮬레이션학회논문지
    • /
    • 제32권3호
    • /
    • pp.43-53
    • /
    • 2023
  • 본 연구는 실내 상업적 공간, 특히 카페에서 보안 카메라를 이용해 방문자 수와 위치를 실시간으로 파악하고, 이를 통해 사용 가능한 좌석 정보와 혼잡도 예측을 제공하는 시스템의 개발을 목표로 한다. 우리는 실시간 객체 탐지 및 추적 알고리즘인 YOLO를 활용하여 방문자 수와 위치를 실시간으로 파악하며, 이 정보를 카페 실내 지도에 업데이트하여 카페 방문자가 사용 가능한 좌석을 확인할 수 있도록 한다. 또한, 우리는 vanishing gradient문제를 해결한 장단기 메모리(Long Short Term Memory, LSTM)와 시간적인 관계를 가지는 데이터를 처리하는데 유용한 시퀀스-투-시퀀스(Sequence-to-Sequence, Seq2Seq)기법을 활용해 다양한 시간 간격에 따른 방문자 수와 움직임 패턴을 학습하고, 이를 바탕으로 카페의 혼잡도를 실시간으로 예측하는 시스템을 개발하였다. 이 시스템은 카페의 관리자와 이용자 모두에게 예상 혼잡도를 제공함으로써, 카페의 운영 효율성을 향상시키고, 고객 만족도를 높일 수 있다. 본 연구에서는 보안 카메라를 활용한 실내 위치 추적 기술의 효용성을 입증하며, 상업적 공간에서의 활용 가능성과 더불어 미래 연구 방향을 제시한다.

Computational approaches for prediction of protein-protein interaction between Foot-and-mouth disease virus and Sus scrofa based on RNA-Seq

  • Park, Tamina;Kang, Myung-gyun;Nah, Jinju;Ryoo, Soyoon;Wee, Sunghwan;Baek, Seung-hwa;Ku, Bokkyung;Oh, Yeonsu;Cho, Ho-seong;Park, Daeui
    • 한국동물위생학회지
    • /
    • 제42권2호
    • /
    • pp.73-83
    • /
    • 2019
  • Foot-and-Mouth Disease (FMD) is a highly contagious trans-boundary viral disease caused by FMD virus, which causes huge economic losses. FMDV infects cloven hoofed (two-toed) mammals such as cattle, sheep, goats, pigs and various wildlife species. To control the FMDV, it is necessary to understand the life cycle and the pathogenesis of FMDV in host. Especially, the protein-protein interaction between FMDV and host will help to understand the survival cycle of viruses in host cell and establish new therapeutic strategies. However, the computational approach for protein-protein interaction between FMDV and pig hosts have not been applied to studies of the onset mechanism of FMDV. In the present work, we have performed the prediction of the pig's proteins which interact with FMDV based on RNA-Seq data, protein sequence, and structure information. After identifying the virus-host interaction, we looked for meaningful pathways and anticipated changes in the host caused by infection with FMDV. A total of 78 proteins of pig were predicted as interacting with FMDV. The 156 interactions include 94 interactions predicted by sequence-based method and the 62 interactions predicted by structure-based method using domain information. The protein interaction network contained integrin as well as STYK1, VTCN1, IDO1, CDH3, SLA-DQB1, FER, and FGFR2 which were related to the up-regulation of inflammation and the down-regulation of cell adhesion and host defense systems such as macrophage and leukocytes. These results provide clues to the knowledge and mechanism of how FMDV affects the host cell.

K-mer Based RNA-seq Read Distribution Method For Accelerating De Novo Transcriptome Assembly

  • Kwon, Hwijun;Jung, Inuk
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 드노보 전사체 어셈블리의 수행시간을 단축하기 위해 RNA-seq 서열을 유전자계 정보를 활용하여 여러 노드로 분산이 가능한 방법을 제시한다. 제안하는 전사체 서열 데이터 분산기법의 성능을 측정하기 위해 애기장대의 리드를 4개의 데이터 셋(전체 비분류 리드, 완전 분류 리드, 모델 분류 리드, 무작위 분류 리드)으로 구성하여 실험을 수행하였다. 전체 비분류 데이터와 비교하여 생성된 유전자 콘티그(Contig)는 95% 일치하였고 동일한 리소스들을 사용하는 단일 노드에 비해 본 연구에서 제시하는 분산환경분산 환경 기반의 어셈블리 수행시간은 4.2배 단축되었다.

Functional Annotation and Analysis of Korean Patented Biological Sequences Using Bioinformatics

  • Lee, Byung Wook;Kim, Tae Hyung;Kim, Seon Kyu;Kim, Sang Soo;Ryu, Gee Chan;Bhak, Jong
    • Molecules and Cells
    • /
    • 제21권2호
    • /
    • pp.269-275
    • /
    • 2006
  • A recent report of the Korean Intellectual Property Office(KIPO) showed that the number of biological sequence-based patents is rapidly increasing in Korea. We present biological features of Korean patented sequences though bioinformatic analysis. The analysis is divided into two steps. The first is an annotation step in which the patented sequences were annotated with the Reference Sequence (RefSeq) database. The second is an association step in which the patented sequences were linked to genes, diseases, pathway, and biological functions. We used Entrez Gene, Online Mendelian Inheritance in Man (OMIM), Kyoto Encyclopedia of Genes and Genomes (KEGG), and Gene Ontology (GO) databases. Through the association analysis, we found that nearly 2.6% of human genes were associated with Korean patenting, compared to 20% of human genes in the U.S. patent. The association between the biological functions and the patented sequences indicated that genes whose products act as hormones on defense responses in the extra-cellular environments were the most highly targeted for patenting. The analysis data are available at http://www.patome.net

Genome-wide survey and expression analysis of F-box genes in wheat

  • Kim, Dae Yeon;Hong, Min Jeong;Seo, Yong Weon
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2017년도 9th Asian Crop Science Association conference
    • /
    • pp.141-141
    • /
    • 2017
  • The ubiquitin-proteasome pathway is the major regulatory mechanism in a number of cellular processes for selective degradation of proteins and involves three steps: (1) ATP dependent activation of ubiquitin by E1 enzyme, (2) transfer of activated ubiquitin to E2 and (3) transfer of ubiquitin to the protein to be degraded by E3 complex. F-box proteins are subunit of SCF complex and involved in specificity for a target substrate to be degraded. F-box proteins regulate many important biological processes such as embryogenesis, floral development, plant growth and development, biotic and abiotic stress, hormonal responses and senescence. However, little is known about the F-box genes in wheat. The draft genome sequence of wheat (IWGSC Reference Sequence v1.0 assembly) used to analysis a genome-wide survey of the F-box gene family in wheat. The Hidden Markov Model (HMM) profiles of F-box (PF00646), F-box-like (PF12937), F-box-like 2 (PF13013), FBA (PF04300), FBA_1 (PF07734), FBA_2 (PF07735), FBA_3 (PF08268) and FBD (PF08387) domains were downloaded from Pfam database were searched against IWGSC Reference Sequence v1.0 assembly. RNA-seq paired-end libraries from different stages of wheat, such as stages of seedling, tillering, booting, day after flowering (DAF) 1, DAF 10, DAF 20, and DAF 30 were conducted and sequenced by Illumina HiSeq2000 for expression analysis of F-box protein genes. Basic analysis including Hisat, HTseq, DEseq, gene ontology analysis and KEGG mapping were conducted for differentially expressed gene analysis and their annotation mappings of DEGs from various stages. About 950 F-box domain proteins identified by Pfam were mapped to wheat reference genome sequence by blastX (e-value < 0.05). Among them, more than 140 putative F-box protein genes were selected by fold changes cut-offs of > 2, significance p-value < 0.01, and FDR<0.01. Expression profiling of selected F-box protein genes were shown by heatmap analysis, and average linkage and squared Euclidean distance of putative 144 F-box protein genes by expression patterns were calculated for clustering analysis. This work may provide valuable and basic information for further investigation of protein degradation mechanism by ubiquitin proteasome system using F-box proteins during wheat development stages.

  • PDF

Identification of Hemimethylcted DNA Binding Activity in the seqA Mutant

  • Lee, Ho;Kang, Suk-Hyun;Yim, Jeong-Bin;Hwang, Deog-Su
    • Animal cells and systems
    • /
    • 제2권3호
    • /
    • pp.351-353
    • /
    • 1998
  • A 245 bp segment of E. coli chromosomal replication origin, oriC, contains 11 repeats of the GATC sequence in which adenine is methylated by Dam methylase. Newly replicated oriC is hemimethylated. The parental strand of the newly replicated oriC is methylated, but the nascent strand is not yet methylated until methylated by Dam methylase. The hemimethylated oriC plays an important role in the regulation of chromosomal replication. Activity in the seqA mutant was identified to bind preferentially to hemimethylated DNA, but not to fully-methylated DNA. This activity may participate in the sequestration of initiation of chromosomal replication.

  • PDF