• 제목/요약/키워드: Large tag data

검색결과 67건 처리시간 0.026초

MarSel : Large-scale Dataset에 대한 LD기반의 Marker 선택 시스템 (MarSel : The LD-based Marker Selection System for the Large-scale Datasets)

  • 김상준;여상수;김성권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.253-255
    • /
    • 2004
  • 인간(human)에게 나타나는 다양성(variation)은 인체의 유전체(genome) 안에서 발생된 SNP(Single Nucleotide Polymorphism)에 의해 나타난다고 알려져 있다. 유전체내의 SNP과 다양성에 대한 연관 연구(Associate study)를 할 때에 약 30여 억 개로 추정되는 염기서열(DNA sequence)물 모두 분석한다면 많은 비용과 시간을 필요로 할 것이다. 이런 비용과 시간을 줄이기 위친 적은 수의 대표 SNP(=tagSNP)을 찾는 연구가 현재 진행 중이다. 우리는 LD계수|D;|을 block 분할에 이용하여 생물학적인 의미를 부여한 후, 전산적인 최적해를 찾는 접근을 이용했다. 또한, 기존 연구에서는 large-scale data에 대한 처리가 불가능해서 chromosome의 일부분의 데이터에 대해서안 분석이 시도되었다. 더욱 광범위한 분석을 위해서 chromosome 단위의 처리가 필요하다. 우리는 chromosome단위의 SNP data를 한 번에 처리가 가능한 시스템인 MarSel를 구현하였다

  • PDF

Recent Advances in DNA Sequencing by End-labeled Free-Solution Electrophoresis (ELFSE)

  • Won, Jong-In
    • Biotechnology and Bioprocess Engineering:BBE
    • /
    • 제11권3호
    • /
    • pp.179-186
    • /
    • 2006
  • End-Labeled Free-Solution Electrophoresis (ELFSE) is a new technique that is a promising bioconjugate method for DNA sequencing (or separation) and genotyping by both capillary and microfluidic device electrophoresis. Because ELFSE enables high-resolution electrophoretic separation in aqueous buffer alone (i.e., without a polymer matrix), it eliminates the need to load viscous polymer networks into electrophoresis microchannels. To achieve microchannel DNA separations with high performance, ELFSE requires monodisperse perturbing entities (i.e., drag-tags), which create a large amount of frictional drag when pulled behind DNA during free-solution electrophoresis, and which have other properties suitable for microchannel electrophoresis. In this article, the theoretical concepts of ELFSE and the required characteristics of the drag-tag molecules for the ultimate performance of ELFSE are reviewed. Additionally, the merits and limitations of current drag-tags are also discussed in the context of recent experimental data of ELFSE separation (or sequencing).

언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델 (Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model)

  • 김동환
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.27-40
    • /
    • 2023
  • 스마트 기기의 보급률 증가와 더불어 코로나의 영향으로 스마트 기기를 통한 미디어 콘텐츠의 소비가 크게 늘어나고 있다. 이러한 추세와 더불어 OTT 플랫폼을 통한 미디어 콘텐츠의 시청과 콘텐츠의 양이 늘어나고 있어서 해당 플랫폼에서의 콘텐츠 추천이 중요해지고 있다. 콘텐츠 기반 추천 관련 기존 연구들은 콘텐츠의 특징을 가리키는 메타 데이터를 활용하는 경우가 대부분이었고 콘텐츠 자체의 내용적인 메타 데이터를 활용하는 경우는 부족한 상황이다. 이에 따라 본 논문은 콘텐츠의 내용적인 부분을 설명하는 제목과 시놉시스를 포함한 다양한 텍스트 데이터를 바탕으로 유사한 콘텐츠를 추천하고자 하였다. 텍스트 데이터를 학습하기 위한 모델은 한국어 언어모델 중에 성능이 우수한 KLUE-RoBERTa-large를 활용하였다. 학습 데이터는 콘텐츠 제목, 시놉시스, 복합 장르, 감독, 배우, 해시 태그 정보를 포함하는 2만여건의 콘텐츠 메타 데이터를 사용하였으며 정형 데이터로 구분되어 있는 여러 텍스트 피처를 입력하기 위해 해당 피처를 가리키는 스페셜 토큰으로 텍스트 피처들을 이어붙여서 언어모델에 입력하였다. 콘텐츠들 간에 3자 비교를 하는 방식과 테스트셋 레이블링에 다중 검수를 적용하여 모델의 유사도 분류 능력을 점검하는 테스트셋의 상대성과 객관성을 도모하였다. 콘텐츠 메타 텍스트 데이터에 대한 임베딩을 파인튜닝 학습하기 위해 장르 분류와 해시태그 분류 예측 태스크로 실험하였다. 결과적으로 해시태그 분류 모델이 유사도 테스트셋 기준으로 90%이상의 정확도를 보였고 기본 언어모델 대비 9% 이상 향상되었다. 해시태그 분류 학습을 통해 언어모델의 유사 콘텐츠 분류 능력이 향상됨을 알 수 있었고 콘텐츠 기반 필터링을 위한 언어모델의 활용 가치를 보여주었다.

Study on Tag, Trust and Probability Matrix Factorization Based Social Network Recommendation

  • Liu, Zhigang;Zhong, Haidong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권5호
    • /
    • pp.2082-2102
    • /
    • 2018
  • In recent years, social network related applications such as WeChat, Facebook, Twitter and so on, have attracted hundreds of millions of people to share their experience, plan or organize, and attend social events with friends. In these operations, plenty of valuable information is accumulated, which makes an innovative approach to explore users' preference and overcome challenges in traditional recommender systems. Based on the study of the existing social network recommendation methods, we find there is an abundant information that can be incorporated into probability matrix factorization (PMF) model to handle challenges such as data sparsity in many recommender systems. Therefore, the research put forward a unified social network recommendation framework that combine tags, trust between users, ratings with PMF. The uniformed method is based on three existing recommendation models (SoRecUser, SoRecItem and SoRec), and the complexity analysis indicates that our approach has good effectiveness and can be applied to large-scale datasets. Furthermore, experimental results on publicly available Last.fm dataset show that our method outperforms the existing state-of-art social network recommendation approaches, measured by MAE and MRSE in different data sparse conditions.

FPGA를 이용한 RFID Gen2 protocol의 구현 및 검증 (Implementation & Verification of RFID Gen2 Protocol on FPGA Prototyping board)

  • 제영대;김재림;장일수;양훈기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.869-872
    • /
    • 2008
  • 본 논문에서는 EPCglobal Class1 Gen2 protocol의 UHF(Ultra High Frequency) 대역 수동형 태그의 디지털 프로세서를 VHDL로 설계하고, FPGA를 사용한 프로토타이핑 보드를 통해 구현하여 수동형 태그의 인식률을 제고하여 본다. 제한된 인식거리로 인해 다수의 태그들을 Frame-Slotted Aloha 방식으로 인식해야하는 UHF 대역의 RFID(Radio Frequency IDentification) 환경에서, 태그들의 효율적인 응답 및 상태 천이가 가능하도록 구현하였다. 또한 C로 설계한 리더와의 UART 통신을 통하여 Gen2 Protocol의 Inventory Round가 원할히 동작함을 검증하였고, 640Kbps 태그 응답 속도에서 약 1.4ms만에 96bit EPC코드를 리더에게 전송하는 일련의 과정을 확인 할 수 있었다.

  • PDF

센서태그를 지원하는 장거리 RFID 리더 시스템 개발 (Development of Long-Range RFID Reader System supporting Sensor Tag)

  • 신동범;김대영
    • 한국통신학회논문지
    • /
    • 제34권6C호
    • /
    • pp.626-633
    • /
    • 2009
  • ISO/IEC/WD 24753은 장거리 RFID 통신을 위하여 새로운 변 복조 방법과 센서 데이터 처리를 위한 응용 프로토콜을 정의하고 있다. 이 표준안에 따르면, 태그의 주파수 오프셋은 4%이다. 일반적인 무선통신 시스템에서 많이 사용되는 동기방식의 수신기는 성능이 우수한 것으로 알려져 있으나, 만약 주파수 오프셋이 크면 성능이 저하되는 문제가 있다. 본 논문에서는 장거리 센서태그 시스템의 주파수 오프셋 문제를 해결하기 위하여 비동기 방식의 수신기 구조를 설계하였다. 본 논문에서는 4% 주파수 오프셋을 갖는 수신 신호로부터 최적 주파수를 추정하기 위하여 9쌍의 상관기로 구성되는 주파수 추정 블록을 설계 하였으며, 수신 데이터로부터 페이로드의 시작 시점을 결정하기 위하여 별도로 구성된 이중 상관기를 이용하는 SFD(Start Frame delimiter) 검출 알고리즘을 제안하였다. 본 논문에서는 앞에서 제안한 방법들을 이용하여 장거리 RFID 리더를 구현하였으며, 유/무선 시험망을 통하여 그 성능을 평가하였다. 본 논문에서 구현한 장거리 RFID 리더는 인식거리 측면에서 기존의 방법을 사용하는 RFID 리더기보다 더 우수한 성능을 나타내었다.

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

위성전자표지와 해양환경자료를 이용한 방어(Seriola quinqueradiata) 이동경로 추적 연구 (Tracking of Yellowtail Seriola quinqueradiata Migration Using Pop-up Satellite Archival Tag (PSAT) and Oceanic Environments Data)

  • 김창신;양지관;강수진;이승종;강수경
    • 한국수산과학회지
    • /
    • 제54권5호
    • /
    • pp.787-797
    • /
    • 2021
  • Yellowtail Seriola quinqueradiata tagged with a Pop-up Satellite Archival Tag (PSAT) was released off the coast of near the Moseulpo, Jeju Island and the ecological data during about 40 days was obtained. However, it is difficult to determine the spatial location of underwater ecological data. To improve the accuracy of estimating the Yellowtail migration route using temperature, suitable background field of the oceanic environment data was evaluated and used for input data. After developing of the tracking algorithm for migration route estimation, three experiment cases were estimated with ecological data among the surface layer, the mixed layer, and the whole water column. All tracking experiments move from western to eastern Jeju Island. Additionally, tracking experiment using 3D ocean numerical model reveal that it is possible to estimate the migration route using the fish ecological data of the entire water column. Therefore, using a large number of ecological data and a high-accuracy ocean numerical model to estimate the migration route seems to be a way to increase the accuracy of the tracking experiment. Moreover, the tracking algorithm of this study can be applied to small pelagic fishery using small archival electronic tags to track the migration route.

대용량 데이터처리를 위한 XML기반의 RFID 미들웨어시스템 (RFID Middleware System based on XML for Processing Large-Scale Data)

  • 박병섭
    • 한국콘텐츠학회논문지
    • /
    • 제7권7호
    • /
    • pp.31-38
    • /
    • 2007
  • 본 논문에서는 대용량 데이터 처리를 위한 XML 기반 RFID 미들웨어 시스템을 구현하였다. 개발된 RFID 미들웨어 시스템은 태그 데이터를 수집하는 리더 인터페이스, 태그 데이터를 의미있는 데이터로 가공하여 응용인터페이스에게로 전송하는 이벤트 매니저, 그리고 기존 응용과의 인터페이스를 위해 다양한 응용접근프로토콜을 지원하는 응용 인터페이스를 설계 구현하였다. 리더 인터페이스는 고정형 장비뿐만 아니라 핸드헬드 유형의 PDA형 리더도 지원하도록 어댑터 형태로 구현되었다. 구현된 미들웨어 시스템은 빠른 필터링 처리기능을 가지며, 응용프로그램 접근 프로토콜인 HTTP, XML, JMS, SOAP을 지원한다. 성능은 CPU 이용율 측면에서 성능을 입증하였다.

Applied Computational Tools for Crop Genome Research

  • Love Christopher G;Batley Jacqueline;Edwards David
    • Journal of Plant Biotechnology
    • /
    • 제5권4호
    • /
    • pp.193-195
    • /
    • 2003
  • A major goal of agricultural biotechnology is the discovery of genes or genetic loci which are associated with characteristics beneficial to crop production. This knowledge of genetic loci may then be applied to improve crop breeding. Agriculturally important genes may also benefit crop production through transgenic technologies. Recent years have seen an application of high throughput technologies to agricultural biotechnology leading to the production of large amounts of genomic data. The challenge today is the effective structuring of this data to permit researchers to search, filter and importantly, make robust associations within a wide variety of datasets. At the Plant Biotechnology Centre, Primary Industries Research Victoria in Melbourne, Australia, we have developed a series of tools and computational pipelines to assist in the processing and structuring of genomic data to aid its application to agricultural biotechnology resear-ch. These tools include a sequence database, ASTRA, for the processing and annotation of expressed sequence tag data. Tools have also been developed for the discovery of simple sequence repeat (SSR) and single nucleotide polymorphism (SNP) molecular markers from large sequence datasets. Application of these tools to Brassica research has assisted in the production of genetic and comparative physical maps as well as candidate gene discovery for a range of agronomically important traits.