• 제목/요약/키워드: 바이오 데이터

검색결과 1,361건 처리시간 0.033초

NCBI-NR 데이터베이스의 빠른 검색을 위한 시퀀스 분배에 관한 연구 (A Study on the distribution of sequences for fast search on NCBI NR-DB)

  • 지민근;이강만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.646-648
    • /
    • 2016
  • 유전체 정보를 일정한 유전자 수로 분할하여 유전체에 대한 유전자 정보 처리를 보다 빠르고 정확하게 해석하기 위해 본 논문에서는 바이오 데이터베이스를 이용하여 유전체 내의 유전자 정보가 올바른지 확인하고 이를 사용자가 임의로 정렬하여 유전자 길이가 유동적이면서 유전체에 대한 유전자 정보가 담긴 파일들을 생성하여 유전자 데이터 해석을 수행할 수 있도록 구현하였다.

균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법 (Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine)

  • ;;최용수
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권6호
    • /
    • pp.509-521
    • /
    • 2016
  • 본 논문에서는 파킨슨 병 진단 및 바이오 표지자 검출을 위한 극한 기계학습을 결합하는 새로운 균형 표본 유전 알고리즘(SBGA-ELM)을 제안하였다. 접근법은 정확한 파킨슨 병 진단 및 바이오 표지자 검출을 위해 공개 파킨슨 병 데이터베이스로부터 22,283개의 유전자의 발현 데이터를 사용하며 다음의 두 가지 주요 단계를 포함하였다 : 1. 특징(유전자) 선택과 2. 분류단계이다. 특징 선택 단계에서는 제안된 균형 표본 유전 알고리즘에 기반하고 파킨스병 데이터베이스(ParkDB)의 유전자 발현 데이터를 위해 고안되었다. 제안된 제안 된 SBGA는 추가적 분석을 위해 ParkDB에서 활용 가능한 22,283개의 유전자 중에서 강인한 서브셋을 찾는다. 특징분류 단계에서는 정확한 파킨슨 병 진단을 위해 선택된 유전자 세트가 극한 기계학습의 훈련에 사용된다. 발견 된 강인한 유전자 서브세트는 안정된 일반화 성능으로 파킨슨 병 진단을 할 수 있는 ELM 분류기를 생성하게 된다. 제안된 연구에서 강인한 유전자 서브셋은 파킨슨병을 관장할 것으로 예측되는 24개의 바이오 표지자를 발견하는 데도 사용된다. 논문을 통해 발견된 강인 유전자 하위 집합은 SVM이나 PBL-McRBFN과 같은 기존의 파킨슨 병 진단 방법들을 통해 검증되었다. 실시된 두 가지 방법(SVM과 PBL-McRBFN)에 대해 모두 최대 일반화 성능을 나타내었다.

산업용 음성 DB 메타데이터 표준화 (Standardization of XML based Meta-data for Industrial Speech Databases)

  • 주영희;홍기형
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.211-214
    • /
    • 2005
  • 본고에서는 산업용 음성 DB를 위한 XML 기반 메타데이터의 표준화에 대한 현재 상황과 표준화 활동에 대하여 소개한다. 산업용 음성 DB는 구축에 많은 시간과 비용을 요구하며, 양질의 음성 처리 시스템 (인식/합성/인증)의 개발을 위해서는 가능한 많은 양의 음성 데이터가 필요하다. 산업용 음성 DB 메타데이터 표준화는 서로 다른 기관에서 구축한 음성 DB의 공유와 재사용을 원활히 하기 위하여, 2004년 9월부터 요구사항 분석을 시작하여, 2005년 3월 초안이 완성되었다. 본 표준안은 음성 DB 메타데이터의 구조를 XML 기반으로 정의한 것이며, 음성 파일 이름, 화자 식별자, 음소 기호와 같은 구조 외의 표준화 대상에 대해서는 다루지 않는다. 이미 ETRI와 SiTEC [5]에서 XML 기반의 메타데이터 구조와 내용 표준안을 제안한 바 있으나. [5]에서 제안한 구조는 평면 구조를 취하고 있어 내용의 중복성등의 단점이 있어, 이를 보완하여 음성 DB 데이터 모델을 객체지향 방식으로 설계하였다.

  • PDF

빅데이터 활용을 위한 클라우드 기반의 링크드 데이터 인덱싱 시스템 (Linked Data Indexing System for Big Data Processing on the Cloud System)

  • 이민아;정진욱;김응희;김홍기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1596-1598
    • /
    • 2013
  • 2000년대 초반 등장한 시맨틱 웹 기술은 최근 재조명을 받고 있다. 이는 초기에 구축된 시맨틱 데이터와 최근에 구축하는 시맨틱 데이터의 양적 비교를 통해서도 알 수 있다. 그러나 기존의 시맨틱웹 기술은 대용량 데이터를 처리하는데 어려움이 많아, 이를 처리하기 위한 기술이 중요한 문제로 대두되고 있다. 본 논문에서는 앞에서 말한 바와 같이, 기존 RDF Repository의 대안으로, 다양한 데이터 베이스를 복합적으로 사용하였다. RDF 데이터를 효율적으로 처리하기 위해, NoSQL DB와 메모리 기반 관계형 DB를 활용하여 시스템을 구성하였다. 또한, 사용자가 이에 대한 별도의 지식 없이 기존의 SPARQL 질의를 그대로 사용하여, 원하는 결과를 얻을 수 있는 시스템을 제안한다.

고속 빅데이터 전송 기반의 오픈 분산 컴퓨팅 플랫폼 개발 및 연구 (Open Distributed Cloud Computing based on High-Speed Big Data Transfer)

  • 김기현;문정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.38-41
    • /
    • 2021
  • 최근 빅데이터, 인공지능 키워드를 이용한 다양한 연구들이 진행되고 있으며, 인공지능 연구를 통해 자동화 자율화를 위한 연구들이 주를 이루고 있다. 인공지능 연구를 수행하기 위해서는 거대한 데이터를 빠르게 전송해야하며, 인공지능을 손쉽게 수행하기 위한 플랫폼이 필요하다. 하지만 많은 연구기관에서는 빅데이터 전송 속도의 한계가 존재하며, 인공지능 알고리즘 수행을 위한 플랫폼 또한 부족한 것이 현실이다. 이를 해결하기 위해 ScienceDMZ 기술을 활용하여 고속의 빅데이터 전송을 위한 인프라를 구축하고, 엣지 컴퓨팅 기반의 오픈 분산 컴퓨팅 플랫폼을 개발한다. 이 시스템을 통해 사용자들에게 빅데이터를 빠르게 전송하고 전송된 데이터를 이용하여 바로 인공지능 연구를 수행하여 결과를 도출할 수 있는 시스템을 구축하고자 한다. 이 시스템을 이용하여 GPU 분산 컴퓨팅을 수행하였을 때 성능과 GPU 병렬 컴퓨팅을 수행하였을 때의 결과를 비교하여 성능을 검증하고자 한다.

IP 카메라와 클라우드 기반 스마트 해상물류 창고 관리 시스템 (Cloud-based smart maritime logistics warehouse management system with IP cameras)

  • 류강현;강대훈;김동민;김민호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1082-1083
    • /
    • 2023
  • 우리나라의 수출입 대부분은 해상을 통해 이루어지고 있으나 항만의 물류 창고는 데이터 네트워크를 통한 유기적인 화물의 출입과 현황관리가 부족한 실정이다. 이는 부족한 데이터 네트워크 인프라와 CCTV에 의한 아날로그 영상 데이터에 의존하는 기존 시스템의 한계로 인해 기인하는 바가 크다. 이에 IP 카메라와 엣지 디바이스의 영상분석에 의한 개별 화물 창고의 디지털 현황 분석 기반을 구축하고 분산된 개별 화물 창고의 데이터를 클라우드에 위치한 중앙 집중 데이터 분석 시스템을 구축하여 유연한 개별 화물 창고 관리와 지속적인 모니터링 기반을 제공한다. 사용자 인터페이스는 웹 기반으로 구축하여 항만 화물 관계자에게 편의성과 위치에 구애받지 않는 서비스를 제공한다. 이 과정에서 사설 IoT 네트워크를 통한 최소한의 시공비용으로 항만 내 인터넷 데이터 네트워크를 구축하여 향후 항만 내 다양한 데이터 서비스를 위한 초석을 제공한다.

삼성 안드로이드 스마트폰의 진단데이터 분석 (Analyze Diagnostic Data from Samsung Android Smartphones)

  • 조형철;김준기;박정흠
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.479-491
    • /
    • 2024
  • 안드로이드 제조사는 전 세계 사용자에게 서비스 품질 개선을 목적으로 진단데이터를 수집한다. 이러한 안드로이드 제조사가 수집하는 진단데이터의 내용과 동작 주기에 대해서는 알려진 바 없다. 우리는 스마트폰 제조사 중 안드로이드 시장에서 가장 높은 점유율을 가진 삼성 스마트폰을 대상으로 진단데이터 수집 행위를 분석하여어떤 진단데이터가 네트워크 패킷을 통해 서버와 통신하는지, 진단데이터 수집을 진행하는 시스템 앱이 어떻게 작동하는지 그리고 진단데이터가 사용자 개인정보를 침해하는지를 분석한다.

Google Analytics API를 연동한 R 프로그래밍 데이터 시각화 (Data Visualization of R Programming using Google Analytics API)

  • 안장근;장시웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.290-293
    • /
    • 2017
  • 최근 IoT 기술발달로 인한 스마트폰 및 대용량 미디어기기 사용증가로 인터넷 네트워크 사용량이 폭발적으로 증가되고 있고, 이러한 데이터 사용량 급증으로 대량의 데이터를 지칭하는 빅데이터 수집 및 분석에 많은 기업과 정부가 주목하고 있다. 빅데이터는 기존에 없던 새로운 데이터의 구축이 아니며, 그동안 축적된 다방면의 방대한 데이터의 집합이라 할 수 있다. 빅데이터의 이용 및 분석에 대한 기업 정부 학계의 수요는 증가하고 있지만, 고난도의 빅데이터 분석을 위한 인프라 구축이 선결과제이어서, 이러한 인프라구축 비용 때문에 빅데이터 분석이 일선 산업분야에 바로 적용하는데 많은 장애요인이 되어 데이터 분석가들의 빅데이터 분석에 애로사항으로 존재하고 있다. 이러한 어려움을 해소하기 위한 방안으로 새로운 인프라 구축 없이 Google Analytics API를 연동한 R 프로그래밍의 데이터 시각화를 활용한 데이터 분석 방안을 제시하고자 한다. 본 연구에서는 구글 애널리틱스 API를 연동하여 사용자 웹사이트의 사용자접속, 사이트운영, 이벤트 발생 등의 데이터를 R 프로그램을 활용하여 사이트 현황을 데이터 시각화로 분석하고 운영중인 웹사이트에 적용 가능한 콘텐츠 개발 방안에 대해 연구하였다.

  • PDF

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구 (A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts)

  • 강슬기;최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.227-248
    • /
    • 2017
  • 본 논문에서는 급격히 증가하는 생의학 분야 비정형 텍스트에서 핵심적 내용을 추출할 수 있는 기계학습 기반 정보 추출시스템을 구축하기 위한 언어자원 수집 및 통합적 구조화 방안을 제안한다. 제안된 방법은 정보 추출 시스템을 크게 개체명 인식과 개체명 간 관계 추출 시스템으로 구분하고, 각각의 시스템에 적합한 학습데이터를 구성하기 위해 생의학 분야 개체명 사전과 학습 집합을 수집한다. 그리고 수집된 해당 자원들의 특성을 분석하여 개체 구별을 위해 필수적으로 포함시켜야 할 항목들을 도출하고 이를 통해 시스템 학습과정에서 사용될 학습 데이터를 구성하기 위한 항목을 선정한다. 이와 같이 선정된 학습데이터의 구성 내용에 따라 수집된 자원들을 가공하여 학습 데이터를 구축한다. 본 연구에서는 생의학 분야의 하위 분야인 유전자, 단백질, 질병, 약물 4개 분야에 대한 개체명 사전과 학습 집합을 수집하여 각각을 학습 데이터로 구축하였으며, 개체명 사전을 통해 구축된 개체명 인식용 학습 데이터를 대상으로 개체명 수용 범위를 측정하기 위한 검증 과정을 수행하였다.

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.