• 제목/요약/키워드: Multimodal data

검색결과 151건 처리시간 0.029초

Single-Cell Molecular Barcoding to Decode Multimodal Information Defining Cell States

  • Ik Soo Kim
    • Molecules and Cells
    • /
    • 제46권2호
    • /
    • pp.74-85
    • /
    • 2023
  • Single-cell research has provided a breakthrough in biology to understand heterogeneous cell groups, such as tissues and organs, in development and disease. Molecular barcoding and subsequent sequencing technology insert a single-cell barcode into isolated single cells, allowing separation cell by cell. Given that multimodal information from a cell defines precise cellular states, recent technical advances in methods focus on simultaneously extracting multimodal data recorded in different biological materials (DNA, RNA, protein, etc.). This review summarizes recently developed single-cell multiomics approaches regarding genome, epigenome, and protein profiles with the transcriptome. In particular, we focus on how to anchor or tag molecules from a cell, improve throughputs with sample multiplexing, and record lineages, and we further discuss the future developments of the technology.

KMSAV: Korean multi-speaker spontaneous audiovisual dataset

  • Kiyoung Park;Changhan Oh;Sunghee Dong
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.71-81
    • /
    • 2024
  • Recent advances in deep learning for speech and visual recognition have accelerated the development of multimodal speech recognition, yielding many innovative results. We introduce a Korean audiovisual speech recognition corpus. This dataset comprises approximately 150 h of manually transcribed and annotated audiovisual data supplemented with additional 2000 h of untranscribed videos collected from YouTube under the Creative Commons License. The dataset is intended to be freely accessible for unrestricted research purposes. Along with the corpus, we propose an open-source framework for automatic speech recognition (ASR) and audiovisual speech recognition (AVSR). We validate the effectiveness of the corpus with evaluations using state-of-the-art ASR and AVSR techniques, capitalizing on both pretrained models and fine-tuning processes. After fine-tuning, ASR and AVSR achieve character error rates of 11.1% and 18.9%, respectively. This error difference highlights the need for improvement in AVSR techniques. We expect that our corpus will be an instrumental resource to support improvements in AVSR.

통합 CNN, LSTM, 및 BERT 모델 기반의 음성 및 텍스트 다중 모달 감정 인식 연구 (Enhancing Multimodal Emotion Recognition in Speech and Text with Integrated CNN, LSTM, and BERT Models)

  • 에드워드 카야디;한스 나타니엘 하디 수실로;송미화
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.617-623
    • /
    • 2024
  • 언어와 감정 사이의 복잡한 관계의 특징을 보이며, 우리의 말을 통해 감정을 식별하는 것은 중요한 과제로 인식된다. 이 연구는 음성 및 텍스트 데이터를 모두 포함하는 다중 모드 분류 작업을 통해 음성 언어의 감정을 식별하기 위해 속성 엔지니어링을 사용하여 이러한 과제를 해결하는 것을 목표로 한다. CNN(Convolutional Neural Networks)과 LSTM(Long Short-Term Memory)이라는 두 가지 분류기를 BERT 기반 사전 훈련된 모델과 통합하여 평가하였다. 논문에서 평가는 다양한 실험 설정 전반에 걸쳐 다양한 성능 지표(정확도, F-점수, 정밀도 및 재현율)를 다룬다. 이번 연구 결과는 텍스트와 음성 데이터 모두에서 감정을 정확하게 식별하는 두 모델의 뛰어난 능력을 보인다.

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

교통카드 기반자료를 활용한 복합대중교통망 구축 및 경로탐색 방안 연구 (A Methodology of Multimodal Public Transportation Network Building and Path Searching Using Transportation Card Data)

  • 천승훈;신성일;이영인;이창주
    • 대한교통학회지
    • /
    • 제26권3호
    • /
    • pp.233-243
    • /
    • 2008
  • 도시의 교통문제 증가로 대중교통의 중요성과 역할에 대한 인식이 높아져가고 있다. 이러한 패러다임의 변화에 반해 기존 대중교통 통행배정과 관련한 연구는 여러 측면에서 한계가 있다. 복합대중교통망의 경우, 독립수단으로 이루어지는 도로교통과는 달리 수단간 환승, 운행시간 스케줄, 대기시간, 통행요금과 같은 복잡하고 다양한 특성을 포함하기 때문에 그 분석의 어려움은 배가 될 수밖에 없다. 특히, 수도권 대중교통 통합 환승할인제의 시행에 따른 대중교통 수단간 환승통행의 증가와 이에 따른 경로선택의 변화로 대중교통의 통행행태가 변하고 있으나, 기존의 대중교통교통망 구축방법으로는 이러한 변화를 반영하기에는 한계가 있다. 최근 첨단기술의 발달에 따라 대중교통이용자의 통행정보가 실시간으로 기록되는 첨단교통카드체계가 구축 운영 중에 있다. 이러한 첨단기술의 도입은 복합대중교통망 분석에 대한 새로운 접근방법에 대한 연구를 가능하게 하였다. 이에 본 연구에서는 교통카드자료의 통행정보를 효과적으로 활용할 수 있는 대중교통망을 구축하기 위해 정류장의 위치정보와 노선정보를 활용해서 새로운 복합대중교통망을 구축하는 방안을 다음과 같이 제시하였다. 첫째, 교통카드자료의 통행정보를 활용하기 위하여 정류장 기반의 통합교통망을 구축하는 방안을 제시하였다. 둘째, 컴퓨터 기반의 프로그래밍기법을 활용한 단절된 링크의 연결방안을 통해 대중교통의 환승문제를 해결하고자 하였다. 마지막으로, 복합대중교통망의 경로탐색에 있어 가장 큰 문제가 되는 다수단간의 경로탐색에 대한 방안을 제시하였다. 본 연구에서 제시한 방안으로 복합교통망을 구축할 경우, 기존 정류장 좌표와 대중교통의 노선정보를 그대로 활용하여 교통망을 구축할 수 있어 교통망 구축이 쉬울 뿐만 아니라, 환승링크 연결과 같은 별도의 교통망 작업 없이도 대규모 교통망에서의 활용이 가능해 진다.

멀티모달 비주얼 인터페이스의 테이터형 (Data model of Multimodal Visual Interface)

  • 일리야 밀라노프;브라이언 도리알;이승룡;이영구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.240-241
    • /
    • 2011
  • Contemporary electronic healthcare systems are getting more and more complex, providing users a broad functionality, but often fail to have accessible interfaces. However, the importance of a good interface is nearly as great as of the rest of the system. Development of an intuitive multimodal interface for a healthcare system is the goal of our research work. This paper discusses data model of the interface.

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF

물류수송의 환적저항에 따른 수단선택 행태 변화 - 양회 중심으로 (study on the resistance of the transshipment of transport logistics according to the mode choice - focus of cement)

  • 이원태;김성은;김시곤;정성봉
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2010년도 춘계학술대회 논문집
    • /
    • pp.1615-1622
    • /
    • 2010
  • Recently, there has been an increase in interest from the aspects of transshipment and connection between the means of transportation. Not only for passengers but also for freight transportation as the need for transportation efficiency is growing while the importance of logistic railway transportation is emerging. The domestic freight transportation is carried out by roads, railroads, ships, and port. However, as other means of transportation, except road, is impossible for Door to Door Service, multimodal transportation accompanied by road transportation is carried out. Here, even though 'transshipment' occurs, because of the lack of basic data regarding this, it is difficult to reflect it in the demand forecasting. With respect to the Korean freight O-D, it was very difficult to have equivalent comparison on the competitiveness and availability of transportation services between the point of departure and the final destination. Taking into account the study of implementation of logit model considering the time and cost of transshipment of multimodal transportation and the transshipment resistance value upon selecting means of freight transportation on multimodal transportation was comparatively insufficient. This study consisted of questionnaire targeting shippers, and based on this, transshipment resistance value was calculated by deriving utility function. By doing so, I intend to examine the effect 'transshipment' has on selecting the means of transportation occurring from freight transportation.

  • PDF

다중 생체인식 시스템에 적합한 워터마킹 알고리즘 (An Watermarking Algorithm for Multimodal Biometric Systems)

  • 문대성;정승환;김태해;정용화;문기영
    • 정보보호학회논문지
    • /
    • 제15권4호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 논문에서는 원격 생체인식 시스템에서 생체데이터의 안전한 전송을 위한 워터마킹 기법을 제안하며, 워터마크의 삽입으로 인한 인식 성능의 상관관계를 비교한다. 특히, 원격 생체인식 시스템은 사용자의 얼굴과 지문 정보를 동시에 사용하는 다중 생체인식 시스템으로 가정한다. 다중 생체인식 시스템에 워터마킹 기법을 적용하기 위하여 우선 두 가지 가능한 시나리오를 고려한다. 첫 번째 시나리오는 얼굴의 특징 정보를 지문 영상에 워터마크로 삽입하며, 반대로 두 번째 시나리오는 지문의 특징 정보를 얼굴 영상에 삽입한다. 실험에 의해 얼굴 영상에 지문 특징정보를 워터마크로 삽입하는 것이 얼굴 및 지문인식 성능의 저하가 거의 발생하지 않음을 확인하였다.