• 제목/요약/키워드: heterogeneous data learning

검색결과 99건 처리시간 0.026초

Self-supervised Graph Learning을 통한 멀티모달 기상관측 융합 (Multi-modal Meteorological Data Fusion based on Self-supervised Learning for Graph)

  • 전현주;강전호;권인혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.589-591
    • /
    • 2023
  • 현재 수치예보 시스템은 항공기, 위성 등 다양한 센서에서 얻은 다종 관측 데이터를 동화하여 대기 상태를 추정하고 있지만, 관측변수 또는 물리량이 서로 다른 관측들을 처리하기 위한 계산 복잡도가 매우 높다. 본 연구에서 기존 시스템의 계산 효율성을 개선하여 관측을 평가하거나 전처리하는 데에 효율적으로 활용하기 위해, 각 관측의 특성을 고려한 자기 지도학습 방법을 통해 멀티모달 기상관측으로부터 실제 대기 상태를 추정하는 방법론을 제안하고자 한다. 비균질적으로 수집되는 멀티모달 기상관측 데이터를 융합하기 위해, (i) 기상관측의 heterogeneous network를 구축하여 개별 관측의 위상정보를 표현하고, (ii) pretext task 기반의 self-supervised learning을 바탕으로 개별 관측의 특성을 표현한다. (iii) Graph neural network 기반의 예측 모델을 통해 실제에 가까운 대기 상태를 추정한다. 제안하는 모델은 대규모 수치 시뮬레이션 시스템으로 수행되는 기존 기술의 한계점을 개선함으로써, 이상 관측 탐지, 관측의 편차 보정, 관측영향 평가 등 관측 전처리 기술로 활용할 수 있다.

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.57-67
    • /
    • 2021
  • 최근 딥 러닝(Deep Learning) 분석에 이질적인 데이터를 함께 사용하는 멀티모달(Multi-modal) 딥러닝 기술이 많이 활용되고 있으며, 특히 텍스트로부터 자동으로 이미지를 생성해내는 Text to Image 합성에 관한 연구가 활발하게 수행되고 있다. 이미지 합성을 위한 딥러닝 학습은 방대한 양의 이미지와 이미지를 설명하는 텍스트의 쌍으로 구성된 데이터를 필요로 하므로, 소량의 데이터로부터 다량의 데이터를 생성하기 위한 데이터 증강 기법이 고안되어 왔다. 텍스트 데이터 증강의 경우 유의어 대체에 기반을 둔 기법들이 다수 사용되고 있지만, 이들 기법은 명사 단어의 유의어 대체 시 이미지의 내용과 상이한 텍스트를 생성할 가능성이 있다는 한계를 갖는다. 따라서 본 연구에서는 단어가 갖는 품사별 특징을 활용하는 텍스트 데이터 증강 방안, 즉 일부 품사에 대해 단어 계층 정보를 활용하여 단어를 대체하는 방안을 제시하였다. 또한 제안 방법론의 성능을 평가하기 위해 MSCOCO 데이터를 사용하여 실험을 수행하여 결과를 제시하였다.

모바일 멀티모달 센서 정보의 앙상블 학습을 이용한 장소 인식 (Place Recognition Using Ensemble Learning of Mobile Multimodal Sensory Information)

  • 이충연;이범진;온경운;하정우;김홍일;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.64-69
    • /
    • 2015
  • 본 논문에서는 시각, 음향, 위치 정보를 포함하는 멀티모달 센서 입력 정보로부터 사용자가 위치한 장소의 환경 정보를 학습하고 기계학습 추론을 통해 장소를 인식하는 방법을 제안한다. 이 방법은 음영 지역에서의 정확도 감소나 추가 하드웨어 필요 등 기존 위치 정보 인식 방법이 가지는 제약을 극복 가능하고, 지도상의 단순 좌표 인식이 아닌 논리적 위치 정보 인식을 수행 가능하다는 점에서 해당 위치와 관련된 특정 정보를 활용하여 다양한 생활편의를 제공하는 위치 기반 서비스를 수행하는데 보다 효과적인 방법이 될 수 있다. 제안하는 방법에서는 스마트폰에 내장된 카메라, 마이크로폰, GPS 센서 모듈로부터 획득한 시각, 음향, 위치 정보로부터 특징 벡터들을 추출하여 학습한다. 이때 서로 다른 특성을 가진 특징 벡터들을 학습하기 위해 각각의 특징 벡터들을 서로 다른 분류기를 통해 학습한 후, 그 결과를 기반으로 최종적인 하나의 분류 결과를 얻어내는 앙상블 기법을 사용한다. 실험 결과에서는 각각의 데이터를 따로 학습하여 분류한 결과와 비교하여 높은 성능을 보였다. 또한 사용자 상황인지 기반 서비스의 성능 향상을 위한 방법으로서 제안하는 모델의 스마트폰 앱 구현을 통한 활용 가능성에 대해 논의한다.

Forecasting KOSPI Return Using a Modified Stochastic AdaBoosting

  • Bae, Sangil;Jeong, Minsoo
    • East Asian Economic Review
    • /
    • 제25권4호
    • /
    • pp.403-424
    • /
    • 2021
  • AdaBoost tweaks the sample weight for each training set used in the iterative process, however, it is demonstrated that it provides more correlated errors as the boosting iteration proceeds if models' accuracy is high enough. Therefore, in this study, we propose a novel way to improve the performance of the existing AdaBoost algorithm by employing heterogeneous models and a stochastic twist. By employing the heterogeneous ensemble, it ensures different models that have a different initial assumption about the data are used to improve on diversity. Also, by using a stochastic algorithm with a decaying convergence rate, the model is designed to balance out the trade-off between model prediction performance and model convergence. The result showed that the stochastic algorithm with decaying convergence rate's did have a improving effect and outperformed other existing boosting techniques.

유비쿼터스 학습(u-Learning)을 위한 미디에이터 기반의 분산정보 활용방법 (A Practical Method of a Distributed Information Resources Based on a Mediator for the u-Learning Environment)

  • 주길홍
    • 정보교육학회논문지
    • /
    • 제9권1호
    • /
    • pp.79-86
    • /
    • 2005
  • 컴퓨터와 통신 기술이 발전함에 따라 네트워크를 통한 일반 사용자들의 컴퓨터 활용 빈도와 요구하는 데이터의 양이 급격히 증가되었다. 이에 따라 최근의 교육 시스템들은 정보의 활용성을 향상시키기 위하여 이질적인 시스템들을 의미상으로 연결하고 있다. 따라서 최근의 웹 기반 교수-학습은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습방향으로 나아가고 있다. 즉, 학습자 개개인의 특성(선수 지식, 학습 양식, 흥미, 관심)에 맞는 적응적인 교수-학습 환경을 제공하는 방향으로 변화되고 있다. 본 논문은 유비쿼터스 학습 환경에서 다양한 분산정보의 통합을 위하여 사용자들이 요구하는 학습내용을 각 지역서버의 자치성을 유지하면서 효과적으로 학습하기 위한 미디에이터내의 처리방법에 대해 제안한다. 또한 과거와 최근의 학습내용의 활용형태가 다양하게 변할 수 있으므로 시간에 따른 감쇄율을 활용빈도에 적용하여 최근의 활용빈도의 변화에 민감하게 반응하고 활용형태의 변화에 따라 적응적으로 학습내용을 사용할 수 있는 방법을 제안한다.

  • PDF

Student Group Division Algorithm based on Multi-view Attribute Heterogeneous Information Network

  • Jia, Xibin;Lu, Zijia;Mi, Qing;An, Zhefeng;Li, Xiaoyong;Hong, Min
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.3836-3854
    • /
    • 2022
  • The student group division is benefit for universities to do the student management based on the group profile. With the widespread use of student smart cards on campus, especially where students living in campus residence halls, students' daily activities on campus are recorded with information such as smart card swiping time and location. Therefore, it is feasible to depict the students with the daily activity data and accordingly group students based on objective measuring from their campus behavior with some regular student attributions collected in the management system. However, it is challenge in feature representation due to diverse forms of the student data. To effectively and comprehensively represent students' behaviors for further student group division, we proposed to adopt activity data from student smart cards and student attributes as input data with taking account of activity and attribution relationship types from different perspective. Specially, we propose a novel student group division method based on a multi-view student attribute heterogeneous information network (MSA-HIN). The network nodes in our proposed MSA-HIN represent students with their multi-dimensional attribute information. Meanwhile, the edges are constructed to characterize student different relationships, such as co-major, co-occurrence, and co-borrowing books. Based on the MSA-HIN, embedded representations of students are learned and a deep graph cluster algorithm is applied to divide students into groups. Comparative experiments have been done on a real-life campus dataset collected from a university. The experimental results demonstrate that our method can effectively reveal the variability of student attributes and relationships and accordingly achieves the best clustering results for group division.

Numerical data-driven machine learning model to predict the strength reduction of fire damaged RC columns

  • HyunKyoung Kim;Hyo-Gyoung Kwak;Ju-Young Hwang
    • Computers and Concrete
    • /
    • 제32권6호
    • /
    • pp.625-637
    • /
    • 2023
  • The application of ML approaches in determining the resisting capacity of fire damaged RC columns is introduced in this paper, on the basis of analysis data driven ML modeling. Considering the characteristics of the structural behavior of fire damaged RC columns, the representative five approaches of Kernel SVM, ANN, RF, XGB and LGBM are adopted and applied. Additional partial monotonic constraints are adopted in modelling, to ensure the monotone decrease of resisting capacity in RC column with fire exposure time. Furthermore, additional suggestions are also added to mitigate the heterogeneous composition of the training data. Since the use of ML approaches will significantly reduce the computation time in determining the resisting capacity of fire damaged RC columns, which requires many complex solution procedures from the heat transfer analysis to the rigorous nonlinear analyses and their repetition with time, the introduced ML approach can more effectively be used in large complex structures with many RC members. Because of the very small amount of experimental data, the training data are analytically determined from a heat transfer analysis and a subsequent nonlinear finite element (FE) analysis, and their accuracy was previously verified through a correlation study between the numerical results and experimental data. The results obtained from the application of ML approaches show that the resisting capacity of fire damaged RC columns can effectively be predicted by ML approaches.

Efficient Resource Slicing Scheme for Optimizing Federated Learning Communications in Software-Defined IoT Networks

  • 담프로힘;맛사;김석훈
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.27-33
    • /
    • 2021
  • With the broad adoption of the Internet of Things (IoT) in a variety of scenarios and application services, management and orchestration entities require upgrading the traditional architecture and develop intelligent models with ultra-reliable methods. In a heterogeneous network environment, mission-critical IoT applications are significant to consider. With erroneous priorities and high failure rates, catastrophic losses in terms of human lives, great business assets, and privacy leakage will occur in emergent scenarios. In this paper, an efficient resource slicing scheme for optimizing federated learning in software-defined IoT (SDIoT) is proposed. The decentralized support vector regression (SVR) based controllers predict the IoT slices via packet inspection data during peak hour central congestion to achieve a time-sensitive condition. In off-peak hour intervals, a centralized deep neural networks (DNN) model is used within computation-intensive aspects on fine-grained slicing and remodified decentralized controller outputs. With known slice and prioritization, federated learning communications iteratively process through the adjusted resources by virtual network functions forwarding graph (VNFFG) descriptor set up in software-defined networking (SDN) and network functions virtualization (NFV) enabled architecture. To demonstrate the theoretical approach, Mininet emulator was conducted to evaluate between reference and proposed schemes by capturing the key Quality of Service (QoS) performance metrics.

Text Classification Using Heterogeneous Knowledge Distillation

  • Yu, Yerin;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.29-41
    • /
    • 2022
  • 최근 딥 러닝 기술의 발전으로 방대한 텍스트 데이터를 사전에 학습한 우수한 성능의 거대한 모델들이 다양하게 고안되었다. 하지만 이러한 모델을 실제 서비스나 제품에 적용하기 위해서는 빠른 추론 속도와 적은 연산량이 요구되고 있으며, 이에 모델 경량화 기술에 대한 관심이 높아지고 있다. 대표적인 모델 경량화 기술인 지식증류는 교사 모델이 이미 학습한 지식을 상대적으로 작은 크기의 학생 모델에 전이시키는 방법으로 다방면에 활용 가능하여 주목받고 있지만, 당장 주어진 문제의 해결에 필요한 지식만을 배우고 동일한 관점에서만 반복적인 학습이 이루어지기 때문에 기존에 접해본 문제와 유사성이 낮은 문제에 대해서는 해결이 어렵다는 한계를 갖는다. 이에 본 연구에서는 궁극적으로 해결하고자 하는 과업에 필요한 지식이 아닌, 보다 상위 개념의 지식을 학습한 교사 모델을 통해 지식을 증류하는 이질적 지식증류 방법을 제안한다. 또한, 사이킷런 라이브러리에 내장된 20 Newsgroups의 약 18,000개 문서에 대한 분류 실험을 통해, 제안 방법론에 따른 이질적 지식증류가 기존의 일반적인 지식증류에 비해 학습 효율성과 정확도의 모든 측면에서 우수한 성능을 보임을 확인하였다.

서로 다른 특성의 시계열 데이터 통합 프레임워크 제안 및 활용 (Introduction and Utilization of Time Series Data Integration Framework with Different Characteristics)

  • 황지수;문재원
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.872-884
    • /
    • 2022
  • IoT 산업 발전으로 다양한 산업군에서 서로 다른 형태의 시계열 데이터를 생성하고 있으며 이를 다시 통합하여 재생산 및 활용하는 연구로 진화하고 있다. 더불어, 실제 산업에서 데이터 처리 속도 및 활용 시스템의 이슈 등으로 인해 시계열 데이터 활용 시 데이터의 크기를 압축하여 통합 활용하는 경향이 증가하고 있다. 그러나 시계열 데이터의 통합 가이드라인이 명확하지 않고 데이터 기술 시간 간격, 시간 구간 등 각각의 특성이 달라 일괄 통합하여 활용하기 어렵다. 본 논문에서는 통합 기준 설정 방법과 시계열 데이터의 통합시 발생하는 문제점을 기반으로 두 가지의 통합 방법을 제시하였다. 이를 기반으로 시계열 데이터의 특성을 고려한 이질적 시계열 데이터 통합 프레임워크를 구성하였으며 압축된 서로 다른 이질적 시계열 데이터의 통합과 다양한 기계 학습에 활용할 수 있음을 확인하였다.