• Title/Summary/Keyword: 빅데이터 기반 모델링

Search Result 103, Processing Time 0.046 seconds

A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing (스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구)

  • Min, Jae-Ki;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF

Development of a Water Information Data Platform for Integrated Water Resources Management in Seoul (서울시 통합물관리를 위한 물정보 데이터 플랫폼 구축방안)

  • Yoon, Sun Kwon;Choi, Hyeonseok;Cho, Jaepil;Jang, Suk Hwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.76-76
    • /
    • 2020
  • 국가 물관리일원화 이후, 지방하천 관리에 대한 지자체 역할과 권한이 커지고 있으며, 중앙정부의 물관리 수준에 부합하는 데이터관리 체계구축 및 지속적인 품질관리(Quality Control, QC)와 표준화(Standardization) 기술개발이 요구되고 있다. 지자체의 경우 기존의 행정구역별로 분산 관리해오던 물관리 시스템을 유역단위로 전환할 필요가 있으며, 국가하천 구간과 연계한 종합적인 관리가 필요한 실정이다. 서울시의 물관리 시스템은 자치구별로 산재해 있으며, 관리 주체 및 해당 변수에 따라 제공되는 정보가 다르고 하천유역 단위로 분류되어 있지 않다. 따라서, 서울시와 자치구, 중앙정부 및 관련 기관과의 연계성 있는 정보제공을 위한 데이터 플랫폼 구축 기술개발이 필요한 실정이다. 본 연구에서는, 빅데이터, AI 기술을 활용한 물정보의 품질관리 자동화 기술개발과 지속적인 유지관리 및 표준화 정보제공 시스템 구축 기능을 포함하는 서울시 통합물관리 데이터 플랫폼 구축 목표 모델을 제시하였으며, 서울시 물관리 체계와 관련하여 SWAT 분석을 통한 단계별 사업추진 로드맵을 도출하였다. 분석결과, 서울시 통합물관리 플랫폼 구축을 위해서는 유역별 수량-수질 통합 모니터링 및 모델링 기술개발, 빅데이터 기반 물 정보화 플랫폼 구축 기술개발, 지방하천 유역 거버넌스 구축 및 법제도 정비 방안 마련이 요구되며, 관련하여 주요 이슈(3대 핵심전략, 10개 단위과제)를 도출하여 관련 연구과제를 제안하였다. 마지막으로, 서울시 통합물관리 정책 실현을 위해서는 법제도 마련이 시급하며, 서울시 '통합물관리 기본조례' 제정을 통한 기반을 조성할 필요가 있음을 시사하였다. 또한, 다양한 분야 이해관계자 협의체인 '서울시 통합물관리위원회(가칭)'의 거버넌스를 구성하여 운영하는 것이 현실적이며, 한강유역관리 및 지방하천 관리와 관련한 중추적인 역할 수행과 쟁점 논의 등 합리적 합의가 가능할 것으로 기대한다.

  • PDF

Spatial analysis based on topic modeling using foreign tourist review data: Case of Daegu (외국인 관광객 리뷰데이터를 활용한 토픽모델링 기반의 공간분석: 대구광역시를 사례로)

  • Jung, Ji-Woo;Kim, Seo-Yun;Kim, Hyeon-Yu;Yoon, Ju-Hyeok;Jang, Won-Jun;Kim, Keun-Wook
    • Journal of Digital Convergence
    • /
    • v.19 no.8
    • /
    • pp.33-42
    • /
    • 2021
  • As smartphone-based tourism platforms have become active, policy establishment and service enhancement using review data are being made in various fields. In the case of the preceding studies using tourism review data, most of the studies centered on domestic tourists were conducted, and in the case of foreign tourist studies, studies were conducted only on data collected in some languages and text mining techniques. In this study, 3,515 review data written by foreigners were collected by designating the "Daegu attractions" keyword through the online review site. And LDA-based topic modeling was performed to derive tourism topics. The spatial approach through global and local spatial autocorrelation analysis for each topic can be said to be different from previous studies. As a result of the analysis, it was confirmed that there is a global spatial autocorrelation, and that tourist destinations mainly visited by foreigners are concentrated locally. In addition, hot spots have been drawn around Jung-gu in most of the topics. Based on the analysis results, it is expected to be used as a basic research for spatial analysis based on local government foreign tourism policy establishment and topic modeling. And The limitations of this study were also presented.

CNN and SVM-Based Personalized Clothing Recommendation System: Focused on Military Personnel (CNN 및 SVM 기반의 개인 맞춤형 피복추천 시스템: 군(軍) 장병 중심으로)

  • Park, GunWoo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.1
    • /
    • pp.347-353
    • /
    • 2023
  • Currently, soldiers enlisted in the military (Army) are receiving measurements (automatic, manual) of body parts and trying on sample clothing at boot training centers, and then receiving clothing in the desired size. Due to the low accuracy of the measured size during the measurement process, in the military, which uses a relatively more detailed sizing system than civilian casual clothes, the supplied clothes do not fit properly, so the frequency of changing the clothes is very frequent. In addition, there is a problem in that inventory is managed inefficiently by applying the measurement system based on the old generation body shape data collected more than a decade ago without reflecting the western-changed body type change of the MZ generation. That is, military uniforms of the necessary size are insufficient, and many unnecessary-sized military uniforms are in stock. Therefore, in order to reduce the frequency of clothing replacement and improve the efficiency of stock management, deep learning-based automatic measurement of body size, big data analysis, and machine learning-based "Personalized Combat Uniform Automatic Recommendation System for Enlisted Soldiers" is proposed.

A New Scheme Exploiting the Related Keyword and Big Data Analysis for Predicting Promise Technology in the Field of Satellite·Terrestrial Information Convergence Disaster Response (위성·지상정보 융합 재난 대응 기술 분야 유망기술 도출을 위한 연관 키워드 및 빅데이터 분석 기법)

  • Lee, Hangwon;Kim, Youngok
    • Journal of the Society of Disaster Information
    • /
    • v.18 no.2
    • /
    • pp.418-431
    • /
    • 2022
  • Purpose: We propose a new scheme for predicting promise technology and it improves the conventional scheme that misses important lists of patent because of insufficient search formula, and cannot reflect new trend of technology due to the unreleased period of patents. Method: In this paper, we propose a new search formula exploiting TF and TF-IDF with R programming as well as related keywords, and LDA topic modeling scheme is used for analyzing recently published papers in Satellite·Terrestrial Information Convergence Disaster Response. Result: By comparing both schemes with commercial DB, the proposed scheme can find more important patents, and can reflect new trend of technology, compared to the conventional scheme. Conclusion: The proposed scheme can be used to predict promise technologies in the field of Satellite·Terrestrial Information Convergence Disaster Response.

Efficient 3D Modeling Automation Technique for Underground Facilities Using 3D Spatial Data (3차원 공간 데이터를 활용한 지하시설물의 효율적인 3D 모델링 자동화 기법)

  • Lee, Jongseo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.11
    • /
    • pp.1670-1675
    • /
    • 2021
  • The adoption of smart construction technology in the construction industry is progressing rapidly. By utilizing smart construction technologies such as BIM (Building Information Modeling), drones, artificial intelligence, big data, and Internet of Things technology, it has the effect of lowering the accident rate at the construction site and shortening the construction period. In order to introduce a digital twin platform for construction site management, real-time construction site management is possible in real time by constructing the same virtual space. The digital twin virtual space construction method collects and processes data from the entire construction cycle and visualizes it using a 3D model file. In this paper, we introduce a modeling automation technique that constructs an efficient digital twin space by automatically generating 3D modeling that composes a digital twin space based on 3D spatial data.

Regularized Optimization of Collaborative Filtering for Recommander System based on Big Data (빅데이터 기반 추천시스템을 위한 협업필터링의 최적화 규제)

  • Park, In-Kyu;Choi, Gyoo-Seok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.21 no.1
    • /
    • pp.87-92
    • /
    • 2021
  • Bias, variance, error and learning are important factors for performance in modeling a big data based recommendation system. The recommendation model in this system must reduce complexity while maintaining the explanatory diagram. In addition, the sparsity of the dataset and the prediction of the system are more likely to be inversely proportional to each other. Therefore, a product recommendation model has been proposed through learning the similarity between products by using a factorization method of the sparsity of the dataset. In this paper, the generalization ability of the model is improved by applying the max-norm regularization as an optimization method for the loss function of this model. The solution is to apply a stochastic projection gradient descent method that projects a gradient. The sparser data became, it was confirmed that the propsed regularization method was relatively effective compared to the existing method through lots of experiment.

A Study on the Derivation of Port Safety Risk Factors Using by Topic Modeling (토픽모델링을 활용한 항만안전 위험요인 도출에 관한 연구)

  • Lee Jeong-Min;Kim Yul-Seong
    • Journal of Korea Port Economic Association
    • /
    • v.39 no.2
    • /
    • pp.59-76
    • /
    • 2023
  • In this study, we tried to find out port safety from various perspectives through news data that can be easily accessed by the general public and domestic academic journal data that reflects the insights of port researchers. Non-negative Matrix Factorization(NMF) based topic modeling was conducted using Python to derive the main topics for each data, and then semantic analysis was conducted for each topic. The news data mainly derived natural and environmental factors among port safety risk factors, and the academic journal data derived security factors, mechanical factors, human factors, environmental factors, and natural factors. Through this, the need for strategies to strengthen the safety of domestic ports, such as strengthening the resilience of port safety, improve safety awareness to broaden the public's view of port safety, and conduct research to develop the port industry environment into a safe and specialized mature port. As a result, this study identified the main factors to be improved and provided basic data to develop into a mature port with a port safety culture.

Cultural Region-based Clustering of SNS Big Data and Users Preferences Analysis (문화권 클러스터링 기반 SNS 빅데이터 및 사용자 선호도 분석)

  • Rho, Seungmin
    • Journal of Advanced Navigation Technology
    • /
    • v.22 no.6
    • /
    • pp.670-674
    • /
    • 2018
  • Social network service (SNS) related data including comments/text, images, videos, blogs, and user experiences contain a wealth of information which can be used to build recommendation systems for various clients' and provide insightful data/results to business analysts. Multimedia data, especially visual data like image and videos are the richest source of SNS data which can reflect particular region, and cultures values/interests, form a gigantic portion of the overall data. Mining such huge amounts of data for extracting actionable intelligence require efficient and smart data analysis methods. The purpose of this paper is to focus on this particular modality for devising ways to model, index, and retrieve data as and when desired.

Kakao Talk, Internet fake news identification service using Bi-LSTM and topic modeling (Bi-LSTM과 토픽모델링을 활용한 카카오톡, 인터넷 가짜뉴스 판별 서비스)

  • Shim, Kuk-Bo;Lee, Seung-Ho;Jeong, Jun-Ho;Lee, Ki-Young
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.1082-1084
    • /
    • 2021
  • 현재 영어 기반의 기술 팩트체크 서비스는 다양하지만 한국 기반 팩트체크 서비스는 비기술적(언론인 등 전문가의 교차 검증을 통한 팩트체크)이 주를 이루고 있으며, 기술 팩트체크 서비스가 많이 시행되지 않고 있다. 본 논문에서는 기술적인 요소와 비기술적인 요소의 서비스를 함께 사용할 때 허위 정보를 가장 정확하게 식별할 수 있기 때문에 한국어 기반의 자연어 처리 기술을 이용한 팩트체킹 서비스를 제안한다.