• 제목/요약/키워드: cross-validation

검색결과 1,003건 처리시간 0.025초

양방향 순환 신경망 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템 (A Fuzzy-AHP-based Movie Recommendation System with the Bidirectional Recurrent Neural Network Language Model)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제18권12호
    • /
    • pp.525-531
    • /
    • 2020
  • 다양한 정보가 대량으로 유통되는 IT 환경에서 사용자의 요구를 빠르게 파악하여 의사결정을 도와줄 수 있는 추천 시스템이 각광을 받고 있다. 그러나 현재 추천 시스템은 사용자의 취향이나 관심사가 바뀌었을 때 선호도가 즉시 시스템에 반영이 되지 않을 수가 있으며, 광고 유도로 인하여 사용자의 선호도와 무관한 아이템이 추천될 수가 있다는 문제점이 있다. 본 연구에서는 이러한 문제점을 해결하기 위해 양방향 순환 신경망 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템을 제안하였다. 본 시스템은 사용자의 취향이나 관심사를 명확하고 객관적으로 반영하기 위해 Fuzzy-AHP를 적용하였다. 그리고 사용자가 선호하는 영화를 예측하기 위해 양방향 순환 신경망 언어 모델을 이용하여 실시간으로 수집되는 영화 관련 데이터를 분석하였다. 본 시스템의 성능을 평가하기 위해 그리드 서치를 이용하여 전체 단어 집합의 크기에 대한 학습 모델의 적합성을 확인하였다. 그 결과 본 시스템의 학습 모델은 전체 단어 집합의 크기에 따른 평균 교차 검증 지수가 97.9%로 적합하다는 것을 확인할 수 있었다. 그리고 본 모델은 네이버의 영화 평점 대비 평균 제곱근 오차가 0.66, LSTM 언어 모델은 평균 제곱근 오차가 0.805으로, 본 시스템의 영화 평점 예측성이 더 우수함을 알 수 있었다.

심층 신경망을 이용한 TBM 데이터 기반의 굴착 지반 예측 연구 (A TBM data-based ground prediction using deep neural network)

  • 김태환;곽노상;김택곤;정사범;고태영
    • 한국터널지하공간학회 논문집
    • /
    • 제23권1호
    • /
    • pp.13-24
    • /
    • 2021
  • 암반 및 연약지반을 포함한 다양한 지반 조건에서 TBM (Tunnel Boring Machine) 터널링이 활용되고 있다. 굴착 성능을 높이기 위해서 지반 조건에 따라 최적으로 장비를 운영해야 하며, 이를 통해 공기단축을 통한 비용 절감 효과를 기대할 수 있다. 하지만 시추 조사를 통해 획득한 지반 정보는 시추공 사이 불확실성이 존재하므로, 실시간 최적 운전에 부족함이 있다. 본 연구에서는 지반의 불확실성 문제를 해결하고자 5초마다 기록된 TBM 데이터를 활용하여 굴착 지반 예측시스템을 구축하고자 한다. 싱가포르 현장에서 획득한 화강암의 풍화도를 고려하여 암반, 토사, 복합지반 세 가지로 지질로 재분류하였고, 실시간으로 도출되는 기계 데이터로 이를 예측하고자 한다. 현장에서 획득한 TBM 데이터에 대해 이상치 제거, 정규화, 특성 추출 등의 전처리 방법을 적용하였고, 지질을 분류하기 위해 6개의 은닉층을 가진 심층 신경망(Deep Neural Network, DNN)을 활용하였다. 10겹 교차검증을 통해 분류 시스템을 평가한 결과, 평균 75.4%의 정확도를 확인하였다(총 데이터 388,639개). 본 연구를 통해 지질 불확실성을 감소시키고, 지반 조건에 따른 실시간 최적 운전에 도움이 될 것으로 판단된다.

밭작물 농업기상을 위한 수치형 산림입지토양도 활용성 평가 (Utilization Evaluation of Numerical forest Soil Map to Predict the Weather in Upland Crops)

  • 강다영;황영은;윤상후
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.34-45
    • /
    • 2021
  • 날씨는 밭작물의 가격 측정과 생산량 및 품질에 영향을 미치기 때문에 농산업에서 가장 많이 고려되는 요소이다. 특히, 밭작물의 경우 평지보다 산지에서 재배되는 등 외부 환경에 많이 노출되어 있다. 본 연구는 수치 산림입지토양도를 이용하여 산지를 구성하고 있는 12개의 토양의 특성 자료와 기상정보 간의 연관성을 파악하였다. 공간적 상관관계가 고려된 GAM, 크리깅, RF를 이용하였으며, 연구자료는 2009년 1월부터 2018년 12월까지의 기상청과 농촌진흥청에서 수집한 일 단위 평균기온, 최고기온, 최저기온, 강우량 자료가 사용되었다. 분석결과 지리적 효과만 반영된 GAM이 상대적으로 추정성능이 우수하였고, 산림입지토양도는 밭작물 재배지 기상정보를 추정에 큰 도움이 되지 않았다. 이에 유의수준을 5%로 통계적 가설검정을 수행하여 중요 요인을 선택하였다. 산림입지토양도의 기후대코드(CLZN_CD)와 토양목본코드 B(SIBFLR_LAR)가 기상정보 추정에 상대적 유의미한 요인으로 선정되었다. 기후대코드를 추가한 모형의 경우 일 평균 기온과 일 최저기온의 공간 보간 성능이 향상되었다. 한반도의 국토는 70%가 산지이고 밭작물은 주로 산지에서 재배되고 있다. 따라서 산지의 기상정보를 추가 수집하여 연구를 수행한다면 생육시기별로 밭작물을 관리하는데 도움이 될 것으로 기대한다.

분석툴을 이용한 천리안2A 기상탑재체 복사 보정 파라미터 검증 (Verification of GEO-KOMPSAT-2A AMI Radiometric Calibration Parameters Using an Evaluation Tool)

  • 진경욱;박진형
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1323-1337
    • /
    • 2020
  • 천리안2A호 AMI(Advanced Meteorological Imager) 복사 보정에 대한 검증은 탑재체의 기능 및 성능 점검뿐만 아니라, 탑재체 자료의 품질을 결정 짓는 중요한 요소이다. AMI 탑재체는 여섯 개의 가시 및 근적외 채널과 10개의 열적외 채널로 구성되어 있다. 가시/근적외 채널의 복사 성능을 대표하는 핵심적인 파라미터로는 SNR(Signal-to-Noise Ratio), 열적외채널의 경우는 NEdT(Noise Equivalent delta Temperature)를 들 수 있다. 다이나믹 레인지와 검출기의 반응도와 관련된 Gain 값 또한 복사 보정 성능과 관련된 중요한 파라미터이다. AMI 탑재체의 주요 복사 보정 성능 검증을 위해, 실시간 AMI자료 처리 시스템과는 별도의 오프라인 복사 성능 분석 툴을 개발하였다. 개발된 분석 툴을 이용하여 천리안2A호 발사 후 궤도상 시험 기간 동안 검증 작업을 수행하였다. 분석 툴을 통한 계산 결과는 탑재체 개발업체인 HARRIS사의 분석 값과 비교 검증하였다. AMI 복사 성능 검증 작업은 총 세차례로 나누어 AMI탑재체 양쪽 면인 Side1과 Side2에 대해 이루어졌다. 복사 성능 검증 결과 주요 복사 보정 파라미터들의 성능은 요구조건 값들을 크게 상회하는 우수한 성능을 보여 주었으며, AMI 복사 성능 분석 툴의 유효성이 입증되었다.

가정용 Sensory Processing Measure(SPM)의 국내적용을 위한 번역연구 (Translation and Cross-Cultural Adaptation Study on a Korean of Sensory Processing Measure Home Form)

  • 이혜림;유은정;김경미
    • 대한감각통합치료학회지
    • /
    • 제19권3호
    • /
    • pp.22-31
    • /
    • 2021
  • 목적 : 본 연구의 목적은 아동의 감각처리능력을 확인하는데 사용하는 가정용 Sensory Processing Measure(SPM)을 우리나라에 적용하기 위해 번역과정을 거친 후 내용타당도를 알아보는 것이다. 연구방법 : 내용타당도 연구를 위해 번역, 역번역 과정에서 항목을 수정하였고, 전문가 집단을 구성하여 내용타당도를 검증하였다. 전문가 집단은 각 지역별 작업치료학과 교수 3명을 전문가 집단으로 구성하여 내용타당도를 확인하였다. 내용타당도는 각 항목에 대하여 의미성와 구조성으로 나누어 4점 척도로 실시하였으며 1점은 매우 타당하지 않음, 2점은 타당하지 않음, 3점은 타당함, 4점은 매우 타당함으로 점수화하였다. 역번역은 이중언어를 사용하는 2명이 참여하여 2개의 역번역본에서 일치하는 않는 부분을 확인한 다음 전문가 집단에서 토의 후 보완하였다. 이렇게 번역된 한국어판은 작업치료를 받고 있는 아동의 부모 13명을 대상으로 이해도 검증을 실시하였다. 결과 : 전문가 집단을 대상으로 원본 SPM과 한국어로 번역한 SPM을 비교한 결과 평균 3.54± .74(리커트 4점 척도), 의미성에 대한 평균방식의 척도 내용타당도 지수(Scale-level Content Validity Index; S-CVI/Avg)는 .92, 구조성에 대한 평균방식의 척도 내용타당도 지수(S-CVI/Avg)는 .86이었다. 역번역 결과, 내용 일치도는 평균 3.77± .47로 나타나 내용이 일치한다고 볼 수 있다. 역번역 및 수정을 거친 SPM을 부모 집단을 대상으로 이해도 검증 결과 평균 3.48 ± .63(리커트 4점 척도)이었으며 평균방식의 척도 내용타당도 지수(S-CVI/Avg)는 .94로 나타났다. 결론 : 본 연구는 타문화권에서 개발된 SPM을 번역 및 역번역 과정을 거쳐 내용타당도를 검증함으로써 한국어판 가정용 SPM을 우리 문화권에 사용하기 위한 기초자료를 제시하는데 연구의 의의가 있다.

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

Major environmental factors and traits of invasive alien plants determining their spatial distribution

  • Oh, Minwoo;Heo, Yoonjeong;Lee, Eun Ju;Lee, Hyohyemi
    • Journal of Ecology and Environment
    • /
    • 제45권4호
    • /
    • pp.277-286
    • /
    • 2021
  • Background: As trade increases, the influx of various alien species and their spread to new regions are prevalent and no longer a special problem. Anthropogenic activities and climate changes have made the distribution of alien species out of their native range common. As a result, alien species can be easily found anywhere, and they have nothing but only a few differences in intensity. The prevalent distribution of alien species adversely affects the ecosystem, and a strategic management plan must be established to control them effectively. To this end, hot spots and cold spots were analyzed according to the degree of distribution of invasive alien plants, and major environmental factors related to hot spots were found. We analyzed the 10,287 distribution points of 126 species of alien plants collected through the national survey of alien species by the hierarchical model of species communities (HMSC) framework. Results: The explanatory and fourfold cross-validation predictive power of the model were 0.91 and 0.75 as AUC values, respectively. The hot spots of invasive plants were found in the Seoul metropolitan area, Daegu metropolitan city, Chungcheongbuk-do Province, southwest shore, and Jeju island. Generally, the hot spots were found where the higher maximum temperature of summer, precipitation of winter, and road density are observed, but temperature seasonality, annual temperature range, precipitation of the summer, and distance to river and sea were negatively related to the hot spots. According to the model, the functional traits accounted for 55% of the variance explained by the environmental factors. The species with higher specific leaf areas were more found where temperature seasonality was low. Taller species preferred the bigger annual temperature range. The heavier seed mass was only preferred when the max temperature of summer exceeded 29 ℃. Conclusions: In this study, hot spots were places where 2.1 times more alien plants were distributed on average than non-hot spots (33.5 vs 15.7 species). The hot spots of invasive plants were expected to appear in less stressful climate conditions, such as low fluctuation of temperature and precipitation. Also, the disturbance by anthropogenic factors or water flow had positive influences on the hot spots. These results were consistent with the previous reports about the ruderal or competitive strategies of invasive plants instead of the stress-tolerant strategy. The functional traits are closely related to the ecological strategies of plants by shaping the response of species to various environmental filters, and our result confirmed this. Therefore, in order to effectively control alien plants, it is judged that the occurrence of disturbed sites in which alien plants can grow in large quantities is minimized, and the river management of waterfronts is required.

GRU 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템 (A Fuzzy-AHP-based Movie Recommendation System using the GRU Language Model)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제19권8호
    • /
    • pp.319-325
    • /
    • 2021
  • 무선 기술의 고도화 및 이동통신 기술의 인프라가 빠르게 성장함에 따라 AI 기반 플랫폼을 적용한 시스템이 사용자의 주목을 받고 있다. 특히 사용자의 취향이나 관심사 등을 이해하고, 선호하는 아이템을 추천해주는 시스템은 고도화된 전자상거래 맞춤형 서비스 및 스마트 홈 등에 적용되고 있다. 그러나 이러한 추천 시스템은 다양한 사용자들의 취향이나 관심사 등에 대한 선호도를 실시간으로 반영하기 어렵다는 문제가 있다. 본 연구에서는 이러한 문제를 해소하기 위해 GRU(Gated Recurrent Unit) 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템을 제안하였다. 본 시스템에서는 사용자의 취향이나 관심사를 실시간으로 반영하기 위해 Fuzzy-AHP를 적용하였다. 또한 대중들의 관심사 및 해당 영화의 내용을 분석하여 사용자가 선호하는 요인과 유사한 영화를 추천하기 위해 GRU 언어 모델 기반의 모델을 적용하였다. 본 추천 시스템의 성능을 검증하기 위해 학습 모듈에서 사용된 스크래핑 데이터를 이용하여 학습 모델의 적합성을 측정하였으며, LSTM(Long Short-Term Memory) 언어 모델과 Epoch 당 학습 시간을 비교하여 학습 수행 속도를 측정하였다. 그 결과 본 연구의 학습 모델의 평균 교차 검증 지수가 94.8%로 적합하다는 것을 알 수 있었으며, 학습 수행 속도가 LSTM 언어 모델보다 우수함을 확인할 수 있었다.

공주 무령왕릉과 왕릉원 내부 미세변위 정밀모니터링을 위한 디지털 기록화 연구 (A Study on Digital Documentation of Precise Monitoring for Microscale Displacements within the Tomb of King Muryeong and the Royal Tombs in Gongju, Korea)

  • 최일규;양혜리;이찬희
    • 보존과학회지
    • /
    • 제37권6호
    • /
    • pp.626-637
    • /
    • 2021
  • 공주 무령왕릉과 왕릉원은 세계유산으로 등재된 웅진백제시대(AD 475~538) 왕족의 고분군이다. 1971년 무령왕릉 발굴 이후 안전한 보존관리 체계 없이 공개됨에 따라 급격한 환경변화를 겪으며 고분 내부에 다양한 손상이 발생하였다. 이 연구에서는 왕릉원의 미시적 변위분석을 위해 각 고분 내부에 취약부를 선정하여 3차원 정밀스캐닝을 바탕으로 디지털 형상정보를 구축하였다. 5호분에서는 진행성 변위를 검출하였으며, 6호분과 무령왕릉은 향후 모니터링을 위한 기초자료를 획득하였다. 특히 5호분 남측 회벽의 편차분석 결과, 공차범위 ±18 mm와 ±2 mm에서 추가 손상은 나타나지 않았다. 그러나 인방석은 평균 0.32 mm의 처짐이 발생하였고, 벽체 사이의 거리는 평균 0.36 mm가 증가하였다. 5호분 내부는 직접적인 누수가 있어 탈락과 처짐거동 등 손상을 가중시킨 것으로 해석된다. 이 연구에서 획득한 3차원 형상정보는 계속 연구를 위한 자료로 중요한 기준이 되며, 정밀 계측모니터링과 교차검증을 거쳐 왕릉원의 안정적 보존방안을 검토하는 데 활용할 것이다.

Determination of Survival of Gastric Cancer Patients With Distant Lymph Node Metastasis Using Prealbumin Level and Prothrombin Time: Contour Plots Based on Random Survival Forest Algorithm on High-Dimensionality Clinical and Laboratory Datasets

  • Zhang, Cheng;Xie, Minmin;Zhang, Yi;Zhang, Xiaopeng;Feng, Chong;Wu, Zhijun;Feng, Ying;Yang, Yahui;Xu, Hui;Ma, Tai
    • Journal of Gastric Cancer
    • /
    • 제22권2호
    • /
    • pp.120-134
    • /
    • 2022
  • Purpose: This study aimed to identify prognostic factors for patients with distant lymph node-involved gastric cancer (GC) using a machine learning algorithm, a method that offers considerable advantages and new prospects for high-dimensional biomedical data exploration. Materials and Methods: This study employed 79 features of clinical pathology, laboratory tests, and therapeutic details from 289 GC patients whose distant lymphadenopathy was presented as the first episode of recurrence or metastasis. Outcomes were measured as any-cause death events and survival months after distant lymph node metastasis. A prediction model was built based on possible outcome predictors using a random survival forest algorithm and confirmed by 5×5 nested cross-validation. The effects of single variables were interpreted using partial dependence plots. A contour plot was used to visually represent survival prediction based on 2 predictive features. Results: The median survival time of patients with GC with distant nodal metastasis was 9.2 months. The optimal model incorporated the prealbumin level and the prothrombin time (PT), and yielded a prediction error of 0.353. The inclusion of other variables resulted in poorer model performance. Patients with higher serum prealbumin levels or shorter PTs had a significantly better prognosis. The predicted one-year survival rate was stratified and illustrated as a contour plot based on the combined effect the prealbumin level and the PT. Conclusions: Machine learning is useful for identifying the important determinants of cancer survival using high-dimensional datasets. The prealbumin level and the PT on distant lymph node metastasis are the 2 most crucial factors in predicting the subsequent survival time of advanced GC.