• 제목/요약/키워드: graph processing

검색결과 692건 처리시간 0.026초

스킵연결이 적용된 오토인코더 모델의 클러스터링 성능 분석 (Clustering Performance Analysis of Autoencoder with Skip Connection)

  • 조인수;강윤희;최동빈;박용범
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권12호
    • /
    • pp.403-410
    • /
    • 2020
  • 오토인코더의 데이터 복원(Output result) 기능을 이용한 노이즈 제거 및 초해상도와 같은 연구가 진행되는 가운데 오토인코더의 차원 축소 기능을 이용한 클러스터링의 성능 향상에 대한 연구도 활발히 진행되고 있다. 오토인코더를 이용한 클러스터링 기능과 데이터 복원 기능은 모두 동일한 학습을 통해 성능을 향상시킨다는 공통점이 있다. 본 논문은 이런 특징을 토대로, 데이터 복원 성능이 뛰어나도록 설계된 오토인코더 모델이 클러스터링 성능 또한 뛰어난지 알아보기 위한 실험을 진행했다. 데이터 복원 성능이 뛰어난 오토인코더를 설계하기 위해서 스킵연결(Skip connection) 기법을 사용했다. 스킵연결 기법은 기울기 소실(Vanishing gradient)현상을 해소해주고 모델의 학습 효율을 높인다는 장점을 가지고 있을 뿐만 아니라, 데이터 복원 시 손실된 정보를 보완해 줌으로써 데이터 복원 성능을 높이는 효과도 가지고 있다. 스킵연결이 적용된 오토인코더 모델과 적용되지 않은 모델의 데이터 복원 성능과 클러스터링 성능을 그래프와 시각적 추출물을 통해 결과를 비교해 보니, 데이터 복원 성능은 올랐지만 클러스터링 성능은 떨어지는 결과를 확인했다. 이 결과는 오토인코더와 같은 신경망 모델이 출력된 결과 성능이 좋다고 해서 각 레이어들이 데이터의 특징을 모두 잘 학습했다고 확신할 수 없음을 알려준다. 마지막으로 클러스터링의 성능을 좌우하는 잠재변수(latent code)와 스킵연결의 관계를 분석하여 실험 결과의 원인에 대해 파악하였고, 파악한 결과를 통해 잠재변수와 스킵연결의 특징정보를 이용해 클러스터링의 성능저하 현상을 보완할 수 있다는 사실을 보였다. 이 연구는 한자 유니코드 문제를 클러스터링 기법을 이용해 해결하고자 클러스터링 성능 향상을 위한 선행연구이다.

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

하이퍼레저 패브릭을 이용한 화물차 디지털 운행기록 단말기의 안전운행 보상시스템 구현 (Development of The Safe Driving Reward System for Truck Digital Tachograph using Hyperledger Fabric)

  • 김용배;백주용;김종원
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.47-56
    • /
    • 2022
  • 본 논문의 안전운행 보상시스템은 안전운전을 수행한 차량운전자에게 직접적인 보상을 제공하여 안전운전의 동기를 부여하고 적극적 참여를 유도함으로써 사고의 발생을 줄여 생명과 재산의 손실을 줄이는데 목표가 있다. 기존의 디지털 운행기록계의 경우 차량의 운전상태를 기록만 하였으나, 안전운전보상시스템은 사고예방 효과를 높이기 위한 지원책으로서 안전운전을 수행한 경우 금전적 보상을 통해 위험운전을 피하고 안전운전을 하도록 유도하였다. 즉, 과속으로 인한 사고 발생 빈도가 높은 지역에서는 속도 준수, 또는 차 간 거리 유지, 지정차로 운행 등의 안전운행 지시를 수행한 경우 직접적인 보상을 제공함으로써 안전운전 동기를 부여하여 교통사고를 예방하고자 한다. 이러한 안전운행 데이터와 보상내용은 투명하고 안전하게 관리되어야 하므로 보상근거와 보상내용을 폐쇄형 블록체인 하이퍼레저 패브릭을 이용하여 구축하였다. 그러나 블록체인 시스템은 투명성과 안전성이 보장되는 반면에 낮은 데이터 처리속도가 문제가 되므로 이를 개선하고자 블록생성 가속 기능을 구현하였다. 본 연구에서는 순차적으로 블록을 생성하는 속도가 10TPS(Transaction per second) 내외의 낮은 속도를 나타내어, 블록의 생성속도를 높이기 위해 가속 기능을 적용한 결과 1,000TPS 이상의 고성능 네트워크를 구현하였다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

한반도에서 발생한 지진의 통계적 자기 유사성 분석 및 시각화 (Stochastic Self-similarity Analysis and Visualization of Earthquakes on the Korean Peninsula)

  • 황재민;임지영;정해덕
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.493-504
    • /
    • 2023
  • 대한민국은 지진 판의 경계로부터 멀리 떨어진 지역에 있으며, 이러한 지역에서 발생하는 판 내부 지진은 판 경계부 지진과 비교하면 일반적으로 규모가 작고 발생빈도도 낮다. 그럼에도 불구하고 과거 2년부터 1904년 사이 한반도에서 발생했던 지진과 최근 한반도 지진을 관측한 이래에 발생한 지진을 조사 및 분석한 결과 진도 규모 9까지 이르는 것으로 나타났다. 본 논문에서는 한반도에서 발생한 지진과 통계적 자기 유사성과의 관계를 분석하기 위해서 국립기상연구소에서 발표한 「한반도 역사지진 기록 (2년~1904년)」을 이용한다. 또한 본 논문을 통해서 해결한 문제는 한반도에서 발생한 지진데이터와 통계적 자기 유사성과 시각화의 관계 연구를 처음으로 규명하였으며, 그 결과 한반도 지진의 자기 유사성 정도를 판단하는 3가지 정량적인 추정방법으로 측정한 결과 자기 유사성 파라메터 H 값(0.5 < H < 1)이 0.8이상으로 자기 유사성 정도가 높은 것으로 나타났다. 그리고 그래프의 시각화를 통해 지진이 어느 지역에서 많이 발생했는지를 쉽게 파악할 수 있고, 향후 지진 발생시 피해를 예측하고 재산과 인명 피해를 최소화할 수 있는 예측 시스템 개발과 지진 데이터 분석 및 모델링 연구에 활용될 수 있을 것으로 보인다. 뿐만아니라 본 연구결과를 토대로 자기 유사성 프로세스는 지진활동의 패턴과 통계적 특성을 이해하고, 유사한 지진 사건을 그룹화하고 분류하는데 도움을 줄 수 있으며, 지진 활동에 대한 예측, 지진 위험 평가 및 지진 공학 관련 연구에 활용될 것으로 예상된다.

A Study on the Implement of AI-based Integrated Smart Fire Safety (ISFS) System in Public Facility

  • Myung Sik Lee;Pill Sun Seo
    • 국제초고층학회논문집
    • /
    • 제12권3호
    • /
    • pp.225-234
    • /
    • 2023
  • Even at this point in the era of digital transformation, we are still facing many problems in the safety sector that cannot prevent the occurrence or spread of human casualties. When you are in an unexpected emergency, it is often difficult to respond only with human physical ability. Human casualties continue to occur at construction sites, manufacturing plants, and multi-use facilities used by many people in everyday life. If you encounter a situation where normal judgment is impossible in the event of an emergency at a life site where there are still many safety blind spots, it is difficult to cope with the existing manual guidance method. New variable guidance technology, which combines artificial intelligence and digital twin, can make it possible to prevent casualties by processing large amounts of data needed to derive appropriate countermeasures in real time beyond identifying what safety accidents occurred in unexpected crisis situations. When a simple control method that divides and monitors several CCTVs is digitally converted and combined with artificial intelligence and 3D digital twin control technology, intelligence augmentation (IA) effect can be achieved that strengthens the safety decision-making ability required in real time. With the enforcement of the Serious Disaster Enterprise Punishment Act, the importance of distributing a smart location guidance system that urgently solves the decision-making delay that occurs in safety accidents at various industrial sites and strengthens the real-time decision-making ability of field workers and managers is highlighted. The smart location guidance system that combines artificial intelligence and digital twin consists of AIoT HW equipment, wireless communication NW equipment, and intelligent SW platform. The intelligent SW platform consists of Builder that supports digital twin modeling, Watch that meets real-time control based on synchronization between real objects and digital twin models, and Simulator that supports the development and verification of various safety management scenarios using intelligent agents. The smart location guidance system provides on-site monitoring using IoT equipment, CCTV-linked intelligent image analysis, intelligent operating procedures that support workflow modeling to immediately reflect the needs of the site, situational location guidance, and digital twin virtual fencing access control technology. This paper examines the limitations of traditional fixed passive guidance methods, analyzes global technology development trends to overcome them, identifies the digital transformation properties required to switch to intelligent variable smart location guidance methods, explains the characteristics and components of AI-based public facility smart fire safety integrated system (ISFS).

고속도로 단차로 하이패스차로 용량 검토에 관한 연구 : 부트스트랩 기법 활용 중심으로 (A Study on the Capacity Review of One-lane Hi-pass Lanes on Highways : Focusing on Using Bootstrapping Techniques)

  • 김보성;한동희
    • 한국ITS학회 논문지
    • /
    • 제23권3호
    • /
    • pp.1-16
    • /
    • 2024
  • 현재 고속도로 설계지침에서는 단차로 하이패스차로의 용량을 본선형 영업소는 2,000대/시, 나들목 영업소는 1,700대/시로 제시하고 있다. 그리나 2010년도 초반에 수행되었던 연구에서는 본선형 영업소는 1,476대/시/차로~1,665대/시/차로, 나들목 영업소는 1,443대/시/차로 정도로 제시하였다. 이에 본 연구는 현재 제시되고 있는 고속도로 단차로 하이패스차로의 용량의 타당성을 검토하였다. 단차로 하이패스 갠트리에서 수집되는 2021년도 개별차량 통과 자료를 기반으로 속도-교통량 관계 그래프와 차두시간을 활용하여 용량을 산정하고 비교하였다. 또한 차 두시간 활용에 있어 부트스트랩 기법을 도입하여 수집데이터의 새로운 가공 방안에 대해 검토하였다. 분석 결과 단차로 하이패스 용량은 나들목 영업소는 1,700대/시/차로로 제시할 수 있었으며, 본선형 영업소는 적어도 1,700대/시/차로 이상으로 추정할 수 있었다. 또한 차두시간 자료 이용 시 부트스트랩 기법을 활용하면 관측용량과 유사한 추정용량을 제시할 수 있었다.

Assessing the relationship between muscle-to-fat ratio in pork belly and Boston butt using magnetic resonance imaging

  • Sheena Kim;Jeongin Choi;Eun Sol Kim;Gi Beom Keum;Hyunok Doo;Jinok Kwak;Sumin Ryu;Yejin Choi;Juyoun Kang;Haram Kim;Yeongjae Chae;Yujung Lee;Dongjun Kim;Kuk-Hwan Seol;Sun Moon Kang;Yunseok Kim;Pil Nam Seong;In-Seon Bae;Soohyun Cho;Hyo Jung Kwon;Samooel Jung;Youngwon Lee;Hyeun Bum Kim
    • 농업과학연구
    • /
    • 제51권2호
    • /
    • pp.187-192
    • /
    • 2024
  • This research aimed to investigate the relationship between meat quality and muscle-to-fat ratio in specific cuts of pork (pork belly and Boston butt) utilizing magnetic resonance imaging (MRI). Twenty-eight pigs were selected, and 24 hours post-slaughter, pork belly and Boston butt samples were individually extracted from the left half carcass for MRI assessment. The MRI scans were reviewed using the Picture Archiving and Communications System. Muscle and fat volumes in the pork belly and Boston butt from the cross-sectional images captured by MRI were estimated using Vitrea workstation version 7. Subsequently, these data were processed using Vitrea post-processing software to automatically determine the volumes, measured in milliliters (mL). Additionally, a three-dimensional reconstruction of the organ being studied was generated. The relationship between regions (pork belly and Boston butt) was assessed using Pearson's correlation coefficient, and statistical analysis was conducted using Graph Pad Prism 8. The muscle-to-fat ratio determined by MRI for pork belly was 1 : 0.64, whereas for Boston butt it was 1 : 0.35. Results of comparing the muscle-fat ratio, the correlation coefficient between pork belly and Boston butt was found to be 0.6127 (R2 = 0.3754, p < 0.001) based on MRI analysis. As a result of measuring the muscle-to-fat ratio using MRI as a non-destructive approach, there was a positive correlation between the muscle-to-fat ratios of pork belly and Boston butt.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

다양한 다분류 SVM을 적용한 기업채권평가 (Corporate Bond Rating Using Various Multiclass Support Vector Machines)

  • 안현철;김경재
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.157-178
    • /
    • 2009
  • Corporate credit rating is a very important factor in the market for corporate debt. Information concerning corporate operations is often disseminated to market participants through the changes in credit ratings that are published by professional rating agencies, such as Standard and Poor's (S&P) and Moody's Investor Service. Since these agencies generally require a large fee for the service, and the periodically provided ratings sometimes do not reflect the default risk of the company at the time, it may be advantageous for bond-market participants to be able to classify credit ratings before the agencies actually publish them. As a result, it is very important for companies (especially, financial companies) to develop a proper model of credit rating. From a technical perspective, the credit rating constitutes a typical, multiclass, classification problem because rating agencies generally have ten or more categories of ratings. For example, S&P's ratings range from AAA for the highest-quality bonds to D for the lowest-quality bonds. The professional rating agencies emphasize the importance of analysts' subjective judgments in the determination of credit ratings. However, in practice, a mathematical model that uses the financial variables of companies plays an important role in determining credit ratings, since it is convenient to apply and cost efficient. These financial variables include the ratios that represent a company's leverage status, liquidity status, and profitability status. Several statistical and artificial intelligence (AI) techniques have been applied as tools for predicting credit ratings. Among them, artificial neural networks are most prevalent in the area of finance because of their broad applicability to many business problems and their preeminent ability to adapt. However, artificial neural networks also have many defects, including the difficulty in determining the values of the control parameters and the number of processing elements in the layer as well as the risk of over-fitting. Of late, because of their robustness and high accuracy, support vector machines (SVMs) have become popular as a solution for problems with generating accurate prediction. An SVM's solution may be globally optimal because SVMs seek to minimize structural risk. On the other hand, artificial neural network models may tend to find locally optimal solutions because they seek to minimize empirical risk. In addition, no parameters need to be tuned in SVMs, barring the upper bound for non-separable cases in linear SVMs. Since SVMs were originally devised for binary classification, however they are not intrinsically geared for multiclass classifications as in credit ratings. Thus, researchers have tried to extend the original SVM to multiclass classification. Hitherto, a variety of techniques to extend standard SVMs to multiclass SVMs (MSVMs) has been proposed in the literature Only a few types of MSVM are, however, tested using prior studies that apply MSVMs to credit ratings studies. In this study, we examined six different techniques of MSVMs: (1) One-Against-One, (2) One-Against-AIL (3) DAGSVM, (4) ECOC, (5) Method of Weston and Watkins, and (6) Method of Crammer and Singer. In addition, we examined the prediction accuracy of some modified version of conventional MSVM techniques. To find the most appropriate technique of MSVMs for corporate bond rating, we applied all the techniques of MSVMs to a real-world case of credit rating in Korea. The best application is in corporate bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. For our study the research data were collected from National Information and Credit Evaluation, Inc., a major bond-rating company in Korea. The data set is comprised of the bond-ratings for the year 2002 and various financial variables for 1,295 companies from the manufacturing industry in Korea. We compared the results of these techniques with one another, and with those of traditional methods for credit ratings, such as multiple discriminant analysis (MDA), multinomial logistic regression (MLOGIT), and artificial neural networks (ANNs). As a result, we found that DAGSVM with an ordered list was the best approach for the prediction of bond rating. In addition, we found that the modified version of ECOC approach can yield higher prediction accuracy for the cases showing clear patterns.