• 제목/요약/키워드: Machine learning algorithm

검색결과 1,505건 처리시간 0.033초

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.

AdaBoost를 이용한 윈도우 영상의 하위 영상 검출 (Subimage Detection of Window Image Using AdaBoost)

  • 길종인;김만배
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.578-589
    • /
    • 2014
  • 윈도우 영상은 흔히 컴퓨터에서 응용프로그램을 실행하였을 때, 모니터를 통해 출력되는 화면을 의미하여, 웹페이지, 동영상 플레이어 및 여러 가지 응용프로그램을 모두 포함한다. 웹페이지는 다른 어플리케이션에 비해 다양한 종류의 정보를 다양한 형태로 전달한다. 이러한 웹페이지와 같은 윈도우 영상은 카메라로부터 획득할 수 있는 자연영상과 달리 텍스트, 로고, 아이콘 및 하위 영상과 같은 여러 가지 요소들을 포함하고 있고, 각 요소들은 서로 다른 형식의 정보를 사용자에게 전달한다. 그러나 텍스트와 영상은 정보가 다른 형태로 제공되기 때문에, 엄연히 다른 특성을 가지고 있는 요소들을 지역적으로 분리할 필요성이 있다. 본 논문에서는 윈도우 영상을 지역적인 특성에 따라 다수의 블록으로 분할한 후, 분할된 각 영역을 배경, 텍스트, 하위영상으로 분류하였다. 이러한 분류기법을 통해 분류된 하위 영상은 3D입체영상 변환, 영상 검색, 영상 브라우징등과 같은 응용을 가질 수 있다. 영상을 분류하는 방법에는 여러 가지가 존재할 수 있으나, 본 논문에서는 기계학습 기반의 알고리즘이 하위 영상 검출에도 좋은 접근법이 될 수 있음을 증명하기 위해 AdaBoost를 이용하였고, 실험결과로부터 93.4%의 검출률, 13%의 거짓 긍정률을 보임으로서, 이를 입증하였다.

API 특성 정보기반 악성 애플리케이션 식별 기법 (A Scheme for Identifying Malicious Applications Based on API Characteristics)

  • 조태주;김현기;이정환;정문규;이정현
    • 정보보호학회논문지
    • /
    • 제26권1호
    • /
    • pp.187-196
    • /
    • 2016
  • 안드로이드 애플리케이션은 악성코드를 삽입한 후 재서명하여 배포하는 리패키징 공격에 취약하다. 이러한 공격을 통해 사용자의 사생활 정보나 개인정보 유출 등의 피해가 자주 발생하고 있는 실정이다. 모든 안드로이드 애플리케이션은 사용자가 직접 작성한 메소드와 API로 구성된다. 이중 플랫폼의 리소스에 접근하며 실제 애플리케이션의 기능적인 특징을 나타내는 것은 API이고, 사용자가 작성한 메소드 역시 API를 이용하며 기능적 특징을 나타낸다. 본 논문에서는 악성 애플리케이션이 주로 활용하는 민감한 API들을 분석 대상으로 하여 악성애플리케이션이 어떤 행위를 하고, 어떤 API 를 사용하는지 사전에 식별할 수 있는 분석 기법을 제안한다. 사용하는 API를 토대로 API의 특성정보를 기반으로 나이브 베이즈 분류 기법을 적용하여 비슷한 기능을 하는 API에 대해 기계 학습하도록 한다. 이렇게 학습된 결과를 토대로 악성 애플리케이션이 주로 사용하는 API를 분류하고, 애플리케이션의 악성 위험 정도에 대한 정량적 판단 기준을 제시한다. 따라서, 제안 기법은 모바일 애플리케이션의 취약점 정도를 정량적으로 제시해 줌으로써 모바일 애플리케이션 개발자들이 앱 보안성을 사전에 파악하는데 많은 기여를 할 수 있을 것으로 기대된다.

Computational estimation of the earthquake response for fibre reinforced concrete rectangular columns

  • Liu, Chanjuan;Wu, Xinling;Wakil, Karzan;Jermsittiparsert, Kittisak;Ho, Lanh Si;Alabduljabbar, Hisham;Alaskar, Abdulaziz;Alrshoudi, Fahed;Alyousef, Rayed;Mohamed, Abdeliazim Mustafa
    • Steel and Composite Structures
    • /
    • 제34권5호
    • /
    • pp.743-767
    • /
    • 2020
  • Due to the impressive flexural performance, enhanced compressive strength and more constrained crack propagation, Fibre-reinforced concrete (FRC) have been widely employed in the construction application. Majority of experimental studies have focused on the seismic behavior of FRC columns. Based on the valid experimental data obtained from the previous studies, the current study has evaluated the seismic response and compressive strength of FRC rectangular columns while following hybrid metaheuristic techniques. Due to the non-linearity of seismic data, Adaptive neuro-fuzzy inference system (ANFIS) has been incorporated with metaheuristic algorithms. 317 different datasets from FRC column tests has been applied as one database in order to determine the most influential factor on the ultimate strengths of FRC rectangular columns subjected to the simulated seismic loading. ANFIS has been used with the incorporation of Particle Swarm Optimization (PSO) and Genetic algorithm (GA). For the analysis of the attained results, Extreme learning machine (ELM) as an authentic prediction method has been concurrently used. The variable selection procedure is to choose the most dominant parameters affecting the ultimate strengths of FRC rectangular columns subjected to simulated seismic loading. Accordingly, the results have shown that ANFIS-PSO has successfully predicted the seismic lateral load with R2 = 0.857 and 0.902 for the test and train phase, respectively, nominated as the lateral load prediction estimator. On the other hand, in case of compressive strength prediction, ELM is to predict the compressive strength with R2 = 0.657 and 0.862 for test and train phase, respectively. The results have shown that the seismic lateral force trend is more predictable than the compressive strength of FRC rectangular columns, in which the best results belong to the lateral force prediction. Compressive strength prediction has illustrated a significant deviation above 40 Mpa which could be related to the considerable non-linearity and possible empirical shortcomings. Finally, employing ANFIS-GA and ANFIS-PSO techniques to evaluate the seismic response of FRC are a promising reliable approach to be replaced for high cost and time-consuming experimental tests.

사장교 케이블의 장력 추정을 위한 인공신경망 모델 개발 (Development of Artificial Neural Network Model for Estimation of Cable Tension of Cable-Stayed Bridge)

  • 김기중;박유신;박성우
    • 한국산학기술학회논문지
    • /
    • 제21권3호
    • /
    • pp.414-419
    • /
    • 2020
  • 본 연구에서는 사장교의 케이블 가속도계로부터 확보한 방대한 계측데이터의 활용을 확대하고자 인공지능 기반의 케이블 장력 추정 모델을 개발하였다. 케이블 장력 추정 모델은 진동법에 따른 장력 추정 과정에서 고유진동수를 판정할 수 있는 알고리즘을 핵심으로 하며 학습데이터 구성에 적합하고 판정 결과에 대한 성능이 확보될 수 있도록 입력층, 은닉층, 출력층으로 구성되는 인공신경망(Artificial Neural Network)을 적용하였다. 인공신경망의 학습데이터는 케이블 가속도 계측데이터를 진동수로 변환 후 구성하였으며 고유진동수를 중심으로 일정한 패턴을 갖는 특성을 활용하여 기계학습을 진행하였다. 학습데이터 구성 시 다수 패턴의 고유진동수를 대표할 수 있도록 다양한 크기의 진폭을 갖는 진동수를 사용하고 일정 수준으로 진동수를 누적하여 사용할 경우 고유진동수에 대한 판정 성능이 개선됨을 확인하였다. 장력 추정 모델의 성능을 판단하기 위해 계측분석 기술자에 의해 추정한 장력의 관리기준과 비교하였다. 케이블 가속도계로부터 확보한 139개의 진동수를 입력값으로 사용하여 검증을 수행한 결과 실제 정답과 유사하게 고유진동수를 판정하였고 고유진동수에 의해 케이블의 장력을 추정한 결과는 96.4%의 수준으로 관리기준에 부합하는 결과를 보여주고 있다.

인공 신경망 기반의 고시간 해상도를 갖는 전력수요 예측기법 (An Electric Load Forecasting Scheme with High Time Resolution Based on Artificial Neural Network)

  • 박진웅;문지훈;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.527-536
    • /
    • 2017
  • 최근 스마트 그리드 산업의 발달과 더불어 효과적인 에너지 관리 시스템의 필요성이 커지고 있다. 특히, 전기 부하 및 에너지 요금 감소를 위해서는 정확한 전력수요 예측과 그에 따른 효과적인 스마트 그리드 운영 전략이 필요하다. 본 논문에서는 보다 정확한 전력수요 예측을 위하여, 수요 시한 기준으로 수집된 전력 사용 데이터를 고시간 해상도로 분할하고, 이에 적합한 인공 신경망 기반의 전력수요 예측 모델을 구축하고자 한다. 예측 모델의 정확도를 향상시키기 위하여 우선, 수열 형태의 시계열 데이터가 가지는 주기성을 제대로 반영하지 못하는 기계 학습 모델의 문제점을 해결하고자, 시계열 데이터를 2차원 공간의 연속적인 데이터로 변환한다. 더욱이, 고시간 해상도에 따른 온도나 습도 등 외부 요인들의 보다 정확한 반영을 위해 이들에 대해서도 선형 보간법을 사용하여 세분화된 시점에서의 값을 추정하여 반영한다. 마지막으로, 구성된 특성 벡터에 대해 주성분 분석 수행을 통하여 불필요한 외부 요인을 제거한다. 예측 모델의 성능을 평가하기 위해서 5겹 교차 검증을 수행하였다. 실험 결과 모든 고시간 해상도에서 성능 향상을 보였으며, 특히 3분 해상도의 경우 3.71%의 가장 낮은 오차율을 보였다.

119 신고 데이터를 이용한 자연어처리 기반 재난안전 상황 분류 알고리즘 분석 (Analysis of Disaster Safety Situation Classification Algorithm Based on Natural Language Processing Using 119 Calls Data)

  • 권수정;강윤희;이용학;이민호;박성호;강명주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권10호
    • /
    • pp.317-322
    • /
    • 2020
  • 인공지능의 발달로 인하여 재난 분야에서는 재난대응 지원 시스템으로 이용되고 있다. 재난은 언제 어디서든지 발생할 수 있으며, 재난 발생 시 소방청 119 신고접수대에 접수되는 신고는 크게 화재, 구조, 구급, 기타 신고 등 4가지로 구분된다. 119 신고에 따른 재난 대응도 그 종류 및 상황에 따라 다르게 대응된다. 본 논문에서는 119 신고 데이터 1280개 문서를 학습 데이터 셋을 이용하여 SVM, NB, k-NN, DT, SGD, RF 상황 분류 기계학습 알고리즘을 3 클래스로 테스트한 분류 성능은 최고 92%, 최소 77%의 성능을 보였다. 인공지능의 발달로 인하여 재난 분야에서는 재난 대응 지원 시스템으로 이용되고 있다. 재난은 언제 어디서든지 발생할 수 있으며, 재난 발생 시 소방청 119 신고접수대에 접수되는 신고는 크게 화재, 구조, 구급, 기타 신고 등 4가지로 구분된다. 119 신고에 따른 재난대응도 그 종류 및 상황에 따라 다르게 대응된다. 본 논문에서는 119 신고 데이터 1280개 문서를 학습 데이터 셋을 이용하여 SVM, NB, k-NN, DT, SGD, RF 상황 분류 알고리즘을 3 클래스로 테스트한 분류 성능은 최고 92%, 최소 77%의 성능을 보였다. 앞으로 다양한 분야의 재난별 데이터 셋을 확보하여 효율적인 재난 대응 연구가 필요하다.

데이터 중심 다항식 확장형 RBF 신경회로망의 설계 및 최적화 (Design of Data-centroid Radial Basis Function Neural Network with Extended Polynomial Type and Its Optimization)

  • 오성권;김영훈;박호성;김정태
    • 전기학회논문지
    • /
    • 제60권3호
    • /
    • pp.639-647
    • /
    • 2011
  • In this paper, we introduce a design methodology of data-centroid Radial Basis Function neural networks with extended polynomial function. The two underlying design mechanisms of such networks involve K-means clustering method and Particle Swarm Optimization(PSO). The proposed algorithm is based on K-means clustering method for efficient processing of data and the optimization of model was carried out using PSO. In this paper, as the connection weight of RBF neural networks, we are able to use four types of polynomials such as simplified, linear, quadratic, and modified quadratic. Using K-means clustering, the center values of Gaussian function as activation function are selected. And the PSO-based RBF neural networks results in a structurally optimized structure and comes with a higher level of flexibility than the one encountered in the conventional RBF neural networks. The PSO-based design procedure being applied at each node of RBF neural networks leads to the selection of preferred parameters with specific local characteristics (such as the number of input variables, a specific set of input variables, and the distribution constant value in activation function) available within the RBF neural networks. To evaluate the performance of the proposed data-centroid RBF neural network with extended polynomial function, the model is experimented with using the nonlinear process data(2-Dimensional synthetic data and Mackey-Glass time series process data) and the Machine Learning dataset(NOx emission process data in gas turbine plant, Automobile Miles per Gallon(MPG) data, and Boston housing data). For the characteristic analysis of the given entire dataset with non-linearity as well as the efficient construction and evaluation of the dynamic network model, the partition of the given entire dataset distinguishes between two cases of Division I(training dataset and testing dataset) and Division II(training dataset, validation dataset, and testing dataset). A comparative analysis shows that the proposed RBF neural networks produces model with higher accuracy as well as more superb predictive capability than other intelligent models presented previously.