• 제목/요약/키워드: Hybrid Data Mining

검색결과 91건 처리시간 0.03초

오피니언 마이닝 및 특허분석을 통한 사용자 니즈기반 이종영역 기술기회 탐색 (User Needs-Based Technology Opportunities in Heterogeneous Fields Using Opinion Mining and Patent Analysis)

  • 장혜진;노태연;윤병운
    • 대한산업공학회지
    • /
    • 제43권1호
    • /
    • pp.39-48
    • /
    • 2017
  • In a digital economy, users actively express their needs in many ways. Thus, many researchers analyze what users need and whether they are satisfied or not through opinion mining. In addition, they begin to find technology opportunities in heterogeneous technology fields. But they did not connect users' opinion to technology development process, only focused on natural language processing or marketing or manufacturing area. Also, heterogeneous technology fields are focused on fusion technology. Thus, this study suggests a novel approach that is based on sentimental value and can be applied to exploring technology opportunities in heterogeneous fields. Sentimental value is calculated from users' opinion through sLDA. The heterogeneous technology opportunity is explored by patent analysis. This research contributes to suggesting a hybrid methodology through patent and users' opinion. In addition, it can provide managerial efficiency by suggesting base data onto decision making.

Hybrid Tensor Flow DNN and Modified Residual Network Approach for Cyber Security Threats Detection in Internet of Things

  • Alshehri, Abdulrahman Mohammed;Fenais, Mohammed Saeed
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.237-245
    • /
    • 2022
  • The prominence of IoTs (Internet of Things) and exponential advancement of computer networks has resulted in massive essential applications. Recognizing various cyber-attacks or anomalies in networks and establishing effective intrusion recognition systems are becoming increasingly vital to current security. MLTs (Machine Learning Techniques) can be developed for such data-driven intelligent recognition systems. Researchers have employed a TFDNNs (Tensor Flow Deep Neural Networks) and DCNNs (Deep Convolution Neural Networks) to recognize pirated software and malwares efficiently. However, tuning the amount of neurons in multiple layers with activation functions leads to learning error rates, degrading classifier's reliability. HTFDNNs ( Hybrid tensor flow DNNs) and MRNs (Modified Residual Networks) or Resnet CNNs were presented to recognize software piracy and malwares. This study proposes HTFDNNs to identify stolen software starting with plagiarized source codes. This work uses Tokens and weights for filtering noises while focusing on token's for identifying source code thefts. DLTs (Deep learning techniques) are then used to detect plagiarized sources. Data from Google Code Jam is used for finding software piracy. MRNs visualize colour images for identifying harms in networks using IoTs. Malware samples of Maling dataset is used for tests in this work.

기술이전 데이터를 활용한 TF-IDF기반 특허추천 알고리즘 연구 (A Research on TF-IDF-based Patent Recommendation Algorithm using Technology Transfer Data)

  • 김준기;배준수;송영헌;정병호
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.78-88
    • /
    • 2023
  • The increasing number of technology transfers from public research institutes in Korea has led to a growing demand for patent recommendation platforms for SMEs. This is because selecting the right technology for commercialization is a critical factor in business success. This study developed a patent recommendation system that uses technology transfer data from the past 10 years to recommend patents that are suitable for SMEs. The system was developed in three stages. First, an item-based collaborative filtering system was developed to recommend patents based on the similarities between the patents that SMEs have previously transferred. Next, a content-based recommendation system based on TF-IDF was developed to analyze patent names and recommend patents with high similarity. Finally, a hybrid system was developed that combines the strengths of both recommendation systems. The experimental results showed that the hybrid system was able to recommend patents that were both similar and relevant to the SMEs' interests. This suggests that the system can be a valuable tool for SMEs that are looking to acquire new technologies.

유사성 계수에 의한 문서 클러스터링 시스템 개발 (Development of Similarity-Based Document Clustering System)

  • 우훈식;임동순
    • 한국산업경영시스템학회:학술대회논문집
    • /
    • 한국산업경영시스템학회 2002년도 춘계학술대회
    • /
    • pp.119-124
    • /
    • 2002
  • Clustering of data is of a great interest in many data mining applications. In the field of document clustering, a document is represented as a data in a high dimensional space. Therefore, the document clustering can be accomplished with a general data clustering techniques. In this paper, we introduce a document clustering system based on similarity among documents. The developed system consists of three functions: 1) gatherings documents utilizing a search agent; 2) determining similarity coefficients between any two documents from term frequencies; 3) clustering documents with similarity coefficients. Especially, the document clustering is accomplished by a hybrid algorithm utilizing genetic and K-Means methods.

  • PDF

하이브리드 기법을 이용한 영상 식별 연구 (A Study on Image Classification using Hybrid Method)

  • 박상성;정귀임;장동식
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.79-86
    • /
    • 2006
  • 영상 식별 기술은 대용량의 멀티미디어 데이터베이스 환경 하에서 고속의 검색을 위해서 필수적이다. 본 논문은 이러한 고속 검색을 위하여 GA(Genetic Algorithm)과 SVM(Support Vector Machine)을 결합한 모델을 제안한다. 특징벡터로는 색상 정보와 질감 정보를 사용하였다. 이렇게 추출된 특징벡터의 집합을 제안한 모델을 통해 최적의 유효 특징벡터의 집합를 찾아 영상을 식별하여 정확도를 높였다. 성능평가는 색상, 질감. 색상과 질감의 연합 특징벡터를 각각 사용한 성능 비교. SYM과 제안된 알고리즘과의 성능을 비교하였다. 실험 결과 색상과 질감을 연합한 특징벡터를 사용한 것이 단일 특징벡터를 사용한 것 보다 좋은 결과를 보였으며 하이브리드 기법을 이용한 제안된 알고리즘이 SVM알고리즘만을 이용한 것 보다 좋은 결과를 보였다.

  • PDF

구문분석과 기계학습 기반 하이브리드 텍스트 논조 자동분석 (Hybrid Approach to Sentiment Analysis based on Syntactic Analysis and Machine Learning)

  • 홍문표;신미영;박신혜;이형민
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권2호
    • /
    • pp.159-181
    • /
    • 2010
  • This paper presents a hybrid approach to the sentiment analysis of online texts. The sentiment of a text refers to the feelings that the author of a text has towards a certain topic. Many existing approaches employ either a pattern-based approach or a machine learning based approach. The former shows relatively high precision in classifying the sentiments, but suffers from the data sparseness problem, i.e. the lack of patterns. The latter approach shows relatively lower precision, but 100% recall. The approach presented in the current work adopts the merits of both approaches. It combines the pattern-based approach with the machine learning based approach, so that the relatively high precision and high recall can be maintained. Our experiment shows that the hybrid approach improves the F-measure score for more than 50% in comparison with the pattern-based approach and for around 1% comparing with the machine learning based approach. The numerical improvement from the machine learning based approach might not seem to be quite encouraging, but the fact that in the current approach not only the sentiment or the polarity information of sentences but also the additional information such as target of sentiments can be classified makes the current approach promising.

  • PDF

Hybrid 기법을 적용한 효율적인 신용카드판단시스템 (Anti-Fraud System for Credit Card By Using Hybrid Technique)

  • 조문배;박길흠
    • 전자공학회논문지CI
    • /
    • 제41권5호
    • /
    • pp.25-32
    • /
    • 2004
  • 인터넷상의 전자상거래 주문에서 발생하는 수백만건의 트랜잭션 레코드들에 대해 Hybrid 기법으로 데이터마이닝 기술인 연관규칙 탐사기법과 AFS (Anti Fraud System) 를 활용하여 전자상거래 과정에서 흔히 일어날 수 있는 부정 거래를 최소화할 수 있는 새로운 전자결제 신용카드 사기방어시스템을 제안한다. 고객이 웹 상의 거래 콤포넌트에 의한 보안 메세징 프로토콜을 사용하여 거래를 시도하면 과거 트랜잭션 데이터를 이용하여 미리 생성해 둔 사기성 거래에 대한 연관규칙의 적용으로 거래의 위험도를 판단하여 위험도가 높다고 판단될 경우 부가적 신용 정보를 요구하거나 거래를 중단하는 시스템이다 본 시스템의 장점은 기존의 사기방지시스템 보다 빠른 응답성과 그에 따른 효율성을 들 수 있다.

Hybrid Neural Networks for Intrusion Detection System

  • Jirapummin, Chaivat;Kanthamanon, Prasert
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -2
    • /
    • pp.928-931
    • /
    • 2002
  • Network based intrusion detection system is a computer network security tool. In this paper, we present an intrusion detection system based on Self-Organizing Maps (SOM) and Resilient Propagation Neural Network (RPROP) for visualizing and classifying intrusion and normal patterns. We introduce a cluster matching equation for finding principal associated components in component planes. We apply data from The Third International Knowledge Discovery and Data Mining Tools Competition (KDD cup'99) for training and testing our prototype. From our experimental results with different network data, our scheme archives more than 90 percent detection rate, and less than 5 percent false alarm rate in one SYN flooding and two port scanning attack types.

  • PDF

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

그래프 이론 기반의 단백질-단백질 상호작용 데이타 분석을 위한 시스템 (An Analysis System for Protein-Protein Interaction Data Based on Graph Theory)

  • 진희정;윤지현;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권5호
    • /
    • pp.267-281
    • /
    • 2006
  • 단백질-단백질 상호작용(PPI : Protein-Protein Interaction) 데이타는 생물체가 어떠한 메커니즘으로 생명을 유지하는지에 대한 정보를 담고 있다. 질병 연구나 신약 연구를 위해서 PPI 데이타를 이용한 많은 연구들이 이루어지고 있다. 이러한 PPI 데이타의 크기는 Yeast-two-hybrid, Mass spectrometry과 Correlated mRNh expression과 같은 방법들로 인하여 점차 그 증가량이 커지고 있다. 따라서 단백질-단백질 상호작용 데이타의 방대한 양과 복잡한 구조로 인하여 사람이 직접 분석하는 것은 불가능하다. 다행히도 PPI 데이타는 단백질은 노드로, 상호작용은 에지로 표현함으로써 전산학의 그래프 구조로 추상화될 수 있다. 본 논문에서는 방대한 단백질-단백질 상호작용 데이타를 연구자가 다양한 방법으로 손쉽게 분석할 수 있는 워크벤치(workbench) 시스템인 Proteinca (PROTEin INteraction CAbaret)에 대하여 소개한다. Proteinca는 다앙한 데이타베이스의 PPI 데이타를 그래프이론 기반의 분석 기능들을 제공하며, 그래프로 가시화하여 사용자가 직관적으로 이해할 수 있도록 도와준다. 또한, 중력 모델 기반의 간략화 방법을 제공하여 사용자에게 중요 단백질 중심의 가시화를 제공한다.