• 제목/요약/키워드: Co-occurrence feature

검색결과 89건 처리시간 0.022초

GCNXSS: An Attack Detection Approach for Cross-Site Scripting Based on Graph Convolutional Networks

  • Pan, Hongyu;Fang, Yong;Huang, Cheng;Guo, Wenbo;Wan, Xuelin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.4008-4023
    • /
    • 2022
  • Since machine learning was introduced into cross-site scripting (XSS) attack detection, many researchers have conducted related studies and achieved significant results, such as saving time and labor costs by not maintaining a rule database, which is required by traditional XSS attack detection methods. However, this topic came across some problems, such as poor generalization ability, significant false negative rate (FNR) and false positive rate (FPR). Moreover, the automatic clustering property of graph convolutional networks (GCN) has attracted the attention of researchers. In the field of natural language process (NLP), the results of graph embedding based on GCN are automatically clustered in space without any training, which means that text data can be classified just by the embedding process based on GCN. Previously, other methods required training with the help of labeled data after embedding to complete data classification. With the help of the GCN auto-clustering feature and labeled data, this research proposes an approach to detect XSS attacks (called GCNXSS) to mine the dependencies between the units that constitute an XSS payload. First, GCNXSS transforms a URL into a word homogeneous graph based on word co-occurrence relationships. Then, GCNXSS inputs the graph into the GCN model for graph embedding and gets the classification results. Experimental results show that GCNXSS achieved successful results with accuracy, precision, recall, F1-score, FNR, FPR, and predicted time scores of 99.97%, 99.75%, 99.97%, 99.86%, 0.03%, 0.03%, and 0.0461ms. Compared with existing methods, GCNXSS has a lower FNR and FPR with stronger generalization ability.

Improving Field Crop Classification Accuracy Using GLCM and SVM with UAV-Acquired Images

  • Seung-Hwan Go;Jong-Hwa Park
    • 대한원격탐사학회지
    • /
    • 제40권1호
    • /
    • pp.93-101
    • /
    • 2024
  • Accurate field crop classification is essential for various agricultural applications, yet existing methods face challenges due to diverse crop types and complex field conditions. This study aimed to address these issues by combining support vector machine (SVM) models with multi-seasonal unmanned aerial vehicle (UAV) images, texture information extracted from Gray Level Co-occurrence Matrix (GLCM), and RGB spectral data. Twelve high-resolution UAV image captures spanned March-October 2021, while field surveys on three dates provided ground truth data. We focused on data from August (-A), September (-S), and October (-O) images and trained four support vector classifier (SVC) models (SVC-A, SVC-S, SVC-O, SVC-AS) using visual bands and eight GLCM features. Farm maps provided by the Ministry of Agriculture, Food and Rural Affairs proved efficient for open-field crop identification and served as a reference for accuracy comparison. Our analysis showcased the significant impact of hyperparameter tuning (C and gamma) on SVM model performance, requiring careful optimization for each scenario. Importantly, we identified models exhibiting distinct high-accuracy zones, with SVC-O trained on October data achieving the highest overall and individual crop classification accuracy. This success likely stems from its ability to capture distinct texture information from mature crops.Incorporating GLCM features proved highly effective for all models,significantly boosting classification accuracy.Among these features, homogeneity, entropy, and correlation consistently demonstrated the most impactful contribution. However, balancing accuracy with computational efficiency and feature selection remains crucial for practical application. Performance analysis revealed that SVC-O achieved exceptional results in overall and individual crop classification, while soybeans and rice were consistently classified well by all models. Challenges were encountered with cabbage due to its early growth stage and low field cover density. The study demonstrates the potential of utilizing farm maps and GLCM features in conjunction with SVM models for accurate field crop classification. Careful parameter tuning and model selection based on specific scenarios are key for optimizing performance in real-world applications.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

보국 코발트 광상의 산출 광물종 및 황동위원소 조성의 시간적 변화: 함코발트 열수계의 성인과 지화학적 특성 고찰 (Temporal Variations of Ore Mineralogy and Sulfur Isotope Data from the Boguk Cobalt Mine, Korea: Implication for Genesis and Geochemistry of Co-bearing Hydrothermal System)

  • 윤성택;염승준
    • 자원환경지질
    • /
    • 제30권4호
    • /
    • pp.289-301
    • /
    • 1997
  • 보국 코발트 광산은 백악기 경상분지내에 위치하며, 셰일로 구성된 건천리층을 천부 관입한 암주상의 미문상 화강암내에 국한하여 배태된다. 광상은 열극 충진형 석영${\pm}$액티놀라이트${\pm}$탄산염 광물맥으로 이루어지며, 광석광물로는 함코발트광물 (비독사석, 휘코발트석, 글로코도트), 함코발트 유비철석과 소량의 황화광물 (자류철석, 황동석, 황철석, 섬아연석) 및 미량의 산화광물 (자철석, 적철석)이 산출된다. Rb-Sr 절대연령 측정 결과, 화강암의 관입 및 이와 관련된 광화작용은 후기 백악기 (85.98 Ma)에 이루어진 것으로 판단된다. 산출광물종은 다소 복잡한 양상을 보이며, 시간에 따라 다음과 같이 변화한다: 액티놀라이트, 탄산염광물 및 석영에 수반되는 함코발트 광물의 정출 (광화시기 I, II)${\rightarrow}$석영에 수반되는 황화광물, 금 및 산화광물의 정출 (광화시기 III)${\rightarrow}$탄산염광물의 정출(광화시기 IV, V). 고온성 광물 (함코발트 광물, 휘수연석, 액티놀라이트)과 더불어 저온성 광물 (황화광물, 금, 탄산염광물)이 산출되는 점으로 보아 열수광화작용은 xenothermal 환경에서 형성되었다. 화강암은 특징적으로 높은 코발트 함유량 (평균 50.90 ppm)을 나타내며, 이는 코발트가 냉각하는 화강암 암주에서 기원하였음을 지시한다. 반면, 건천리층 셰일의 높은 동 및 아연 함유량은 이들 원소가 주로 셰일로부터 유래되었음을 지시한다. 열수용액의 온도 감소와 더불어 산소분압이 감소 (광화 I, II기의 코발트광물 형성, $T=560^{\circ}C-390^{\circ}C$, log $fO_2=$ > -32.7 to -30.7 atm at $350^{\circ}C$; 광화 III기의 황화광물 형성, $T=380^{\circ}-345^{\circ}C$, log $fO_2={\geq}-30.7$ atm at $350^{\circ}C$함은 열수계가 시간이 지남에 따라 초기 마그마성 계로부터 천수로 지배되는 열수계로 전이되었음을 나타낸다. 광화 II기의 유황 동위원소 값은 초기 함코발트 열수 용액이 화성기원 ($${\delta}^{34}S_{{\Sigma}S}{\sim_=}3-5$$‰)으로부터 기원하였음을 증거한다. 열수용액의 ${\delta}^{34}S_{H_2S}$ 값은 광화 II기의 코발트 형성기 (3-5‰)로부터 황화광물 형성 시기인 광화 IV기 (최대 약 20‰)까지 크게 증가하였다. 이는 후기로 갈수록 천수가 우세한 열수계로 진화하면서 주위의 퇴적암을 순환하는 과정에 동위원소적으로 무거운 유황 (퇴적기원의 황산염)과 천금속 (Cu, Zn 등) 및 금을 용해, 농집시켰음을 시사한다. 후기에 천수의 유입이 없었더라면, 보국 광상은 단순히 액티놀라이트 + 석영 + 함코발트 광물로 구성된 광맥으로만 형성되었을 것이다. 또한, 마그마 기원의 열수계가 형성된 이후에 천수 순환계가 형성됨으로 인하여 고온 광물과 저온 광물이 함께 산출되는 xenothermal 한 광상의 특성을 나타내게 되었다.

  • PDF

남극 장보고과학기지 인근에서 채취한 눈시료 내의 주요 이온성분들의 고해상도 계절변동성 연구 (A Study on High-Resolution Seasonal Variations of Major Ionic Species in Recent Snow Near the Antarctic Jang Bogo Station)

  • 곽호제;강정호;홍상범;이정훈;장채원;허순도;홍성민
    • Ocean and Polar Research
    • /
    • 제37권2호
    • /
    • pp.127-140
    • /
    • 2015
  • A continuous series of 60 snow samples was collected at a 2.5-cm interval from a 1.5-m snow pit at a site on the Styx Glacier Plateau in Victoria Land, Antarctica, during the 2011/2012 austral summer season. Various chemical components (${\delta}D$, ${\delta}^{18}O$, $Na^+$, $K^+$, $Mg^{2+}$, $Ca^{2+}$, $Cl^-$, $SO_4{^2-}$, $NO_3{^-}$, $F^-$, $CH_3SO_3{^-}$, $CH_3CO_2{^-}$ and $HCO_2{^-}$) were determined to understand the highly resolved seasonal variations of these species in the coastal atmosphere near the Antarctic Jang Bogo station. Based on vertical profiles of ${\delta}^{18}O$, $NO_3{^-}$and MSA, which showed prominent seasonal changes in concentrations, the snow samples were dated to cover the time period from 2009 austral winter to 2012 austral summer with a mean accumulation rate of $226kgH_2Om^{-2}yr^{-1}$. Our snow profiles show pronounced seasonal variations for all the measured chemical species with a different pattern between different species. The distinctive feature of the occurrence patterns of the seasonal variations is clearly linked to changes in the relative strength of contributions from various natural sources (sea salt spray, volcanoes, crust-derived dust, and marine biogenic activities) during different short-term periods. The results allow us to understand the transport pathways and input mechanisms for each species and provide valuable information that will be useful for investigating long-term (decades to century scale periods) climate and environmental changes that can be deduced from an ice core to be retrieved from the Styx Glacier Plateau in the near future.

형태와 텍스쳐 특징을 조합한 나뭇잎 분류 시스템의 성능 평가 (Performance Evaluations for Leaf Classification Using Combined Features of Shape and Texture)

  • 김선종;김동필
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.1-12
    • /
    • 2012
  • 길 옆이나 공원 또는 조경시설에는 많은 나무들을 포함하고 있다. 비록 많은 나무들이 쉽게 우리 주변에서 보이지만, 일반인들이 그 나무의 이름, 종류 및 정보들을 얻기가 힘든 경우도 있다. 나무의 이름이나 정보를 얻기 위하여 인터넷이나 서적을 이용하여 찾아 분류하여야 한다. 나무의 구성 요소는 잎, 꽃, 수피 등이 있는데, 일반적으로 나무의 잎을 이용하여 분류할 수 있다. 이는 잎이 형태, 잎맥 등의 정보를 포함하고 있기 때문이다. 잎의 형태는 나무의 종류를 결정하는데 중요한 역할을 하며, 또한 잎맥을 포함한 텍스쳐도 나무의 종류를 분류하는데 유용하게 사용된다. 본 논문에서는 형태와 텍스쳐를 조합한 특징들을 이용한 잎 분류 시스템에 대한 성능을 평가하였다. 형태 특징으로는 푸리에 기술자를 이용하였고, 텍스쳐 특징으로는 GLCM 또는 웨이브릿 기술자, 그리고 그들의 조합을 사용하였다. 그리고 사용된 데이터는 인터넷에서 용이하게 구할 수 있고, 분류 성능평가에 사용되는 Flavia 잎 데이터 셋을 사용하였다. 형태와 텍스쳐를 기반으로 하는 다양한 조합을 가진 분류 시스템의 성능을 인식률과 PR(precision-recall) 지수로 평가하고, 성능을 비교하였다. 성능평가 결과, 형태와 텍스쳐를 조합한 특징들을 갖는 시스템의 성능이 조합하지 않은 시스템의 성능보다 나아짐을 알 수 있었다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

바위솔속 엽육조직 세포 내 액포의 미세구조 분화 양상 (Ultrastructural Differentiation of the Vacuole in Mesophyll Tissues of Orostachys)

  • 김인선
    • Applied Microscopy
    • /
    • 제39권4호
    • /
    • pp.333-340
    • /
    • 2009
  • 다육질성 CAM 식물에서는 구조와 기능의 분화가 환경조건에 잘 적응된 합리적인 광합성을 수행하여 동일한 엽육세포에서 $CO_2$ 고정, 유기물 합성과 저장, 분해 및 활용하는 시간이 서로 다르게 나타난다. 이러한 유기산 대사는 CAM 식물의 가장 뚜렷한 대사적 특징으로 밤에 말산을 합성하여 액포에 저장하고 낮에 이용하므로 이들의 액포는 급격한 pH의 차이를 일주기성으로 조절해야 하는 매우 중요한 세포소기관이다. 본 연구에서는 식물체 내 생리적 건조가 지속되어 CAM 광합성을 수행하는 바위솔속 식물 3종의 다육질성 엽육조직 세포의 특성을 액포 구조분화에 초점을 두어 미세구조적으로 연구하였다. 바위솔속의 다육질성 엽육조직은 수분저장성 세포들로 구성되어 있으며, 액포융합 등의 액포화현상과 액포 내 다양한 2차 액포형성이 현저한 구조적 특징이었다. 이들 액포는 매우 역동적이어서 분열하여 다수의 소액포를 형성하거나 소액포들의 융합으로 큰 액포를 형성하였고, 일부는 전자밀도가 높은 저장성 액포로 발달하였다. 이러한 액포화는 세포의 크기를 경제적이고 에너지 효율적으로 증가시키는 방식으로 대부분의 다육질성 CAM 식물에서 발달하며, 낮과 밤에 일주기성으로 반복되는 세포 내 pH 농도의 급격한 변화를 대처할 수 있게 한다. 또한, 막 함입에 의한 다양한 크기의 수많은 2차 액포 형성은 단 기간 내에 액포막의 용적을 증가시켜 이러한 목적을 충족시켜 주는데 일주기적으로 사용되는 매우 중요한 세포 내 구획이 된다. 액포의 신장으로 세포질은 세포벽 주변부위로 밀려나 얇은 층으로 국한되었으나, 이들 세포질 내에서도 엽록체와 미토콘드리아는 액포와 밀접하게 연관되어 분포하고, 세포 간에는 원형질연락사가 잘 발달하였다. 이러한 미세구조들의 발달은 다육질성 엽육세포가 일주기성으로 급변하는 세포 내 유기산 대사과정에 적응하기 위해 액포에서의 신속하고 원활한 대사물질의 수송이 이루어져야 하기 때문일 것으로 추정된다.