• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.026초

Tag2vec 기반의 지능형 불법 도박 사이트 탐지 모형 개발 (Development of an Intelligent Illegal Gambling Site Detection Model Based on Tag2Vec)

  • 송찬우;안현철
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.211-227
    • /
    • 2022
  • 오늘날 온라인 도박 사이트를 통한 불법 도박이 큰 사회문제가 되고 있다. 인터넷 기술의 발전과 스마트폰 보급으로 시공간의 제약이 사라지고 불법 온라인 도박을 누구나 쉽게 접근할 수 있게 되었기 때문이다. 이를 막기 위해 국내에서는 자체 모니터 요원의 탐지, '누리캅스'와 같은 제보 시스템 등을 활용해 불법 사이트를 탐지하고 있지만 이러한 수동적인 프로세스로는 인력부족 같은 한계로 모든 불법 사이트를 탐지하기 어려운 실정이다. 이에 여러 학자들이 인공지능 기반의 자동 불법 도박 사이트 탐지 기술을 연구해왔다. Xu et al. (2019)은 가짜 사이트들의 HTML Tag 구조에는 차별적인 특징이 있다는 점을 발견하였다. 이는 HTML Tag 구조가 불법 사이트를 탐지하는데 주요한 특징정보가 될 수 있음을 시사하지만, 불법 사이트 탐지 모델에 HTML Tag 구조를 반영하여 모형의 성능을 제고하고자 하는 연구는 지금까지 거의 시도되지 않았다. 이러한 배경에서 본 연구는 HTML Tag 구조를 특징화하여 모형의 성능을 향상시키고자 하였고, HTML Tag 구조를 적절하게 벡터화하기 위한 방법론으로 Doc2Vec을 변형한 Tag2Vec을 제안한다. Tag2Vec 기반 모델의 효과를 검증하기 위해 '더 치트'의 유해 사이트 목록과 Google 검색을 통한 정상 사이트 목록을 데이터 세트로 활용하여 실증분석을 수행하였다. 그 결과 비교 모델로 설정된 URL 기반 탐지 모델보다 본 연구에서 제안하는 Tag2Vec 기반 탐지 모델이 분류 정확도, Recall, F1_Score에서 모두 향상된 성능을 보임을 확인할 수 있었다. 이러한 본 연구의 제안모델은 향후 지능형 기술을 통해 우리 사회의 건강도를 제고하는데 효과적으로 활용될 수 있을 것으로 기대된다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

봉제공정라인 생산 추적을 위한 CNN분류기 기반 에너지 모니터링 시스템 (CNN Classifier Based Energy Monitoring System for Production Tracking of Sewing Process Line)

  • 김준영;김형중;정우균;이재원;박용철;안성훈
    • 적정기술학회지
    • /
    • 제5권2호
    • /
    • pp.70-81
    • /
    • 2019
  • 의류산업은 대표적인 노동집약적인 산업 중 하나로 의류 제조의 기본 공정인 봉제 작업은 인력에 대한 의존도가 매우 높다. 의류 생산비용은 라인의 효율성에서 큰 영향을 받는데, 생산비용의 절감을 위해서는 생산 속도를 조절하여 라인의 균형 유지하는 것이 중요하다. 그러나, 현재 의류 생산라인에서 활용되고 있는 인력에 의한 생산 실적 집계 방식은 이를 위한 부수적인 인력의 소요 등으로 인한 추가 비용이 소요되어 중소기업들이 직접 적용하기 쉽지 않다. 완제품의 인력에 대한 의존도는 집계 시간의 추가 소요와 인적 오류가 크게 잠재되어 생산비용의 증가와 함께 효율성의 저하를 초래할 수 있다. 본 논문에서는 에너지 소비 데이터를 수집하고 이를 CNN (Convolutional Neural Network) 기법을 적용하여 분석함으로써 재봉 작업을 통하여 생산한 제품의 수량을 추적하고 자동으로 집계할 수 있는 봉제 작업 생산 추적 시스템을 제안한다. 개발된 시스템을 통하여 2종의 재봉 작업을 테스트 한 결과, 최대 98.6 %의 정확도를 보이며 재봉 작업을 감지할 수 있었다. 개발도상국에서 의류봉제산업은 매우 중요한 산업이나, 위에 언급한 문제들을 해결하기 위하여 고가의 첨단기술을 적용하는 등 많은 자본을 투입하는 것은 크게 제한된다. 적정 기술을 적용한 본 기술은 이러한 개발도상국의 의류산업에 큰 도움을 줄 수 있을 것으로 판단된다.

프로세스 마이닝을 활용한 온라인 교육 오픈 플랫폼 내 학습 패턴 분석 방법 개발 (Toward understanding learning patterns in an open online learning platform using process mining)

  • 김태영;김효민;조민수
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.285-301
    • /
    • 2023
  • 비대면 교육의 중요성 및 필요에 따른 수요가 증가함에 따라 국내외 온라인 교육 오픈 플랫폼이 활성화되고 있다. 본 플랫폼은 대학 등 교육 전문기관과 달리 학습자의 자율성이 높은 특징을 가지며 이에 따라 개인화된 학습 도구를 지원하기 위한 학습 행동 데이터의 분석 연구가 중요시 되고 있다. 실제적인 학습 행동을 이해하고 패턴을 도출하기 위하여 프로세스 마이닝이 다수 활용되었지만 온라인 교육 플랫폼과 같이 자기 관리형(Self-regulated) 환경에서의 학습 로그를 기반한 사례는 부족하다. 또한, 대부분 프로세스 모델 도출 등의 모델 관점에서의 접근이며 분석 결과의 실제적인 적용을 위한 개별 패턴 및 인스턴스 관점에서의 방법 제시는 미흡하다. 본 연구에서는 온라인 교육 오픈 플랫폼 내 학습 패턴을 파악하기 위하여 프로세스 마이닝을 활용한 분석 방법을 제시한다. 학습 패턴을 다각도로 분석하기 위하여 모델, 패턴, 인스턴스 관점에서의 분석 방법을 제시하며, 프로세스 모델 발견, 적합도 검사, 군집화 기법, 예측 알고리즘 등 다양한 기법을 활용한다. 본 방법은 국내 오픈 교육 플랫폼 내 기계학습 관련 강좌의 학습 로그를 추출하여 분석하였다. 분석 결과 온라인 강의의 특성에 맞게 비구조화된 프로세스 모델을 도출할 수 있었으며 구체적으로 한 개의 표준 학습 패턴과 세 개의 이상 학습 패턴으로 세분화할 수 있었다. 또한, 인스턴스별 패턴 분류 예측 모델을 도출한 결과 전체 흐름 중 초기 30%의 흐름을 바탕으로 예측하였을 때 0.86의 분류 정확도를 보였다. 본 연구는 프로세스 마이닝을 활용하여 학습자의 패턴을 체계적으로 분석한다는 점에서 기여점을 가진다.

심층신경망을 활용한 데이터 기반 ESG 성과 예측에 관한 연구: 기업 재무 정보를 중심으로 (Predicting Future ESG Performance using Past Corporate Financial Information: Application of Deep Neural Networks)

  • 김민승;문승환;최성원
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.85-100
    • /
    • 2023
  • 최근 기업의 지속가능경영 역량으로 대변되는 기업 ESG 성과(environmental, social, and corporate governance)가 투자의사 결정에 주요 요인 중 하나로 부각되고 있다. 전통적 ESG 성과 평가 프로세스는 평가기관마다의 고유 기준에 따라 질적 정성적 방식으로 수행되어 그 평가 소요 시간 및 비용이 큰 데 비해 투자의사 결정 시 신뢰성과 예측 가능성 및 적시성에 제약이 존재한다. 이에 본 연구에서는 정량화되고 공개된 기업 재무 정보를 활용하여 머신러닝을 통한 자동화된 기업 ESG 평가 예측을 시도하였다. 심층신경망 기법을 활용해 2019년부터 2021년까지 3년간 한국ESG기준원에서 제공한 1,780건의 ESG 평가에 대하여 총 12종(21,360건)의 시장 공개 재무 정보를 기반으로 예측 모형을 구축한 결과, 제안된 심층신경망 모형은 약 86%의 분류성능을 보여 여타 비교모형 대비 크게 높은 정확도를 나타냈다. 본 연구는 정량적이고 공개된 과거 기업 재무 정보만으로도 자동화된 프로세스를 통해 비교적 정확한 미래 ESG 평가 예측을 달성할 수 있었다는 점에 의의가 크다. 특히 기업 ESG 관련 정보 접근이 상대적으로 불리한 일반 투자자들의 입장에서 볼 때 낮은 비용과 적은 시간 투자로도 기업 ESG 성과 평가에 대한 예측 가능성과 적시성을 향상 시킬 수 있다는 점에 실용적 함의가 있다. 또한 본 연구는 향후 추가적인 국내외 데이터 수집 및 모형 고도화를 통해 기업 ESG 성과 예측 분야에서의 확장이 기대된다.

합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점 (The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model)

  • 한재상;김현주
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.237-251
    • /
    • 2023
  • 본 연구는 합성곱 신경망을 활용한 자동 채점 모델을 설계하고 학생의 운동학 그래프 답안에 적용함으로써, 과학 그래프 답안에 대한 자동 채점의 가능성을 탐색하였다. 연구자가 작성한 2,200개의 답안을 2,000개의 훈련 데이터와 200개의 검증 데이터로 데이터셋을 구성하고, 202개의 학생 답안을 100개의 훈련 데이터와 102개의 시험 데이터로 데이터셋을 구성하여 연구를 진행하였다. 먼저, 자동 채점모델을 설계하고 성능을 검증하는 과정에서는 연구자가 작성한 답안 데이터셋을 활용하여 그래프 이미지 분류에 최적화되도록 자동 채점모델을 완성하였다. 다음으로 자동 채점 모델에 훈련 데이터셋을 여러 유형으로 학습시키면서 학생의 시험 데이터셋에 대한 채점을 수행하여 훈련 데이터의 양이 많고 다양할수록 자동 채점 모델의 성능이 향상된다는 것을 확인하였고, 최종적으로 인간 채점과의 일치율은 97.06%, 카파 계수는 0.957, 가중 카파 계수는 0.968을 얻었다. 한편, 훈련 데이터로 학습되지 않은 유형의 답안의 경우 인간 채점자들 간에는 채점이 거의 일치하였으나, 자동 채점 모델은 일치하지 않게 채점하는 것을 확인하였다.

동작 기반 Autonomous Emotion Recognition 시스템: 감정 유도 자극에 따른 신체 맵 형성을 중심으로 (Motion based Autonomous Emotion Recognition System: A Preliminary Study on Bodily Map according to Type of Emotional Stimuli )

  • 배정은;정면걸;조영욱;김형숙;김광욱
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권3호
    • /
    • pp.33-43
    • /
    • 2023
  • 기존 연구에 따르면 감정은 신체 감각 및 신체 움직임과 같은 신체적 변화에 영향을 주고, 감정 자극에 따라 다르게 나타난다고 알려져 있다. 그러나, 감정의 자극에 따른 신체 감각 및 신체 움직임의 활성화 정도 및 Autonomous emotion recognition(AER) 시스템의 성능에 미치는 영향에 대한 연구는 아직 알려져 있지 않다. 본 연구에서는 20명의 피험자를 대상으로 3가지 종류의 감정 자극(단어, 사진, 영상)을 활용하여 AER 시스템에 미치는 영향을 연구하였다. 측정 변인으로는 정서적 반응, 컴퓨터 기반 자가 보고, Motion Capture 장비를 통해 측정한 신체 움직임을 활용하였다. 본 연구의 결과를 통하여 영상 자극이 다른 자극에 비해 더 많은 신체 움직임을 유도하는 것을 확인하고, 영상 자극을 통해 수집한 신체적 특이점이 AER을 위한 분류 정확도 역시 가장 높음을 확인하였다. 신체 움직임을 기반으로 한 감정적 특이점은 행복, 놀람, 분노, 중립 등에서 감정 유도 자극의 종류에 따라 비슷한 패턴이 나타남을 확인하였다. 본 연구의 결과는 향후 신체적 변화를 기반으로 한 AER 시스템 연구에 기여할 수 있을 것으로 기대된다.

크라우드소싱 드론 영상의 기하학적 품질 자동 검증 (Automatic Validation of the Geometric Quality of Crowdsourcing Drone Imagery)

  • 이동호;최경아
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.577-587
    • /
    • 2023
  • 크라우드소싱(crowdsourcing) 공간 데이터 활용 연구가 활발히 진행되고 있으나 데이터 품질의 불확실성으로 인한 문제점이 제기되고 있다. 특히 드론 영상 데이터셋에 품질이 낮은 데이터가 포함될 경우, 출력되는 공간 정보의 품질이 저하될 수 있다. 이를 위해 본 연구에서는 크라우드소싱된 영상의 기하학적 품질을 자동으로 검증하는 방법론을 제안하였다. 주요 품질 요소로는 영상의 공간해상도, 해상도 변화량, 매칭점 재투영 오차, 번들 조정 결과 등을 입력변수로 활용하였다. 공간 정보 생성에 적합한 영상을 분류하기 위해 학습 및 검증 데이터를 구축하고, radial basis function (RBF) 기반의 support vector machine (SVM) 모델로 학습을 진행하였다. 학습된 SVM 모델의 분류 정확도는 99.1%를 기록하였다. 품질 검증 모델 효과를 확인하기 위해 학습 및 검증에 사용하지 않은 드론 영상에 대하여 해당 모델을 적용하기 전후의 영상 데이터셋으로 각각 정사영상을 생성하고 비교하였다. 그 결과 모델 적용을 통하여 정사영상에 포함될 수 있는 다양한 왜곡을 줄이고 객체 식별력을 증대시키는 것을 확인하였다. 제안된 품질 검증 방법론은 다양한 품질의 크라우드소싱 데이터를 입력으로 받아 양질의 정보만을 자동 선별하게 함으로써 공간정보 생성에서의 활용 가능성을 증대시킬 것으로 기대한다.

KOMPSAT-3/3A 영상으로부터 U-Net을 이용한 산업단지와 채석장 분류 (Classification of Industrial Parks and Quarries Using U-Net from KOMPSAT-3/3A Imagery)

  • 박채원;정형섭;이원진;이광재;오관영;장재영;이명진
    • 대한원격탐사학회지
    • /
    • 제39권6_3호
    • /
    • pp.1679-1692
    • /
    • 2023
  • 대한민국은 인구 증가와 산업 발전의 결과로 많은 양의 오염물질을 배출하는 국가이자, 지리적 위치로 인해 월경성 대기오염의 심각한 영향을 받는 국가이다. 국내외에서 발생하는 오염물질이 대한민국의 대기오염에 큰 피해를 야기하는 상황에서, 대기 오염물질 배출원의 위치 정보는 대기 중 오염물질의 이동 및 분포를 파악하고, 국가 차원의 대기오염 관리 및 대응 전략을 수립하는 데 매우 중요하다. 본 연구는 이러한 배경을 바탕으로, 고해상도 광학위성 영상과 딥러닝 기반의 영상 분할 모델을 활용하여 대기오염 현황을 분석하는 데 필수적인 국내외 대기오염물질 배출원의 공간 정보를 효과적으로 획득하는 것을 목표로 수행되었다. 특히, 월경성 대기오염에 크게 기여하는 것으로 평가된 산업단지와 채석장을 주요 연구 대상으로 선정하였으며, 이들 영역에 대한 다목적실용위성 3호 및 3A호의 영상들을 수집하여 전처리한 후, 모델 학습을 위한 입력 및 라벨 데이터로 변환하였다. 해당 데이터를 활용하여 U-Net 모델을 학습시킨 결과, 전체 정확도는 0.8484, mean Intersection over Union (mIoU)은 0.6490을 달성하였다. 모델의 예측 결과 맵은 코스 어노테이션(Course Annotation) 방식으로 제작된 라벨 데이터보다 객체의 경계를 더욱 정확하게 추출하는 것으로 나타나, 데이터 처리 및 모델 학습 방법론의 유효성을 입증하였다.