• 제목/요약/키워드: automatic classification

검색결과 876건 처리시간 0.028초

문서 요약 기법이 가짜 뉴스 탐지 모형에 미치는 영향에 관한 연구 (A Study on the Effect of the Document Summarization Technique on the Fake News Detection Model)

  • 심재승;원하람;안현철
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.201-220
    • /
    • 2019
  • 가짜뉴스가 전세계적 이슈로 부상한 최근 수년간 가짜뉴스 문제 해결을 위한 논의와 연구가 지속되고 있다. 특히 인공지능과 텍스트 분석을 이용한 자동화 가짜 뉴스 탐지에 대한 연구가 주목을 받고 있는데, 대부분 문서 분류 기법을 이용한 연구들이 주를 이루고 있는 가운데 문서 요약 기법은 지금까지 거의 활용되지 않았다. 그러나 최근 가짜뉴스 탐지 연구에 생성 요약 기법을 적용하여 성능 개선을 이끌어낸 사례가 해외에서 보고된 바 있으며, 추출 요약 기법 기반의 뉴스 자동 요약 서비스가 대중화된 현재, 요약된 뉴스 정보가 국내 가짜뉴스 탐지 모형의 성능 제고에 긍정적인 영향을 미치는지 확인해 볼 필요가 있다. 이에 본 연구에서는 국내 가짜뉴스에 요약 기법을 적용했을 때 정보 손실이 일어나는지, 혹은 정보가 그대로 보전되거나 혹은 잡음 제거를 통한 정보 획득 효과가 발생하는지 알아보기 위해 국내 뉴스 데이터에 추출 요약 기법을 적용하여 '본문 기반 가짜뉴스 탐지 모형'과 '요약문 기반 가짜뉴스 탐지 모형'을 구축하고, 다수의 기계학습 알고리즘을 적용하여 두 모형의 성능을 비교하는 실험을 수행하였다. 그 결과 BPN(Back Propagation Neural Network)과 SVM(Support Vector Machine)의 경우 큰 성능 차이가 발생하지 않았지만 DT(Decision Tree)의 경우 본문 기반 모델이, LR(Logistic Regression)의 경우 요약문 기반 모델이 다소 우세한 성능을 보였음을 확인하였다. 결과를 검증하는 과정에서 통계적으로 유의미한 수준으로는 요약문 기반 모델과 본문 기반 모델간의 차이가 확인되지는 않았지만, 요약을 적용하였을 경우 가짜뉴스 판별에 도움이 되는 핵심 정보는 최소한 보전되며 LR의 경우 성능 향상의 가능성이 있음을 확인하였다. 본 연구는 추출요약 기법을 국내 가짜뉴스 탐지 연구에 처음으로 적용해 본 도전적인 연구라는 점에서 의의가 있다. 하지만 한계점으로는 비교적 적은 데이터로 실험이 수행되었다는 점과 한 가지 문서요약기법만 사용되었다는 점을 제시할 수 있다. 향후 대규모의 데이터에서도 같은 맥락의 실험결과가 도출되는지 검증하고, 보다 다양한 문서요약기법을 적용해 봄으로써 요약 기법 간 차이를 규명하는 확장된 연구가 추후 수행되어야 할 것이다.

BERTopic을 활용한 불면증 소셜 데이터 토픽 모델링 및 불면증 경향 문헌 딥러닝 자동분류 모델 구축 (Topic Modeling Insomnia Social Media Corpus using BERTopic and Building Automatic Deep Learning Classification Model)

  • 고영수;이수빈;차민정;김성덕;이주희;한지영;송민
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.111-129
    • /
    • 2022
  • 불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 'Reddit'의 불면증 커뮤니티인 'insomnia'를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군('부정적 감정', '조언 및 도움과 감사', '불면증 관련 질병', '수면제', '운동 및 식습관', '신체적 특징', '활동적 특징', '환경적 특징')을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

수면단계 자동분류를 위한 심박동변이도 분석 (Analyzing Heart Rate Variability for Automatic Sleep Stage Classification)

  • 김원식;김교헌;박세진;신재우;윤영로
    • 감성과학
    • /
    • 제6권4호
    • /
    • pp.9-14
    • /
    • 2003
  • 수면단계는 수면감을 평가하는 데 있어서 중요한 생리지표로서 사용되어 왔다. 그러나 수면다원검사를 이용한 전통적 수면단계 분류방법은 뇌전도(electroencephalogram : EEG), 안전도(electrooculogram : EOG), 심전도(electrocardiogram : ECG), 근전도(electromyogram : EMG) 등을 종합적으로 측정하므로 수면단계를 비교적 정확히 분류할 수 있지만 피험자에게 심한 구속감을 주는 문제가 있다. 본 연구에서는, 각성상태에서 교감신경계가 지배적인 반면에 수면 중에는 부교감 신경계가 더 활동적인 점에 착안하여 수면단계를 간단히 분류할 수 있는 방법을 찾고자 수면단계에 따른 심박동변이도(heart rate variability : HRY)를 분석하였다. 이 실험에는 건강한 대학생 6명이 2일씩 전체 12회의 야간수면에 참여하였다. 수면다원검사 장치를 이용하여 피험자들이 수면을 취하고 있는 동안, EEG, EOG, ECG, EMG(턱 및 다리)를 측정하여 수면단계를 "Standard scoring system for sleep stage"에 따라 자동으로 분류하였다. 그런 뒤, 본 연구를 통하여 제작된 Sleep Data Acquisition/Analysis 시스템을 이용하여 수면다원검사 장치로부터 ECG신호만 추출하여 HRV의 전력스펙트럼을 3개의 영역[저주파수대역(low frequency : LF), 중간주파수대역(medium frequency : MF), 고주파수대역(high frequency : HF)]으로 나누어 분석하였다. 단일채널 ECG를 이용하여 수면단계별로 HRV의 LF/HF를 분석한 결과, W(wakefulness)단계가 2단계에 비하여 325%높게(p<.05), 3단계에 비하여 628%높게(p<.001), 4단계에 비하여 800%높게(p<.001) 나타났으며, 4단계는 REM(rapid eye movement)단계에 비하여 427% 낮게(p<.05), 1단계에 비하여 418% 낮게(p<.05) 나타났다. 또한 LF/HF가 수면단계에 따라 변화하는 양상은 W, REM, 1, 2, 3, 4단계의 순으로 단조 감소하였다. 한편, 수면단계별 MF/(LF+HF)의 차이는 유의하지 않았으나 표본집단의 기술통계치를 살펴본 바 REM단계와 3단계의 평균치가 가장 높았다.치가 가장 높았다.

  • PDF

매장 문화재 공간 분포 결정을 위한 지하투과레이더 영상 분석 자동화 기법 탐색 (Automated Analyses of Ground-Penetrating Radar Images to Determine Spatial Distribution of Buried Cultural Heritage)

  • 권문희;김승섭
    • 자원환경지질
    • /
    • 제55권5호
    • /
    • pp.551-561
    • /
    • 2022
  • 지구물리탐사기법은 매장 문화재 조사에 필요한 높은 해상도의 지하 구조 영상 생성과 매장 유구의 정확한 위치 결정하는 데 매우 유용하다. 이 연구에서는 경주 신라왕경 중심방의 고해상도 지하투과레이더 영상에서 유구의 규칙적인 배열이나 선형 구조를 자동적으로 구분하기 위하여 영상처리 기법인 영상 특징 추출과 영상분할 기법을 적용하였다. 영상 특징 추출의 대상은 유구의 원형 적심과 선형의 도로 및 담장으로 캐니 윤곽선 검출(Canny edge detection)과 허프 변환(Hough Transform) 알고리듬을 적용하였다. 캐니 윤곽선 검출 알고리듬으로 검출된 윤곽선 이미지에 허프 변환을 적용하여 유구의 위치를 탐사 영상에서 자동 결정하고자 하였으나, 탐사 지역별로 매개변수를 달리해서 적용해야 한다는 제약이 있었다. 영상 분할 기법의 경우 연결요소 분석 알고리듬과 QGIS에서 제공하는 Orfeo Toolbox (OTB)를 이용한 객체기반 영상분석을 적용하였다. 연결 요소 분석 결과에서, 유구에 의한 신호들이 연결된 요소들로 효과적으로 인식되었지만 하나의 유구가 여러 요소로 분할되어 인식되는 경우도 발생함을 확인하였다. 객체기반 영상분석에서는 평균이동(Large-Scale Mean-Shift, LSMS) 영상 분할을 적용하여 각 분할 영역에 대한 화소 정보가 포함된 벡터 레이어를 우선 생성하였고, 유구를 포함하는 영역과 포함하지 않는 영역을 선별하여 훈련 모델을 생성하였다. 이 훈련모델에 기반한 랜덤포레스트 분류기를 이용해 LSMS 영상분할 벡터 레이어에서 유구를 포함하는 영역과 그렇지 않은 영역이 자동 분류 될 수 있음을 확인하였다. 이러한 자동 분류방법을 매장 문화재 지하투과레이더 영상에 적용한다면 유구 발굴 계획에 활용가능한 일관성 있는 결과를 얻을 것으로 기대한다.

GOCI-II 기반 괭생이모자반 모니터링 시스템 성능 평가: 황해 및 동중국해 해역 오탐지 제거 결과를 중심으로 (Performance Evaluation of Monitoring System for Sargassum horneri Using GOCI-II: Focusing on the Results of Removing False Detection in the Yellow Sea and East China Sea)

  • 이한빛;김주은;김문선;김동수;민승환;김태호
    • 대한원격탐사학회지
    • /
    • 제39권6_2호
    • /
    • pp.1615-1633
    • /
    • 2023
  • 괭생이모자반은 황해 및 동중국해에서 대규모 번식하는 부유조류 중 하나로 우리나라 연안에 유입되어 환경 파괴 및 양식업 피해 등 다양한 문제점을 야기한다. 효율적인 피해 예방 및 연안 환경 보존을 위하여 최근 인공위성 기반 원격탐사 기술을 활용한 괭생이모자반 탐지 알고리즘 개발이 활발하게 이루어지고 있다. 하지만, 잘못된 탐지 정보는 해상 수거 선박의 이동 거리 증가, 지자체나 유관기관의 대응 혼선 등을 유발하므로 괭생이모자반 공간정보 생산 시 오탐지 최소화는 매우 중요하다. 본 연구는 국립해양조사원 국가해양위성센터의 GOCI-II 기반 괭생이모자반 탐지 알고리즘을 활용하여 자동으로 오탐지 화소를 제거하는 기술을 적용하였다. 주요 오탐지 발생 원인 분석 결과를 바탕으로 선형·산발적 오탐지 및 봄, 여름철에 중국 연안에서 대량으로 발생하는 녹조류를 오탐지로 간주하여 제거하는 과정을 포함하였다. 2022년 2월 24일부터 6월 25일까지 괭생이모자반 발생일을 대상으로 오탐지 자동 제거 기법을 적용하고, 중해상도 위성 영상을 이용하여 육안 판독 결과를 생성하고 정성적, 정량적 평가를 수행하였다. 선형 오탐지는 완전히 제거하였으며, 산발적 및 녹조 오탐지는 분포 파악에 영향을 주는 대부분의 오탐지 결과를 제거하였다. 자동 오탐지 제거 과정 이후에도 육안 판독 결과 대비 괭생이모자반의 분포 면적 확인이 가능하였으며, 이진분류모델을 이용하여 정확도와 정밀도는 각각 평균 97.73%, 95.4%로 산출하였다. 재현율은 매우 낮은 29.03%였는데, 이는 GOCI-II와 중해상도 위성영상의 관측 시간 불일치에 의한 괭생이모자반 이동 영향, 공간해상도 차이, 정사보정에 따른 위치 편차, 그리고 구름 마스킹 영향에 의한 것으로 추정하였다. 본 연구의 괭생이모자반 오탐지 제거 결과는 공간적인 분포 현황을 준실시간으로 파악할 수 있으나 생체량을 정확하게 추정하는 것은 한계가 존재하였다. 따라서, 지속적인 괭생이모자반 모니터링 시스템 고도화 연구를 통해 향후 괭생이모자반 대응계획수립을 위한 자료로 활용하고자 한다.