• 제목/요약/키워드: Verification of News

검색결과 19건 처리시간 0.02초

SNR 기반 가중 KL 거리를 활용한 화자 변화 검증에 관한 연구 (The Study on Speaker Change Verification Using SNR based weighted KL distance)

  • 조준범;이지은;이경록
    • 융합정보논문지
    • /
    • 제7권6호
    • /
    • pp.159-166
    • /
    • 2017
  • 본 논문에서는 방송 뉴스에서 화자 변화 검증 성능 향상을 위해서 입력소음음성 향상과 SNR(Signal to Noise Ratio)기반 가중 함수 $w_m$를 적용한 KL 거리 $D_s$를 실험하였다. GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리 D를 이용한 화자 변화 검증 시스템(실험 0)을 기본 시스템으로 한다. 실험 1은 실험 0의 입력소음음성 향상을 위해 MMSE Log-STSA(Minimum Mean Square Error Log-Spectral Amplitude Estimator)를 적용하였다. 실험 2는 실험 1의 기존 KL거리 D 대신에 $D_s$를 적용하였다. 실험 데이터베이스는 다양한 소음을 반영하기 위해 스포츠 뉴스와 실외 인터뷰를 중심으로 구축하였다. 실험은 화자 변화 정보의 누락을 막기 위해 MDR(Missed Detection Rate) 0%를 기준으로 하였다. 실험 0은 FAR(False Alarm Rate) 71.5%의 성능을 보였다. 실험 1은 FAR 67.3%로 실험0에 비해 4.2% 향상되었고, 실험 2는 FAR 60.7%로 10.8% 향상되었다.

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석 (Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles)

  • 이수정;최두영
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.118-127
    • /
    • 2020
  • 본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

인터넷 허위통신 신고의 증거물 보존을 위한 프라이빗 블록체인 시스템 제안 (A Proposed Private Blockchain System for Preserving Evidence of False Internet Communications)

  • 배석민;양성열;정재진
    • 융합정보논문지
    • /
    • 제9권11호
    • /
    • pp.15-21
    • /
    • 2019
  • 프라이빗 블록체인 기술은 허가된 사용자만이 원장에 기록하거나 조회할 수 있어 기관이나 기업에서 주목을 받고 있으며, 분산원장기술에 기초하고 있어 저장된 트랜잭션은 위변조 할 수 없는 시스템이다. 인터넷을 통한 뉴스는 손쉽게 변경이 가능하므로 그만큼 조작의 가능성도 높아졌다. 이러한 폐해를 방지하기 위해 허위통신 신고제도를 운영한다. 하지만, 허위통신 신고와 검증시점 사이에 웹사이트의 콘텐츠가 변경되거나, 조작된 증거물로 허위 신고를 할 수 있다. 본 논문에서는 증거물을 일반 파일 서버에서 저장하여 위변조 방지에 취약한 문제가 있다. 보다 정확한 허위통신 관리를 위한 헤드리스 브라우저를 이용한 증거물 수집과 프라이빗 블록체인을 통한 증거물을 안전하게 보존하고 훼손될 가능성을 차단하는 시스템을 제안한다. 제안기법은 원본 HTML을 다운로드 받고 웹사이트를 이미지로 캡처한 후 신고내용과 함께 트랜잭션에 담아 프라이빗 블록체인에 저장하여 증거물의 획득부터 보존까지 무결성을 보장한다.

디스플레이 분야 국가핵심기술인 AMOLED 관련 특허의 판별 기준 연구 (A Study on the Discrimination Criteria of AMOLED-related Patents, a National Core Technology of Display Industry)

  • 박세희;장항배
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.105-121
    • /
    • 2024
  • 우리나라는 국가 차원으로 중요한 기술을 보호하기 위해 국가핵심기술 제도를 운영하고 있다. 국가핵심기술의 행정 절차에서는 관련 산업 전문가들의 정성적인 평가로 이루어지는 심의 과정이 중요하다. 시의적절한 기술 보호의 필요성이 커지자, 국가핵심기술 지정 및 해제와 관련된 행정 절차에 소요되는 시간을 단축할 필요성이 제기되었다. 이에 본 연구는, 국가핵심기술관련 특허를 판별하는 기준을 연구하였다. 디스플레이 분야 국가핵심기술인 AMOLED를 대상으로, 관련 뉴스와 논문에 LDA 토픽 모델링을 적용하여 핵심 기술과 기술의 개발 방향을 도출한 뒤, 산업발전법 제5조에 따른 AMOLED 첨단기술공정과 매핑하여 판별 기준을 마련하였다. 이후 기존에 알려진 AMOLED 국가핵심기술 특허를 통해 객관적인 검증을 수행하였다. 본 연구를 통해서 AMOLED 국가핵심기술 관련 특허를 판별할 수 있고, 관련 행정 절차의 시간을 단축할 수 있다.

다중 웹 데이터와 LSTM을 사용한 전염병 예측 (Prediction of infectious diseases using multiple web data and LSTM)

  • 김영하;김인환;장백철
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.139-148
    • /
    • 2020
  • 전염병은 오래전부터 인류를 괴롭혀 왔으며 이를 예측 하고 예방하는 것은 인류에게 있어 큰 과제였다. 이러한 이유로 지금까지도 전염병을 예측하기 위해 다양한 연구가 진행되고 있다. 초기의 연구 중 대부분은 CDC(Centers for Disease Control and Prevention)의 역학 데이터에 의존한 연구였으며, CDC에서 제공하는 데이터는 일주일에 한 번만 갱신돼 실시간 질병 발생 건수를 예측하기 어렵다는 문제점을 갖고 있었다. 하지만 최근 IT 기술의 발전으로 여러 인터넷 매체들이 등장하면서 웹 데이터를 통해 전염병의 발생을 예측하고자 하는 연구가 진행되었고 이 중 우리가 조사한 연구 중 대부분은 단일 웹 데이터를 사용하여 질병을 예측하는 연구였다. 하지만 단일 웹 데이터를 통한 질병 예측은 "COVID-19" 같이 최근에 등장한 전염병에 대해서는 많은 양의 학습 데이터를 수집하기 어려우며 이러한 모델을 통해 정확한 예측을 하기 어렵다는 단점을 가지고 있다. 이에 우리는 전염병 발생을 LSTM 모델을 통해 예측할 때 여러 개의 웹 데이터를 사용하는 모델이 단일 웹 데이터를 사용하는 모델보다 정확도가 더 높음을 실험을 통해 증명하고 전염병 예측에 적절한 모델을 제안하고자 한다. 본 실험에서는 단일 웹 데이터를 사용하는 모델과 우리가 제안하는 모델을 사용하여 "말라리아"와 "유행성이하선염"의 발생을 예측했다. 우리는 2017년 12월 31 일부터 2019년 12월 28일까지 총 104주 분량의 NEWS, SNS, 검색 쿼리 데이터를 수집했는데, 이 중 75주는 학습 데이터로, 29주는 검증 데이터로 사용됐다. 실험 결과 우리가 제안한 모델의 예측 결과와 단일 웹 데이터를 사용한 모델의 예측 결과를 비교했을 때 검증 데이터에 대해서 피어슨 상관계수가 0.94, 0.86로 가장 높았고 RMSE 또한 0.19, 0.07로 가장 낮은 오차를 보여주었다.

네이티브 광고의 전략적 관리방안에 관한 연구 (A Study on Strategic Management of Native Advertisement)

  • 손제영;강인원
    • 경영과정보연구
    • /
    • 제38권1호
    • /
    • pp.63-81
    • /
    • 2019
  • 기업들은 기존의 웹광고 기법인 베너 광고, 팝업 광고, 삽입 광고 등의 단점들을 극복하기 위해, 이용자들의 거부감을 줄이는 네이티브 광고(native ad)를 적극적으로 활용하고 있다. 네이티브 광고는 이용자들의 거부감을 줄이고 동시에 이목을 이끌어 낼 수 있다는 점에서 유용한 광고기법으로 여겨지고 있으나, 최근에는 전문적인 기사나 동영상 콘텐츠가 광고로 둔갑을 하는 이른바 가짜뉴스, 가짜콘텐츠가 생성되어 그 폐해가 많아 보인다. 이에 본 연구는 웹상에서 기업들이 네이티브 광고를 어떻게 조율하고 통제하는 것이 합리적인 방향으로 기업들의 성과에 기여할 수 있는지에 대하여 파악하고자 하였다. 연구의 검증결과, 광고에 대한 평가가 부정적으로 지각될수록 해당 광고게시물에 대한 설득수준을 저해함과 동시에 해당 광고가 노출되는 웹사이트에도 부정적인 영향을 미칠 수 있다는 것을 파악하였다. 또한, 본 연구는 네이티브 광고기법의 부정적 자극요인들을 중심으로 기업의 질적 성과에 미치는 영향력을 검증한 결과, 정보원의 비전문성이 광고에 대한 의구심에 가장 높은 영향을 미친다는 것을 알 수 있었다. 뿐만 아니라 플랫폼의 정보과잉은 광고에 대한 부정적 평가와 더불어 웹사이트의 평가에도 직접적인 영향을 가진다는 것을 확인할 수 있었다. 아울러 본 연구는 이용자의 웹사이트 관여수준에 따라 경로 간의 차이를 검증함으로써, 세분시장에서 적용될만한 구체적인 시사점들을 제시하였다.

비정형 데이터를 활용한 가뭄평가 - 보령지역을 중심으로 - (Drought evaluation using unstructured data: a case study for Boryeong area)

  • 정진홍;박동혁;안재현
    • 한국수자원학회논문집
    • /
    • 제53권12호
    • /
    • pp.1203-1210
    • /
    • 2020
  • 가뭄은 다양한 수문학적 또는 기상학적 인자들이 복합적으로 작용하여 발생하기 때문에 가뭄의 사상을 정확히 평가하는 것은 어려운 일이나, 이를 정량적으로 해석하기 위해 다양한 가뭄지수들이 개발되어 왔다. 하지만 현재 활용중인 가뭄지수들은 단일변량의 부족량을 통해 산정되며, 복합적인 원인으로 발생하는 가뭄의 사상을 정확히 판단하지 못하는 문제가 있다. 단순 단일변량의 부족을 가뭄이라고 판단하기는 어렵기 때문이다. 최근에는 빅데이터 분석에서 많이 활용되고 있는 비정형 데이터를 활용하여 지수를 개발하는 연구들이 타 분야에서 진행되고 있으며 우수성이 입증되고 있다. 따라서 본 연구에서는 기존 가뭄지수에 활용 중인 기상 및 수문정보(강수량, 댐 유입량)에 각각 비정형 데이터(뉴스데이터)를 결합하여 가뭄지수를 산정하고, 산정된 가뭄지수의 검증을 통해 가뭄해석의 활용성을 평가하고자 한다. 결합가뭄지수 산정을 위해 Clayton Copula 함수를 활용하였으며, 매개변수 추정은 교정방법을 이용하였다. 분석결과, 기존의 가뭄지수(SPI, SDI)보다 비정형 데이터를 결합한 가뭄지수가 가뭄기간을 적절히 재현하는 것으로 나타났다. 또한 Receiver Operating Characteristic (ROC) score가 기존의 가뭄지수들보다 높게 산정되어 가뭄해석에 있어 활용성이 우수하였다. 본 연구에서 산정된 결합가뭄지수는 기존 단일변량 가뭄지수의 해석적 한계를 보완하고 비정형데이터를 활용한 가뭄지수의 활용성이 우수하다는 점에서 활용성이 높다고 판단된다.

메이커스(Makers)를 위한 크라우드 펀딩 디자인 진단 가이드라인에 관한 연구 (A Study on the Design Diagnostic Guideline in Crowdfunding for Makers)

  • 오인균;이장우
    • 한국과학예술포럼
    • /
    • 제35권
    • /
    • pp.281-292
    • /
    • 2018
  • 크라우드 펀딩은 소셜 펀딩으로도 불리며, 예비 창업자, 메이커스들이 사업자금과 생산자금을 모을 수 있는 창구이다. 최근에 와서 크라우드 펀딩은 높은 성장률을 기록하고 있으며, 정부에서도 각종 관련 지원 정책을 내놓고 있다. 본 연구는 이와 같은 시대적 상황을 배경으로 제품 디자인 중심의 메이커스들을 대상으로 크라우드 펀딩 디자인 진단 가이드라인을 도출하는 것을 그 목적으로 하며, 이를 위해서 문헌 조사 방법, 전문가 인터뷰 방법과 같은 복합적 연구방법을 적용하였다. 문헌조사는 관련 뉴스와 선행연구를 중심으로 조사하였으며, 인터뷰의 경우 관련 전문가 10명을 대상으로 1차와 2차로 나누어서 진행하였다. 문헌 조사 결과 크라우드 펀딩에서 사용 중인 진단 가이드라인에는 디자인과 관련된 내용이 부족하고 세부적이지 못했다. 그 결과 디자인 카피와 제품 사기 문제가 있는 것으로 조사되었다. 그리고 선행연구를 통해서 펀딩 성공을 위해서는 정보전달 글과 이미지가 중요한 요소임을 알게 되었다. 전문가 인터뷰의 경우 1차 인터뷰에서 7명의 전문가가 참여하였으며, 2단계 프로세스의 9개 진단 주제의 가이드라인 초안을 도출하였다. 이후 2차 인터뷰에서는 3명의 진단 경험을 가진 전문가가 참여하여 가이드라인 초안에 대한 검증과 보완과정을 거쳐서 3단계 프로세스의 8개 진단 주제의 최종 크라우드 펀딩 디자인 진단 가이드라인을 만들었다. 본 연구결과는 메이커들 외에 관리자들도 활용할 수 있도록 하였으며, 이를 통해 문제점을 사전에 예방하고 건전한 메이커스 크라우드 펀딩 생태계 조성에 도움이 되기를 기대한다.