• 제목/요약/키워드: 온라인 기계학습 모델

검색결과 35건 처리시간 0.026초

기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구 (Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy)

  • 백지수;이승언;한지영;차미영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF

한국어 트위터의 감정 분류를 위한 기계학습의 실증적 비교 (An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter)

  • 임좌상;김진만
    • 한국멀티미디어학회논문지
    • /
    • 제17권2호
    • /
    • pp.232-239
    • /
    • 2014
  • 온라인에서의 글쓰기가 늘어나면서, 기계학습을 통해 이를 분류하는 연구가 늘고 있다. 그럼에도 불구하고 한국어로 작성된 마이크로블로그를 대상으로 한 연구는 많지 않다. 또한 통계적으로 기계학습을 평가한 연구를 찾아보기 힘들다. 본 논문에서는 트위터를 대상으로, 표본을 추출하고, 형태소와 음절을 자질로 사용하여 기계학습에 따라 감정을 분류하였다. 그 결과 약 76%정도 트위터에 포함된 감정이 분류되었다. Support Vector Machine이 Na$\ddot{i}$ve Bayes보다 정확했고, 선형모델도 비구조적인 텍스트 처리에 비선형모델에 상응하는 정확성을 보였다. 또한 형태소가 음절 자질에 비해 높은 정확성을 보이지 않았다.

기계 학습 방법을 이용한 활동 프로파일 기반의 스마트 시니어 분류 모델 개발 (Development of Smart Senior Classification Model based on Activity Profile Using Machine Learning Method)

  • 윤유동;양영욱;지혜성;임희석
    • 한국융합학회논문지
    • /
    • 제8권1호
    • /
    • pp.25-34
    • /
    • 2017
  • 최근 스마트폰의 보급 및 웹 서비스의 도입으로 온라인 사용자들은 대규모의 콘텐츠를 시간과 장소에 관계없이 접할 수 있게 되었다. 그러나 사용자들은 대규모의 콘텐츠 사이에서 원하는 콘텐츠를 찾는 데 어려움을 겪게 되었다. 이러한 문제를 해결하기 위해 다양한 분야에서 사용자 모델링 및 추천 시스템에 대한 연구가 활발하게 수행되었다. 그러나 정보 환경의 변화에 따른 시니어 계층의 적극적인 변화에도 불구하고 시니어 계층에 초점을 맞춘 사용자 모델링 및 추천 시스템에 대한 연구는 매우 부족한 실정이다. 이에 본 논문에서는 기계 학습 방법을 기반으로 스마트 시니어 계층의 선호도를 파악할 수 있는 모델링 방법을 제안하고, 스마트 시니어 분류 모델을 개발한다. 이 결과, 스마트 시니어 계층의 선호도를 파악할 수 있을 뿐만 아니라 스마트 시니어 분류 모델 개발을 통해 시니어 사용자에게 가장 적합한 활동 및 콘텐츠를 제공하는 콘텐츠 추천 연구에 대한 발판을 마련하였다.

BERT 언어 모델을 이용한 감정 분석 시스템 (Sentiment Analysis System by Using BERT Language Model)

  • 김택현;조단비;이현영;원혜진;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.975-977
    • /
    • 2020
  • 감정 분석은 문서의 주관적인 감정, 의견, 기분을 파악하기 위한 방법으로 소셜 미디어, 온라인 리뷰 등 다양한 분야에서 활용된다. 문서 내 텍스트가 나타내는 단어와 문맥을 기반으로 감정 수치를 계산하여 긍정 또는 부정 감정을 결정한다. 2015년에 구축된 네이버 영화평 데이터 20 만개에 12 만개를 추가 구축하여 감정 분석 연구를 진행하였으며 언어 모델로는 최근 자연어처리 분야에서 높은 성능을 보여주는 BERT 모델을 이용하였다. 감정 분석 기법으로는 LSTM(Long Short-Term Memory) 등 기존의 기계학습 기법과 구글의 다국어 BERT 모델, 그리고 KoBERT 모델을 이용하여 감정 분석의 성능을 비교하였으며, KoBERT 모델이 89.90%로 가장 높은 성능을 보여주었다.

기계학습 기반 비트코인 네트워크 트랜잭션 수 예측에 관한 연구 (A Study on the Prediction of Number of Bitcoin Network Transactions Based on Machine Learning)

  • 지세현;백의준;신무곤;박준상;김명섭
    • KNOM Review
    • /
    • 제22권1호
    • /
    • pp.68-76
    • /
    • 2019
  • 블록체인 기술을 기반으로 만들어진 비트코인은 Satoshi Nagamoto에 의해 개발된 온라인 암호화폐이다. 2009년 1월 3일 최초로 발행된 비트코인은 트랜잭션 수의 증가와 함께 급속도로 발전 중이다. 그러나 비트코인 트랜잭션수의 증가에 따른 부작용이 발생하고 있다. 비트코인 트랜잭션 수를 예측하는 것은 비트코인 네트워크에 발생하는 부작용에 대비하기 위해 중요하다. 본 논문은 두 가지 기계학습 알고리즘을 적용하여 비트코인 트랜잭션 수를 예측하는 모델을 설계한 뒤, 실험을 통해 비트코인 트랜잭션 수를 예측하는 모델을 제안한다.

점진적 샘플링과 정규 상호정보량을 이용한 온라인 기계학습 공조기 급기온도 예측 모델 개발 (Development of Online Machine Learning Model for AHU Supply Air Temperature Prediction using Progressive Sampling and Normalized Mutual Information)

  • 추한경;신한솔;안기언;라선중;박철수
    • 대한건축학회논문집:구조계
    • /
    • 제34권6호
    • /
    • pp.63-69
    • /
    • 2018
  • The machine learning model can capture the dynamics of building systems with less inputs than the first principle based simulation model. The training data for developing a machine learning model are usually selected in a heuristic manner. In this study, the authors developed a machine learning model which can describe supply air temperature from an AHU in a real office building. For rational reduction of the training data, the progressive sampling method was used. It is found that even though the progressive sampling requires far less training data (n=60) than the offline regular sampling (n=1,799), the MBEs of both models are similar (2.6% vs. 5.4%). In addition, for the update of the machine learning model, the normalized mutual information (NMI) was applied. If the NMI between the simulation output and the measured data is less than 0.2, the model has to be updated. By the use of the NMI, the model can perform better prediction ($5.4%{\rightarrow}1.3%$).

효율적인 문헌 분류를 위한 시계열 기반 데이터 집합 선정 기법 (Time-Series based Dataset Selection Method for Effective Text Classification)

  • 채영훈;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.39-49
    • /
    • 2017
  • 인터넷 기술이 발전함에 따라 온라인상의 데이터는 급격하게 증가하고 있고, 증가하는 데이터에 대해 점진적인 기계학습 기법을 통해 효율적으로 학습하기 위한 연구가 진행되고 있다. 온라인상의 문서는 대부분 게시일, 출판일과 같은 시계열적 정보를 포함하고 있고, 이를 분류에 반영한다면 효율적인 분류가 가능할 것이다. 본 연구에서는 웹 문서상에서 나타나는 어휘의 시계열적 변화를 분석하였고, 분석한 시계열 정보를 기반으로 데이터 집합을 분할하여 효율적인 분류 학습 기법을 제안한다. 실험 및 검증을 위해 온라인상의 뉴스 기사 100만 건을 시계열 정보를 포함하여 수집하였다. 수집된 데이터를 바탕으로 데이터 집합을 분할하여 $Na{\ddot{i}}ve$ Bayes 및 SVM 분류기를 사용하여 실험을 진행하였고, 각 모델에서 전체 데이터 집합 학습 대비 최대 2.02% 포인트, 2.32% 포인트의 성능 향상을 확인하였다. 본 연구를 통해 시계열적 어휘의 변화를 분류에 반영하여 분류의 성능을 향상시킬 수 있음을 확인하였다.

온라인 간편 결제 환경에서 기계학습을 이용한 무자각 인증 기술 연구 (A Study on Unconsciousness Authentication Technique Using Machine Learning in Online Easy Payment Service)

  • 류권상;서창호;최대선
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1419-1429
    • /
    • 2017
  • 최근 환경기반 인증 기술로 사용자의 로그인 히스토리를 계정도용 또는 정상 로그인으로 분류한 후 사용자별로 통계모델을 만들어 사용자를 인증하는 Reinforced authentication이 제안되었다. 하지만 Reinforced authentication은 사용자가 과거에 계정도용을 당한 적이 없으면 공격을 당할 가능성이 높다. 본 논문은 이러한 문제점을 해결하기 위해 기계학습 알고리즘을 이용하여 사용자 환경정보와 타인의 환경정보를 함께 학습시켜 2-Class 사용자 모델을 만드는 무자각 인증 기술을 제안한다. 제안한 기술의 성능을 평가하기 위해 목표 사용자에 대해 아무 정보도 없는 무 지식 공격자와 목표 사용자에 대해 한 가지의 정보만 알고 있는 정교한 공격자에 대한 Evasion Attack을 실험하였다. 무 지식 공격자에 대한 실험 결과 Class 0의 Precision과 Recall 각각 1.0과 0.998로 측정되었으며, 정교한 공격자에 대한 실험결과 Class 0의 Precision과 Recall 각각 0.948과 0.998로 측정되었다.

의학문서 질의응답을 위한 정답 스닛핏 검색 (Answer Snippet Retrieval for Question Answering of Medical Documents)

  • 이현구;김민경;김학수
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.927-932
    • /
    • 2016
  • 온라인 의학 문서의 폭발적 증가와 함께 질의응답 시스템에 대한 필요성이 늘어나고 있다. 최근에는 기계학습에 기반 한 질의응답 모델들이 다양한 영역에서 좋은 결과를 보여 왔다. 그러나 의학 영역에서 질의응답 모델들은 학습 데이터의 부족으로 인해 여전히 정보 검색 기술에 기반을 두고 있다. 본 논문에서는 다양한 정보검색 기술에 기반 한 의학문서 질의응답용 정답 스닛핏 검색 모델을 제안한다. 제안 모델은 먼저 클러스터 기반 검색 기술을 이용하여 의학 문서로부터 많은 정답 후보 문장을 검색한다. 그리고 다양한 문장 검색 기술들에 기반 한 정답 후보 문장 재순위화 모델을 사용하여 신뢰성 있는 정답 스닛핏을 생성한다. BioASQ 4b 데이터를 이용한 실험에서 제안 모델은 기존 모델보다 좋은 성능(MAP 0.0604)을 보였다.

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF