• 제목/요약/키워드: election prediction

검색결과 28건 처리시간 0.019초

댓글 분석을 통한 19대 한국 대선 후보 이슈 파악 및 득표율 예측 (Issue tracking and voting rate prediction for 19th Korean president election candidates)

  • 서대호;김지호;김창기
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.199-219
    • /
    • 2018
  • 인터넷의 일상화와 각종 스마트 기기의 보급으로 이용자들로 하여금 실시간 의사소통이 가능하게 하여 기존의 커뮤니케이션 양식이 새롭게 변화되었다. 인터넷을 통한 정보주체의 변화로 인해 데이터는 더욱 방대해져서 빅데이터라 불리는 정보의 초대형화를 야기하였다. 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회로 여겨지고 있다. 특히 텍스트 마이닝은 비정형 텍스트 데이터를 이용해 패턴을 탐구하여 의미있는 정보를 찾아낸다. 텍스트 데이터는 신문, 도서, 웹, SNS 등 다양한 곳에 존재하기 때문에 데이터의 양이 매우 다양하고 방대하여 사회적 실제를 이해하기 위한 데이터로 적합하다. 본 연구는 한국 최대 인터넷 포털사이트 뉴스의 댓글을 수집하여 2017년 19대 한국 대선을 대상으로 연구를 수행하였다. 대선 선거일 직전 여론조사 공표 금지기간이 포함된 2017년 4월 29일부터 2017년 5월 7일까지 226,447건의 댓글을 수집하여 빈도분석, 연관감성어 분석, 토픽 감성 분석, 후보자 득표율 예측을 수행하였다. 이를 통해 각 후보자들에 대한 이슈를 분석 및 해석하고 득표율을 예측하였다. 분석 결과 뉴스 댓글이 대선 후보들에 대한 이슈를 추적하고 득표율을 예측하기에 효과적인 도구임을 보여주었다. 대선 후보자들은 사회적 여론을 객관적으로 판단하여 선거유세 전략에 반영할 수 있고 유권자들은 각 후보자들에 대한 이슈를 파악하여 투표시 참조할 수 있다. 또한 후보자들이 빅데이터 분석을 참조하여 선거캠페인을 벌인다면 국민들은 자신들이 원하는 바가 후보자들에게 피력, 반영된다는 것을 인지하고 웹상에서 더욱 적극적인 활동을 할 것이다. 이는 국민의 정치 참여 행위로써 사회적 의의가 있다.

비정형 데이터 분석을 통한 선거 여론조사 예측력 개선 방안 연구 (Prediction improvement of election polls by unstructured data analysis)

  • 박선빈;김명준
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.655-665
    • /
    • 2018
  • 소셜 네트워크 서비스(social network service; SNS)는 개개인의 의견을 공유하거나 소통하는 일반적인 도구로 사용되고 있으며, 특히 정치적인 이슈의 전파 과정에서 타인과의 공유를 통하여 자신이 지지하는 후보에 대한 긍정적인 홍보 등을 통해 여론을 형성 또는 확장한다. 기존의 여론 조사 결과는 응답률, 표본 수집의 방식 등과 관련하여 예측의 정확성에 대한 끊임없는 논란이 되어왔다. 본 논문은 이러한 소셜 네트워크 서비스 상에 존재하는 수많은 비정형 데이터의 감성 분석을 통하여 여론조사의 예측력을 개선, 보완하는 방안을 제시하고자 한다. 제시하고자 하는 연구 내용은 비정형 데이터 크롤링 및 기존에 사용되던 감성 사전에 대한 추가적인 보정 과정을 포함하고 있으며, 이를 통하여 본 논문에서 제안하는 방식은 오차의 감소를 통하여 예측력을 개선하는 결과를 나타냈다.

인터넷 여론조사의 정확도 관련요인 (Factors Affecting the Accuracy of Internet Survey)

  • 조성겸;주영수;조은희
    • 한국조사연구학회지:조사연구
    • /
    • 제6권2호
    • /
    • pp.51-74
    • /
    • 2005
  • 인터넷을 이용한 여론조사가 늘고 있다. 그러나 연구자들은 인터넷 조사의 편리성과 실용성 등은 공감하면서도, 인터넷 샘플이 일반 모집단 샘플과는 차이가 있으며 그로 인해 조사의 정확성을 해친다고 보고 있다. 이에 대한 의결방안으로 서로 다른 조사방법을 결합하여 분석하거나 가중치를 두어 표본 편향을 제거하는 방안이 제시되고 있지만 아직 뚜렷한 연구 성과를 얻지는 못하고 있다. 본 논문에서는 응답패널을 미리 구성하여 실시하는 여론조사의 경우로 한정하여 이러한 인터넷 여론조사가 갖는 정확성의 정도를 살펴보았다. 그리고 이러한 인터넷 여론조사의 정확도 수준을 결정짓는 주요한 요인이 무엇인지, 그리고 인터넷 여론조사가 다른 조사방법에 비해 부정확하다면 그 요인은 무엇인지도 분석해 보았다. 이를 위해 본 연구는 17대 총선기간의 인터넷 조사, 유선조사, 모바일 조사 간의 결과를 비교하여 그 차이를 살펴보고, 이들 결과를 실제 총선 결과와 비교 분석하였다. 분석 결과 인터넷 조사의 정확도는 유선조사와는 비슷한 수준이나 모바일 조사보다는 좀 더 높은 것으로 나타났다. 인터넷 패널의 정확도에 관련된 요인으로는 첫째 패널이 자발적 참여자로 구성된다는 점이었다. 인터넷 패널은 전화조사보다 자발성이 높은 응답자로 구성되어 있고, 이러한 자발성 편향은 조사 결과에 영향을 미친다. 둘째로 인터넷 조사 패널은 재택시간에 관계없이 조사에 참여할 수 있다는 점이 전화조사보다 더 정확해 질 수 있는 요인으로 작용한다. 셋째로 인터넷 패널은 교육수준에서 편향을 보이고 있다. 패널을 이용한 인터넷 조사는 무응답률이 낮고 응답의 신뢰성이 높다. 인터넷 패널 특성에 대한 이러한 연구는 인터넷 여론조사의 정확성과 유용성을 높이는데 기여할 것이다.

  • PDF

Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법 (An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm)

  • 최보승;유현상;윤용화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.587-598
    • /
    • 2016
  • 각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

유.무선전화 병행조사에 대한 연구: 2011년 서울시장 보궐선거 여론조사 사례 (A Study on Mixed-Mode Survey which Combine the Landline and Mobile Telephone Interviews: The Case of Special Election for the Mayor of Seoul)

  • 이경택;이화정;현경보
    • 한국조사연구학회지:조사연구
    • /
    • 제13권1호
    • /
    • pp.135-158
    • /
    • 2012
  • 국내 선거여론조사에서 면접대상인 가구(또는 개인) 표본을 추출하기 위해 유선전화 전화번호부 또는 임의번호걸기(RDD) 방식이 주로 이용되고 있다. 하지만 유선전화를 보유하지 않은 가구가 늘어나고 있고, 유선전화가 있더라도 전화번호부 등재를 꺼리는 가구가 점차 많아지고 있다. 또한 젊은 층이나 직장인의 경우 여론조사가 실시되는 낮 시간대에 주로 외부에서 활동하므로 유선전화를 통한 접촉이 매우 어려운 실정이다. 상술한 문제들로 인하여 선거 여론조사의 예측력이 점점 떨어지고 있으며, 특히 조사시간대에 주로 외부에서 활동하는 사람들에 대한 낮은 접근성은 보수 성향 후보에게 긍정적인 예측결과를 내놓는 편향으로 이어지고 있다. 이러한 문제점을 해소할 수 있는 한 가지 방법으로 이동전화를 함께 활용하는 조사를 생각해 볼 수 있다. 즉, 낮 시간대 재택성향이 높은 사람들에 대해서는 유선전화를 활용한 조사를 수행하고, 부재성향이 높은 사람들에 대해서는 이동전화조사를 수행한 후, 두 결과를 혼합하는 방식(유 무선전화 병행조사)이다. 유 무선전화 병행조사를 실시하기 위해서는 1)유선전화와 이동전화 조사를 위한 표집틀이 확보되어야 하고, 2)유선전화와 이동전화로 조사할 비중을 사전에 결정해야 한다. 본 연구에서는 유 무선전화 병행조사를 실시하기 위한 경험적(heuristic) 방법론을 제안한다. 제안된 방법에서는 유선전화조사를 위해 임의번호걸기 방식을 이용하고, 이동전화조사를 위해 조사회사에서 모집한 조사패널을 활용한다. 또한, 유선전화와 이동전화로 조사할 표본의 비중은 통계청 생활시간조사 결과를 이용해서 계산한 재택율과 부재율을 활용한다. 제안된 조사방법을 활용하여 10.26 서울시장 보궐선거에 대한 여론조사를 실시하였다. 총 4회의 여론조사가 실시되었는데, 처음 3회의 조사는 판세분석용 조사이고, 최종 조사는 선거결과 예측용 조사이다. 판세분석조사의 경우 조사시점에 발생된 이슈에 대한 반응이 타당성 있게 조사되었고, 선거예측조사의 경우 실제 선거결과에 매우 근접한 예측능력을 보였다.

  • PDF

출구조사를 위한 투표소 확률추출 방법 (Probability Sampling to Select Polling Places in Exit Poll)

  • 김영원;엄윤희
    • 한국조사연구학회지:조사연구
    • /
    • 제6권2호
    • /
    • pp.1-32
    • /
    • 2005
  • 출구조사에서 투표소 추출방법은 출구조사의 정확성을 결정하는 중요한 요소이다. 본 연구에서는 대표구 추출법을 대신할 수 있는 정렬계통추출법을 제안하고 그 활용 가능성 및 효율성을 분석한다. 아울러 제시된 정렬계통추출법을 사용하는 경우 추정량의 표본추출오차(sampling error)가 어느 정도 되며, 원하는 목표 오차를 만족하기 위한 표본크기를 결정하는 문제를 고려한다. 2004년 17대 총선 개표자료를 토대로 경험적인 분석을 통해 제시된 정렬계통추출법이 기존의 대표구 추출법에 비해 평균예측오차 관점에서 효율적이라는 사실을 규명하고, 기존의 출구조사에서 표본크기 및 추정오차를 해석하는 과정에서 발생하는 오류를 집락효과를 이용해 설명했다. 아울러 제안한 정렬추출법에서 얻어지는 추정량의 분산을 구하고, 설계효과 개념을 이용해 표본크기 결정문제를 다루었다.

  • PDF

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

선거 개표방송에서 출구조사 자료를 활용한 중간 득표율 추정에 관한 연구 (Estimating the Interim Rate of Votes Earned Based on the Exit Poll Results during the Coverage of Ballot Results by Broadcasters)

  • 이윤동;박진우
    • 한국조사연구학회지:조사연구
    • /
    • 제12권1호
    • /
    • pp.141-152
    • /
    • 2011
  • 지상파 방송 3사에서 선거 개표방송을 할 때 사용하는 현재의 개표 집계방식은 각 개표소에서 집계된 개표결과를 단순 합산하여 발표하는 방식이다. 그런데 이 방식은 투표소별 개표 진도의 차이를 무시하는 방식이어서 불필요한 혼선을 초래할 여지가 있다. 방송사 입장에서는 이미 출구조사를 통해 얻은 지역별 데이터가 있는데도 불구하고 이 정보를 오후 6시 예측결과를 발표할 때에만 사용할 뿐이고, 이후 개표가 진행되는 동안에는 전혀 이용하지 않은 채 개표결과만을 단순 집계하여 발표한다. 본 논문에서는 베이지안(Bayesian) 기법을 도입하여 출구조사 자료와 개표결과를 통합하여 발표하는 방법을 제시하고자 한다. 이 방법을 사용함으로써 투표소별 개표 진도의 차이에서 생기는 혼선을 피할 수 있을 것으로 기대한다.

  • PDF