• 제목/요약/키워드: Public Big data

검색결과 704건 처리시간 0.025초

기계학습에 유효한 데이터 요건 및 선별: 공공데이터포털 제공 데이터 사례를 통해 (Valid Data Conditions and Discrimination for Machine Learning: Case study on Dataset in the Public Data Portal)

  • 오효정;윤보현
    • 사물인터넷융복합논문지
    • /
    • 제8권1호
    • /
    • pp.37-43
    • /
    • 2022
  • 인공지능 기술의 가장 큰 근간은 학습 가능한 데이터이다. 최근 정부나 사기업에서 수집·생산하는 데이터의 종류와 양이 기하급수적으로 증가하고 있지만, 실제 기계학습에 활용 가능한 데이터의 확보로는 아직까지 이어지지 않고 있다. 이에 본 연구에서는 기계학습에 실제 활용 가능한 데이터가 갖추어야 할 조건에 대해 논의하고, 실제 사례연구를 통해 데이터 품질을 저하시키는 요인을 파악한다. 이를 위해 공공빅데이터를 활용해 예측 모델을 개발한 대표사례를 선정, 공공데이터포털로부터 실제 문제 해결을 위한 데이터를 수집 후 데이터 품질을 확인하였다. 이를 통해 유효한 데이터 선별 기준을 적용하고 후처리한 결과와의 차이를 보인다. 본 연구의 궁극적인 목적은 인공지능의 핵심인 기계학습 기술 개발에 앞서 가장 근본적으로 선결되어야 할 데이터 품질을 관리하고 유효한 데이터를 축적하기 위한 기반 마련에 있다.

사례분석을 통한 지방행정의 빅데이터 활용 전략 (A Study on Utilization Strategy of Big Data for Local Administration by Analyzing Cases)

  • 노규성
    • 디지털융복합연구
    • /
    • 제12권1호
    • /
    • pp.89-97
    • /
    • 2014
  • 빅데이터의 가치가 인식되고 정부 3.0이 발표되면서 빅데이터에 대한 관심이 증가하고 있다. 그러나 각 부처나 지방자치단체에 구체적인 추진 대안이나 전략이 취약한 상황에서 빅데이터를 체계적으로 활용하고 성과를 낸다는 것은 그리 쉬운 일이 아닐 것이다. 이에 본 연구는 지방자치단체의 빅데이터 활용 영역을 정리한 다음, 빅데이터 활용 전략을 제안하고자 하였다. 연구 결과 지방행정의 빅데이터 활용 영역은 크게 이상 현상 감지 및 대응, 가까운 미래 예측 및 대응, 분석된 상황 대응 및 새로운 정책(행정 서비스) 개발, 시민 맞춤형 서비스 등 네 가지로 구분되었다. 또한 빅데이터 활용 전략은 단계적 접근, 사용자의 요구분석, 주요성공요소 기반 추진, 시범사업, 성과평가, 성과에 따른 인센티브, 공통기반 구축 등으로 정리하였다.

빅데이터 분석을 활용한 인공지능 인식에 관한 연구 (A Study on Recognition of Artificial Intelligence Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2018
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2018년 5월 19일 시점 1개월 기간을 설정하여 "인공지능" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 인공지능에 대한 1위 연관 검색어는 중국(4,122)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

Rethinking the US Presidential Election: Feminism and Big Data

  • CHUNG, Sae Won;PARK, Han Woo
    • International Journal of Contents
    • /
    • 제17권4호
    • /
    • pp.52-61
    • /
    • 2021
  • The 2020 US Presidential Election was a highly-anticipated moment for our global society. During the election period, the most intriguing issue was who would be the winner-Trump or Biden? Among the possible main themes of the 2020 election, from the COVID-19 pandemic to racism, this study focused on feminism ('women') as a main component of Biden's victory. To explore the character of Biden's supporters, this paper focused on internet spaces as a source of public opinion. To guide the data analysis, this study employed four indices from empirical studies on Big Data analytics: issue salience, attention diversity, emotional mentioning, and semantic cohesion. The main finding of this study was that the representative keyword 'women' appeared more prevalently within content related to Biden than Trump, and the keyword pairs indicated that female voters were the main reason for Trump's failure but the root cause of Biden's victory. The results of this study indicated the role of the internet as a forum for public opinion and a fountain of political knowledge, which requires more rigorous investigation by researchers.

BIG DATA ANALYSIS ROLE IN ADVANCING THE VARIOUS ACTIVITIES OF DIGITAL LIBRARIES: TAIBAH UNIVERSITY CASE STUDY- SAUDI ARABIA

  • Alotaibi, Saqar Moisan F
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.297-307
    • /
    • 2021
  • In the vibrant environment, documentation and managing systems are maintained autonomously through education foundations, book materials and libraries at the same time as information are not voluntarily accessible in a centralized location. At the moment Libraries are providing online resources and services for education activities. Moreover, libraries are applying outlets of social media such as Facebook as well as Instagrams to preview their services and procedures. Librarians with the assistance of promising tools and technology like analytics software are capable to accumulate more online information, analyse them for incorporating worth to their services. Thus Libraries can employ big data to construct enhanced decisions concerning collection developments, updating public spaces and tracking the purpose of library book materials. Big data is being produced due to library digitations and this has forced restrictions to academicians, researchers and policy creator's efforts in enhancing the quality and effectiveness. Accordingly, helping the library clients with research articles and book materials that are in line with the users interest is a big challenge and dispute based on Taibah university in Saudi Arabia. The issues of this domain brings the numerous sources of data from various institutions and sources into single place in real time which can be time consuming. The most important aim is to reduce the time that lapses among the authentic book reading and searching the specific study material.

범정부 빅데이터 플랫폼인 '혜안'의 경제적 타당성 분석 (Economic Feasibility Analysis of 'Hye-Ahn', a Government-Wide Big Data Platform)

  • 김명희;김흥규
    • 산업경영시스템학회지
    • /
    • 제47권2호
    • /
    • pp.57-64
    • /
    • 2024
  • The use of big data needs to be emphasized in policy formulation by public officials in order to improve the transparency of government policies and increase efficiency and reliability of government policies. 'Hye-Ahn', a government-wide big data platform was built with this goal, and the subscribers of 'Hye-Ahn' has grown significantly from 2,000 at the end of 2016 to 100,000 at August 2018. Additionally, the central and local governments are expanding their big data related budgets. In this study, we derived the costs and benefits of 'Hye-Ahn' and used them to conduct an economic feasibility analysis. As a result, even if only some quantitative benefits are considered without qualitative benefits, the net present value, the benefit/cost, and internal rate of return turned out to be 22,662 million won, 2.3213, and 41.8%, respectively. Since this is larger than the respective comparison criteria of 0 won, 1.0, and 5.0%, it can be seen that 'Hye-Ahn' has had economic feasibility. As noticed earlier, the number of analysis using 'Hye-Ahn' is increasing, so it is expected that the benefits will increase as time passes. Finally, the socioeconomic value gained when the results of analysis using 'Hye-Ahn' are used in policy is expected to be significant.

Finding a plan to improve recognition rate using classification analysis

  • Kim, SeungJae;Kim, SungHwan
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.184-191
    • /
    • 2020
  • With the emergence of the 4th Industrial Revolution, core technologies that will lead the 4th Industrial Revolution such as AI (artificial intelligence), big data, and Internet of Things (IOT) are also at the center of the topic of the general public. In particular, there is a growing trend of attempts to present future visions by discovering new models by using them for big data analysis based on data collected in a specific field, and inferring and predicting new values with the models. In order to obtain the reliability and sophistication of statistics as a result of big data analysis, it is necessary to analyze the meaning of each variable, the correlation between the variables, and multicollinearity. If the data is classified differently from the hypothesis test from the beginning, even if the analysis is performed well, unreliable results will be obtained. In other words, prior to big data analysis, it is necessary to ensure that data is well classified according to the purpose of analysis. Therefore, in this study, data is classified using a decision tree technique and a random forest technique among classification analysis, which is a machine learning technique that implements AI technology. And by evaluating the degree of classification of the data, we try to find a way to improve the classification and analysis rate of the data.

포스트 코로나 뉴노멀에 대한 대중감성 연구: 소셜미디어(SNS) 빅데이터 분석을 통해 (Research on public sentiment of the post-corona new normal: Through social media (SNS) big data analysis)

  • 안명숙
    • 문화기술의 융합
    • /
    • 제8권2호
    • /
    • pp.209-215
    • /
    • 2022
  • 본 연구의 목적은 '포스트 코로나 뉴노멀'에 관한 소셜 미디어(social media) 빅데이터를 분석하여 한국사회에서 '포스트코로나 뉴노멀'에 대한 대중 인식을 감성 측면에서 살펴봄으로서 포스트 코로나 시대를 선제적으로 대처하기 위한 기초자료를 제공하는 것이다. 자료 수집 및 분석을 위하여 빅데이터 분석 프로그램인 '텍스톰' (textom)의 감성분석 프로그램을 활용하였다. 데이터 수집기간은 2020년 10월 5일부터 2021년 10월 5일까지 1년이고, 수집 채널은 다음(daum)과 네이버(naver)의 블로그, 카페, 트위터 및 페이스북으로 설정하였다. 이 채널에서 수집된 총 3,770개의수집텍스트를 편집, 정제한 원문데이터가 본 연구를 위해 사용되었다. 분석의 결과는 다음과 같다. 첫째, '포스트 코로나 뉴노멀'에 대해 호감과 흥미 감성이 가장 높다. 즉 일상 회복과 기술 성장 및 새로워진 미래에 대한 기대 등 낙관적 감성이 77.62%로 주도적임을 알 수 있다. 둘째, 슬픔과 거부감 같은 부정 감성은 전체의 22.38%이나, 감성의 강도는 23.91%로 비율보다 높아 이 부정 감성이 강렬하다는 것을 시사한다. 본 연구는 '포스트 코로나 뉴노멀'에 대한 빅데이터 분석을 통해서 대중의 긍정 및 부정감성의 세부 요인분석의 기여도가 있다.

빅 데이터 가시화 기술을 적용한 공공데이터 콘텐츠 구현 - Map가시화 기법 (Implementation of public data contents using Big data Visualization technology - Map visualization technique)

  • 박선희;김정호;유현배
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1427-1434
    • /
    • 2017
  • 4차 산업화의 가속화로 인하여 우리 주변의 데이터가 급속도로 증가하였다. 이에, 데이터를 수집하는 것 이상으로 데이터 분석을 통해 얻어진 데이터의 성질과 의미를 보다 손쉽게 파악하고 데이터의 가치판단에 유연하게 적용 할 수 있어야 한다. 가시화 표현기술은 현재 많은 분야에서 관심을 받고 있다. 가시화는 데이터 분석 결과를 보다 쉽게 이해할 수 있도록 그래프, 차트 등으로 사용자가 보다 쉽게 데이터의 정보를 파악할 수 있어, 즉각적인 판단이 가능하게 하여 빠른 의사결정을 할 수 있도록 한다. 그중에서도 사용자들의 활용 가치가 높은 공공데이터를 활용한 가시화에 대한 관심도가 높다. 이에 본 논문에서는 가시화를 표현 할 수 있는 다양한 소프트웨어들 중에서 R 라이브러리와 R Studio를 활용하여 전국 자전거 보관소 설치 장소의 공공데이터를 가시화 하는 콘텐츠를 구현하였다.

댓글 분석을 통한 19대 한국 대선 후보 이슈 파악 및 득표율 예측 (Issue tracking and voting rate prediction for 19th Korean president election candidates)

  • 서대호;김지호;김창기
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.199-219
    • /
    • 2018
  • 인터넷의 일상화와 각종 스마트 기기의 보급으로 이용자들로 하여금 실시간 의사소통이 가능하게 하여 기존의 커뮤니케이션 양식이 새롭게 변화되었다. 인터넷을 통한 정보주체의 변화로 인해 데이터는 더욱 방대해져서 빅데이터라 불리는 정보의 초대형화를 야기하였다. 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회로 여겨지고 있다. 특히 텍스트 마이닝은 비정형 텍스트 데이터를 이용해 패턴을 탐구하여 의미있는 정보를 찾아낸다. 텍스트 데이터는 신문, 도서, 웹, SNS 등 다양한 곳에 존재하기 때문에 데이터의 양이 매우 다양하고 방대하여 사회적 실제를 이해하기 위한 데이터로 적합하다. 본 연구는 한국 최대 인터넷 포털사이트 뉴스의 댓글을 수집하여 2017년 19대 한국 대선을 대상으로 연구를 수행하였다. 대선 선거일 직전 여론조사 공표 금지기간이 포함된 2017년 4월 29일부터 2017년 5월 7일까지 226,447건의 댓글을 수집하여 빈도분석, 연관감성어 분석, 토픽 감성 분석, 후보자 득표율 예측을 수행하였다. 이를 통해 각 후보자들에 대한 이슈를 분석 및 해석하고 득표율을 예측하였다. 분석 결과 뉴스 댓글이 대선 후보들에 대한 이슈를 추적하고 득표율을 예측하기에 효과적인 도구임을 보여주었다. 대선 후보자들은 사회적 여론을 객관적으로 판단하여 선거유세 전략에 반영할 수 있고 유권자들은 각 후보자들에 대한 이슈를 파악하여 투표시 참조할 수 있다. 또한 후보자들이 빅데이터 분석을 참조하여 선거캠페인을 벌인다면 국민들은 자신들이 원하는 바가 후보자들에게 피력, 반영된다는 것을 인지하고 웹상에서 더욱 적극적인 활동을 할 것이다. 이는 국민의 정치 참여 행위로써 사회적 의의가 있다.