• 제목/요약/키워드: Big data Problem

검색결과 571건 처리시간 0.028초

표절 탐지를 위한 비트 시그니처 기법 (Big Signature Method for Plagiarism Detection)

  • 김우생;강규철
    • Journal of Information Technology Applications and Management
    • /
    • 제24권1호
    • /
    • pp.1-10
    • /
    • 2017
  • Recently, the problem of plagiarism has emerged as a big social issue because not only literature but also thesis become the target of plagiarism. Even the government requires conformation for plagiarism of high-ranking official's thesis as a standard of their ethical morality. Plagiarism is not just direct copy but also paraphrasing, rewording, adapting parts, missing references or wrong citations. This makes the problem more difficult to handle adequately. We propose a plagiarism detection scheme called a bit signature in which each unique word of document is represented by 0 or 1. The bit signature scheme can find the similar documents by comparing their absolute and relative bit signatures. Experiments show that a bit signature scheme produces better performance for document copy detection than existing similar schemes.

Analysis of the influence of food-related social issues on corporate management performance using a portal search index

  • Yoon, Chaebeen;Hong, Seungjee;Kim, Sounghun
    • 농업과학연구
    • /
    • 제46권4호
    • /
    • pp.955-969
    • /
    • 2019
  • Analyzing on-line consumer responses is directly related to the management performance of food companies. Therefore, this study collected and analyzed data from an on-line portal site created by consumers about food companies with issues and examined the relationships between the data and the management performance. Through this process, we identified consumers' awareness of these companies obtained from big data analysis and analyzed the relationship between the results and the sales and stock prices of the companies through a time-series graph and correlation analysis. The results of this study were as follows. First, the result of the text mining analysis suggests that consumers respond more sensitively to negative issues than to positive issues. Second, the emotional analysis showed that companies' ethics issues (Enterprise 3 and 4) have a higher level of emotional continuity than that of food safety issues. It can be interpreted that the problem of ethical management has great influence on consumers' purchasing behavior. Finally, In the case of all negative food issues, the number of word frequency and emotional scores showed opposite trends. As a result of the correlation analysis, there was a correlation between word frequency and stock price in the case of all negative food issues and also between emotional scores and stock price. Recently, studies using big data analytics have been conducted in various fields. Therefore, based on this research, it is expected that studies using big data analytics will be done in the agricultural field.

마이크로 서비스 아키텍처를 지원하는 데이터 프로파일링 소프트웨어의 개발 (Development of Data Profiling Software Supporting a Microservice Architecture)

  • 장재영;김지훈;지서우
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.127-134
    • /
    • 2021
  • 최근 빅데이터 산업의 확대로 고품질의 데이터를 확보하는 것이 중요한 이슈로 떠오르고 있다. 고품질의 데이터를 확보하기 위해서는 데이터에 품질에 대한 정확한 평가가 선행되어야 한다. 데이터의 품질은 데이터에 대한 통계와 같은 메타정보를 통해 평가할 수 있는데 이러한 메타정보를 자동으로 추출하는 기능을 데이터 프로파일링이라고 하다. 지금까지 데이터 프로파일링 소프트웨어는 기존의 데이터 품질 또는 시각화 관련 소프트웨어의 부품이나 추가적인 서비스로 제공되는 것이 일반적이었다. 따라서 프로파일링이 요구되는 다양한 환경에서 직접적으로 사용하기에는 적합하지 않았다. 본 논문에서는 이를 해결하기 위해 마이크로 서비스 아키텍처를 적용하여 다양한 환경에서 서비스가 가능한 데이터 프로파일링 소프트웨어의 개발 결과를 제시한다. 개발된 데이터 프로파일러는 restful API를 통해 데이터의 메타정보에 대한 요청과 응답을 제공하여 사용하기 쉬운 서비스를 제공한다. 또한, 특정 환경에 종속되지 않고 다양한 빅데이터 플랫폼이나 데이터 분석 도구들과 원활한 연계가 가능하다는 장점이 있다.

통신 빅데이터와 무인기 영상을 활용한 하천 친수지구 이용객 추정 (Estimating Visitors on Water-friendly Space in the River Using Mobile Big Data and UAV)

  • 김서준;김창성;김지성
    • Ecology and Resilient Infrastructure
    • /
    • 제6권4호
    • /
    • pp.250-257
    • /
    • 2019
  • 최근 4대강사업을 통해 국가 주요하천 인근에 약 357개소의 친수공원을 조성하여 국민의 휴식 및 레저공간으로 활용하고, 하천 환경 및 생태적 건강성을 높이고자 하였으나 실제 활용도가 저조하여 친수지구의 수를 297개소로 축소하고, 친수지구 계획 및 관리를 위한 노력을 많이 하고 있다. 특히 이용객 수 조사 및 예측을 좀 더 과학적이고 체계적으로 하기 위해 통신 빅데이터를 활용하는 시도가 이루어지고 있다. 하지만 기존 사람이 현장 조사를 하는 방식과 비교하여 통신 빅데이터를 활용할 경우 공간적인 이용객 이동 패턴을 간편하게 파악할 수 있지만 실제 이용객 수와는 차이가 있기 때문에 이를 해결하기 위한 다양한 검증이 필요하다. 이에 본 연구에서는 낙동강 하구에 위치한 삼락생태공원을 대상으로 통신 빅데이터를 활용한 이용객 이동 패턴과 무인기를 활용한 이용객 수를 비교하여 통신 빅데이터를 활용한 이용객 수 추정의 정확도를 평가하였다. 그 결과 하천 친수지구의 경우 pCELL의 정밀도가 낮아 시설물별 이용 패턴을 정밀하게 추정하기 어려웠으며, 도로 및 주차장 등에 멈춰 있는 신호들 때문에 공원 내 이용 패턴이 왜곡될 수 있음을 확인하였다. 따라서 향후 통신 빅데이터 처리에 있어서 친수지구 내 pCELL 수를 확충하고 도로 및 주차장 등의 시설물을 제외한 이용객 수 추정할 수 있도록 개선이 필요한 것으로 나타났다.

빅데이터 분석의 역량 강화를 위한 거꾸로 교실 설계 연구 (The Flipped Classroom Design for Capability Enhancement of Big-Data Analysis)

  • 정병호;김병초
    • 디지털산업정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.127-145
    • /
    • 2017
  • The purpose of this study is to empirical case study for the instructional design of flipped classroom by job-capability advancement of IT business majors. A student of IT business school has learned a lot of management educations for four years. But, they don't recognize a connection between school education and business practice. A subject based on the humanities, and social sciences consisted of mostly the memorization. The undergraduate class lack a practice's curriculum by a creative-oriented lesson rather than memorization-oriented. In particular, An IT business is now recognized as a significance emerging IT investment, the Internet of Things, information security, big data and strategy's ERP. For these reasons, it is important for an instructional design for understanding business practices of the students. Accordingly, Flipped classroom with participatory class be needed increasingly for students' practical sense. We will propose a design method of flipped classroom for inspiring business education. In this, new instructional design overturned traditional teaching method. After the student conducts a prior learn at home, school will accomplish a problem solving through question and answer. This design effected a boredom suppress and creative enforcement of student and an intimacy increase of instructor. In addition, A participatory class and reciprocal peer tutoring will be possible by a spontaneous self-directed learning of student. We were designed course of project type based on big data theory and application to target the fourth-year course. In conclusion, the new instruction provided a help to learning synergy between student and lecturer. During the lessons, the student showed improvement of business sense and enhanced problem solving capability. The lecturer has the intimacy through communication interaction with students.

생성적 적대 신경망과 딥러닝을 활용한 이상거래탐지 시스템 모형 (Fraud Detection System Model Using Generative Adversarial Networks and Deep Learning)

  • 김예원;유예림;최홍용
    • 경영정보학연구
    • /
    • 제22권1호
    • /
    • pp.59-72
    • /
    • 2020
  • 인공지능이 다루기 어려운 개념에서 아주 익숙한 도구로 자리매김 하고 있다. 이와 더불어 금융권에서도 인공지능 기술을 도입하여 기존 시스템의 문제점을 개선하고자 하는 추세이며, 그 대표적인 예가 이상거래탐지 시스템(Fraud Detection System, FDS)이다. 결제 수단의 다양화 및 전자금융거래의 증가에 따라 치밀해져 가는 사이버 금융사기(Fraud)를 기존의 규칙기반 FDS로는 탐지하기 어려워지고 있다. 이를 극복하기 위해 딥러닝 기술을 적용하여 이상거래 탐지율을 향상시키고, 이상행위에 즉각 대응하며, 탐지 결과의 반영을 자동화하고자 하는 시도가 이루어지고 있다. 딥러닝 FDS 구축에서 핵심 문제는 데이터 불균형과 이상거래 패턴의 변동이다. 본 논문에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)을 활용한 오버샘플링 기법을 통해 데이터 불균형 문제를 개선하고, 이상거래 분류기로써 심층 신경망(Deep Neural Network, DNN)과 합성곱 신경망(Convolutional Neural Network, CNN)을 적용하여 이러한 문제를 개선하고자 하였다. 실험 결과, GAN 오버샘플링이 이상거래 데이터의 불균형 문제를 개선하는데 효과를 보였으며, WGAN이 가장 높은 개선 효과가 있음을 확인하였다. 또한 제안 FDS 모형의 AUC가 0.9857로 랜덤포레스트 FDS 모형에 비해 약 6.5% 향상되어, 딥러닝이 이상거래 탐지에 뛰어난 성능을 가짐을 입증하였다. 더불어 딥러닝 모형 중 DNN은 CNN에 비해 오버샘플링의 효과를 더 잘 반영함을 확인하였다.

NAS 스토리지 기반의 데이터 분산처리 시스템 알고리즘에 관한 연구 (A Study on the NAS Storage-based Data Distributed Processing System Algorithm)

  • 장재명;강희범;정낙주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.643-645
    • /
    • 2015
  • 스토리지의 발달로 자동차 항공분야 등 실생활 어디에서든 스토리지가 활발히 활용되고 있다. 최근 빅데이터가 대두됨에 따라 많은 데이터를 스토리지에 저장하고 데이터를 처리하는 데이터 분산처리 연구가 활발히 진행되고 있다. 하지만 많은 사람들이 데이터를 동시에 요청할 때 병목현상이나 처리 속도가 느려지는 문제가 발생한다. 본 논문에서는 많은 데이터를 저장하고 처리해야하는 빅 데이터 분야에 사용될 것을 고려하여, 데이터 요청 시 보다 효율적으로 데이터를 처리하고 많은 데이터를 효율적인 관리가 가능한 데이터 경량화 처리 시스템 알고리즘을 제안한다.

  • PDF

Big 5 성격 요소와 머신 러닝 알고리즘을 통한 창의적인 사람들의 특징 연구 (Feature Selection for Creative People Based on Big 5 Personality traits and Machine Learning Algorithms)

  • 김용준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.97-102
    • /
    • 2019
  • 창의적인 사람에 대한 정확한 기준이나 수치화를 사용하여 체계적인 분류와 분석 방법이 없었기에 정의하는 데에 어려움이 많다. 이 문제를 해결하기 위하여 본 연구에서는 창의적인 사람을 어떻게 구분 지을 수 있을지에 대한 것과 어떤 유사한 성격이 있는지 분석한다. 본 연구에서 우선 Big 5 성격 특성 기법을 이용하여 설문조사를 진행하고, 그 설문조사로 얻은 데이터 세트를 가지고 데이터 마이닝 도구인 WEKA를 이용하여 데이터 세트를 분류하고 분석한 뒤, 창의적인 사람들과 연관성 있는 성격 특징들을 다양한 머신 러닝 기법을 이용하여 분석하는 것을 목표로 진행하였다. 7개의 특징 선택 알고리즘을 활용하고, 특징 선택 알고리즘들로 분류된 특징 집단을 선택하여 머신 러닝 알고리즘에 적용하여 정확도를 알아냈고, 서포트 벡터 머신을 통해 나온 특징이 가장 높은 분류 결과를 도출하였다.

실시간 철도안전 관제를 위한 데이터 처리 방안 연구 (Data Processing Method for Real-time Safety Supervision System in Railway)

  • 신광호;정혜란;안진
    • 한국철도학회논문집
    • /
    • 제19권4호
    • /
    • pp.445-455
    • /
    • 2016
  • 실시간 철도안전 관제시스템은 철도시스템을 구성하는 열차, 신호, 전력 및 설비 등으로 분산되어 감시되던 시스템의 안전관련 데이터를 통합하여 안전감시 효율을 향상시키고 사고를 예방하는 것이 목적으로, 기존 개별 감시 시스템과 달리 데이터의 대용량 처리와 실시간 처리 성능을 동시에 요구하고 있다. 기존 관제시스템에서 주로 활용되는 디스크 기반 데이터베이스는 실시간 및 빅 데이터 처리기능이 없고, 최근 도입되는 메모리 기반 데이터베이스는 빅데이터 처리기능이 없으며, 시계열 데이터베이스는 실시간 처리 기능이 없다. 이에 따라, 실시간 안전관제에서 요구되는 빅 데이터 처리와 실시간 처리를 동시에 제공하는 새로운 솔루션이 필요하다. 본 연구에서는 기존 관제의 데이터 처리 사례를 분석하고, 빅 데이터 처리와 실시간 처리를 동시에 제공하는 새로운 데이터 처리 방안을 제안하였으며, 이를 검증하였다.

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.