• 제목/요약/키워드: big data mining

검색결과 679건 처리시간 0.033초

R을 이용한 전국 대학의 학과 명칭 분석 (Analysis of University Department Name using the R)

  • 반재훈;하종수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.103-106
    • /
    • 2017
  • 스마트 정보 기기를 통해 사회 전 분야에서 대규모의 데이터가 생산되는데 이를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 전국에 2 4년제 대학, 대학원의 학과를 분석한다. 학과 명칭을 수집하고 각 데이터를 분석하여 학과 명칭의 빈도를 조사하며 대학에 어떤 학과 명칭이 자주 사용되는지를 파악한다.

  • PDF

Analysis of Hip-hop Fashion Codes in Contemporary Chinese Fashion

  • Sen, Bin;Haejung, Yum
    • 패션비즈니스
    • /
    • 제26권6호
    • /
    • pp.1-13
    • /
    • 2022
  • The purpose of this study was to find out the type of fashion codes hip-hop fashion has in contemporary Chinese fashion, and the frequency and characteristics of each fashion code. Text mining, which is the most basic analysis method in big data analyticswas used rather than traditional design element analysis. Specific results were as follows. First, hip-hop initially entered China in the late 1970s. The most historical turning point was the American film "Breakin". Second, frequency and word cloud analysis results showed that the "national tide" fashion code was the most notable code. Third, through word embedding analysis, fashion codes were divided into types of "original hip-hop codes", "trendy hip-hop codes", and "hip-hop codes grafted with traditional Chinese culture".

Profane or Not: Improving Korean Profane Detection using Deep Learning

  • Woo, Jiyoung;Park, Sung Hee;Kim, Huy Kang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.305-318
    • /
    • 2022
  • Abusive behaviors have become a common issue in many online social media platforms. Profanity is common form of abusive behavior in online. Social media platforms operate the filtering system using popular profanity words lists, but this method has drawbacks that it can be bypassed using an altered form and it can detect normal sentences as profanity. Especially in Korean language, the syllable is composed of graphemes and words are composed of multiple syllables, it can be decomposed into graphemes without impairing the transmission of meaning, and the form of a profane word can be seen as a different meaning in a sentence. This work focuses on the problem of filtering system mis-detecting normal phrases with profane phrases. For that, we proposed the deep learning-based framework including grapheme and syllable separation-based word embedding and appropriate CNN structure. The proposed model was evaluated on the chatting contents from the one of the famous online games in South Korea and generated 90.4% accuracy.

Detection of Maximal Balance Clique Using Three-way Concept Lattice

  • Yixuan Yang;Doo-Soon Park;Fei Hao;Sony Peng;Hyejung Lee;Min-Pyo Hong
    • Journal of Information Processing Systems
    • /
    • 제19권2호
    • /
    • pp.189-202
    • /
    • 2023
  • In the era marked by information inundation, social network analysis is the most important part of big data analysis, with clique detection being a key technology in social network mining. Also, detecting maximal balance clique in signed networks with positive and negative relationships is essential. In this paper, we present two algorithms. The first one is an algorithm, MCDA1, that detects the maximal balance clique using the improved three-way concept lattice algorithm and object-induced three-way concept lattice (OE-concept). The second one is an improved formal concept analysis algorithm, MCDA2, that improves the efficiency of memory. Additionally, we tested the execution time of our proposed method with four real-world datasets.

글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시 (Suggestion of development for domestic game market through big data analysis of global game trend)

  • 송준협;임민우;김한수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

Analyzing User Feedback on a Fan Community Platform 'Weverse': A Text Mining Approach

  • Thi Thao Van Ho;Mi Jin Noh;Yu Na Lee;Yang Sok Kim
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.62-71
    • /
    • 2024
  • This study applies topic modeling to uncover user experience and app issues expressed in users' online reviews of a fan community platform, Weverse on Google Play Store. It allows us to identify the features which need to be improved to enhance user experience or need to be maintained and leveraged to attract more users. Therefore, we collect 88,068 first-level English online reviews of Weverse on Google Play Store with Google-Play-Scraper tool. After the initial preprocessing step, a dataset of 31,861 online reviews is analyzed using Latent Dirichlet Allocation (LDA) topic modeling with Gensim library in Python. There are 5 topics explored in this study which highlight significant issues such as network connection error, delayed notification, and incorrect translation. Besides, the result revealed the app's effectiveness in fostering not only interaction between fans and artists but also fans' mutual relationships. Consequently, the business can strengthen user engagement and loyalty by addressing the identified drawbacks and leveraging the platform for user communication.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

소셜미디어 콘텐츠의 오피니언 마이닝결과 시각화: N라면 사례 분석 연구 (Visualizing the Results of Opinion Mining from Social Media Contents: Case Study of a Noodle Company)

  • 김유신;권도영;정승렬
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.89-105
    • /
    • 2014
  • Web2.0의 등장과 함께 급속히 발전해온 온라인 포럼, 블로그, 트위터, 페이스북과 같은 소셜 미디어 서비스는 소비자와 소비자간의 의사소통을 넘어 이제 기업과 소비자 사이의 새로운 커뮤니케이션 매체로도 인식되고 있다. 때문에 기업뿐만 아니라 수많은 기관, 조직 등에서도 소셜미디어를 활용하여 소비자와 적극적인 의사소통을 전개하고 있으며, 나아가 소셜 미디어 콘텐츠에 담겨있는 소비자 고객들의 의견, 관심, 불만, 평판 등을 분석하고 이해하며 비즈니스에 적용하기 위해 이를 적극 분석하는 단계로 진화하고 있다. 이러한 연구의 한 분야로서 비정형 텍스트 콘텐츠와 같은 빅 데이터에서 저자의 감성이나 의견 등을 추출하는 오피니언 마이닝과 감성분석 기법이 소셜미디어 콘텐츠 분석에도 활발히 이용되고 있으며, 이미 여러 연구에서 이를 위한 방법론, 테크닉, 툴 등을 제시하고 있다. 그러나 아직 대량의 소셜미디어 데이터를 수집하여 언어처리를 거치고 의미를 해석하여 비즈니스 인사이트를 도출하는 전반의 과정을 제시한 연구가 많지 않으며, 그 결과를 의사결정자들이 쉽게 이해할 수 있는 시각화 기법으로 풀어내는 것 또한 드문 실정이다. 그러므로 본 연구에서는 소셜미디어 콘텐츠의 오피니언 마이닝을 위한 실무적인 분석방법을 제시하고 이를 통해 기업의사결정을 지원할 수 있는 시각화된 결과물을 제시하고자 하였다. 이를 위해 한국 인스턴트 식품 1위 기업의 대표 상품인 N-라면을 사례 연구의 대상으로 실제 블로그 데이터와 뉴스를 수집/분석하고 결과를 도출하였다. 또한 이런 과정에서 프리웨어 오픈 소스 R을 이용함으로써 비용부담 없이 어떤 조직에서도 적용할 수 있는 레퍼런스를 구현하였다. 그러므로 저자들은 본 연구의 분석방법과 결과물들이 식품산업뿐만 아니라 타 산업에서도 바로 적용 가능한 실용적 가이드와 참조자료가 될 것으로 기대한다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

학술논문 빅데이터 분석을 활용한 백두대간에 관한 연구동향(2001~2020) 분석 (Study on Research Trends (2001~2020) of the Baekdudaegan Mountains with Big Data Analyses of Academic Journals)

  • 이진규;심형석;이창배
    • 한국산림과학회지
    • /
    • 제111권1호
    • /
    • pp.36-49
    • /
    • 2022
  • 본 연구는 지난 20년(2001-2020)간 백두대간에 관한 전반적인 연구동향과 주요 연구 주제 분석을 통해 향후 연구의 방향성을 제시하고자 하였다. 이를 위해 한국교육학술정보원으로부터 국내 산림생태 관련 총 551편의 논문 제목 및 키워드 데이터를 수집하여 빅데이터 분석프로그램 Textom과 UCINET을 활용하여 분석을 실시하였다. 분석 결과, 백두대간 관련 연구논문은 총 177개의 학회지에 게재되었으며 2011-2015년 사이에 총 229편(41.6%)으로 가장 많은 논문이 게재된 것으로 나타났다. 단어빈도와 N-gram 분석결과, 지난 20년간 백두대간 관련 주요 연구주제는 종다양성으로 도출되었으며, CONCOR 분석을 통해 분류된 15개의 주요 연구영역 그룹 가운데, 종다양성, 식생복원 및 관리, 문화 관련 연구분야에서 활발한 연구가 진행되었음을 알 수 있었다. 백두대간의 생태 관련 연구영역은 그룹 수 12개, 빈도 비율 78.8%였으며, 인문·사회 관련 연구영역은 그룹 수 2개, 빈도 비율 15.6%로 나타나 양적 그리고 다양성 측면에서 큰 차이를 보였다. 본 연구에서 도출된 세부 연구영역과 정량적인 수치는 향후 백두대간 관련 정책 추진 시 기초자료로 유용하게 활용될 수 있을 것으로 판단된다.