• 제목/요약/키워드: big data mining

검색결과 679건 처리시간 0.026초

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

빅데이터 분석을 활용한 가짜 리뷰 필터링 시스템 ADDAVICHI (Development of Filtering System ADDAVICHI for Fake Reviews using Big Data Analysis)

  • 정다비치;노영주
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1-8
    • /
    • 2019
  • 최근 '바이럴 마케팅' 으로 인해서 홍보에만 치중하는 블로그 게시물 등으로 인해 소비자의 불신이 깊어졌다. 또한, 이용후기를 거짓으로 작성하거나, 과장 확대하는 등의 마케팅 사업은 신문이나 TV 광고에 비해 가격이 저렴하면서도 효과가 커 각광받는 사업 중 하나로서 광고비 규모는 2016년 기준 '3조 3941억'으로 주요 광고수단으로 자리잡고 있다. 이러한 '바이럴 마케팅'으로부터 정보를 걸러주는 도구가 필요한 인터넷 환경이 되었다. 본 논문에서 제시하는 가짜 리뷰 필터링 어플리케이션 ADDAVICHI는 사용자가 '이벤트', '맛집' 등의 컨텐츠를 검색하면 블로그 키워등, 총 검색수, 신뢰도, 만족도 등을 추출하고 분석하여 제시한다. 신뢰도는 블로그에 있는 광고게시물 수와, 전체 게시물 수를 보여주고, 만족도는 신뢰도에서 걸러진 청정 게시물을 긍정 게시물과 부정게시물로 나눠서 보여준다. 마지막으로 키워드는 긍정 게시물에서 나온 리뷰 상위 세 단어 리스트를 보여준다. 이러한 방법으로 사용자가 광고 글로부터 벗어나서 정보를 해석할 수 있도록 지원한다.

국내 토양오염 공정시험방법의 용출법 사용시 용출액의 pH의 변화가 토양 오염 평가에 미치는 문제점 (The controversial points for the assessment of soil contamination related to the change of pH of extraction solution in using partial extraction in standard method in Korea)

  • 오창환;유연희;이평구;이영엽
    • 한국지하수토양환경학회:학술대회논문집
    • /
    • 한국지하수토양환경학회 2000년도 추계학술대회
    • /
    • pp.294-297
    • /
    • 2000
  • Heavy metals are extracted from Chonju stream sediment, roadside soils and sediments along Honam expressway, soils and tailings from mining area using partial ectraction in Standard Method, partial ectraction method with maintaining 0.1N of extraction solution and acid digestion. In samples having buffer capacity against acid, 0.1N of extraction solution can not be maintained and pH of extraction solution increases up to 8.0 when partial extraction in Standard Method is used. The averages and ranges of (heavy metals extracted using partial extraction in standard method, HPE)/(heavy metals extracted using partial extraction method with maintaining 0.1N of extraction solution, HPEM) values are 0.506 and 0.145~1.126 in Cd, 0.534~ and 0.078~0.928 in Zn, 0.461 and 0.041~1.715 in Mn, 0.359 and 0.011~0.874 in Cu, 0.195 and 0.018~1.785 in Cr, 0.710 and 0.003~3.075 in Pb, and 0.088 and 1.73$\times$10$^{-5}$ ~0.303 in Fe. These data indicate that the difference between HPE and HPEM is big in the order of Fe, Cr, Cu, Mn, Cd, Zn and Pb. It is quite possible that the partial extraction method in Standard Method of soil in Korea is not adequate for an assessment of contamination in area where buffer capacity of soil will be decreased or lost after a long term exposure of soils to environmental damage.

  • PDF

포털사이트 실시간이슈 지속가능성 평가 (Estimating long-term sustainability of real-time issues on portal sites)

  • 정민영
    • 디지털융복합연구
    • /
    • 제17권12호
    • /
    • pp.255-260
    • /
    • 2019
  • 실시간검색어는 실시간으로 관심이 급상승하는 검색어에 대한 것으로 한정될 뿐 아니라 포털사이트마다 순위 차이가 있으므로 지속가능성을 파악하기 힘든 한계를 가지고 있다. 실시간검색어에 대한 지속가능성을 평가하는 것은 이러한 한계를 극복하고 예측가능성을 제공해준다는 측면에서 그 의미가 크다. 특히 한 달 이상 지속되는 장기 지속 검색어의 경우 사회적으로 관심이 오래 지속된 이슈로서 가치가 높다. 따라서 본 논문에서는 실시간검색어 순위에 기반한 관심도와 실시간검색어의 지속주수, 지속일수, 지속시간에 기반을 둔 지속도를 각 포털사이트 및 통합 포털사이트 별로 파악한 다음, 관심도와 지속도가 높은 것을 기준으로 지속가능성을 평가하여, 장기 지속가능성이 높은 실시간이슈를 도출하는 방법을 제시하고자 한다.

토픽 모델링 기반 비대면 강의평 분석 및 딥러닝 분류 모델 개발 (Analyzing Students' Non-face-to-face Course Evaluation by Topic Modeling and Developing Deep Learning-based Classification Model)

  • 한지영;허고은
    • 한국문헌정보학회지
    • /
    • 제55권4호
    • /
    • pp.267-291
    • /
    • 2021
  • 2020년 신종 코로나바이러스 감염증(코로나19)으로 인한 전 세계적인 팬데믹으로 교육 현장에도 큰 변화가 있었다. 대학에서는 보조 교육 수단으로 생각했던 원격수업을 전면 도입하였고 비대면 수업이 일상화되어 교수자와 학생들은 새로운 교육환경에 적응하기 위해 큰 노력을 기울이고 있다. 이러한 변화 속에서 비대면 강의의 질적 향상을 위하여 강의 만족도 영향요인에 관한 연구가 필요하다. 본 연구는 코로나 전과 후로 변화된 대학 강의 만족도 영향요인을 파악하기 위해 빅데이터를 활용한 새로운 방법론을 제시하고자 한다. 토픽 모델링을 활용하여 코로나 전과 후의 강의평을 분석하고 이를 통해 강의 만족도 영향요인을 파악하여 대학교육이 나아가야 할 방향성을 제언하였다. 또한, 딥러닝 언어 모델인 KoBERT를 기반으로 0.84의 F1-score를 보이는 토픽 분류 모델을 구축함으로써 강의의 만족, 불만족 요인을 다각도로 파악할 수 있으며 이를 통해 강의 만족도의 지속적인 질적 향상에 기여할 수 있다.

미국연방준비제도의 양적완화 정책이 주가 변동에 미치는 영향 분석 (Analysis of the Ripple Effect of the US Federal Reserve System's Quantitative Easing Policy on Stock Price Fluctuations)

  • 홍성혁
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.161-166
    • /
    • 2021
  • 거시경제는 한 나라의 경제 전반의 움직임을 나타내는 개념으로 경제주체인 기업, 정부, 가계경제 활동 전반에 영향을 미친다. 거시경제는 국민소득, 물가, 실업, 통화, 금리, 원자재 등의 변화를 살펴보면 경제 주체들의 행위와 상호작업이 제품과 서비스의 가격에 영향을 파악할 수 있다. 미국연방준비제도(FED)는 코로나 경제침체를 극복하기 위한 다양한 경기부양책을 내 놓으며, 세계경제를 이끌고 있다. 현재 코로나로 인한 주가가 2020년3월20일에 지속적으로 하락하였지만, FED의 강력한 경지부양책인 양적완화로 미국의 S&P500지수는 3월 23일이후 반등을 시작해 12월 15일 3,694.62까지 회복에 성공했다. 따라서 주가의 예측을 기업의 재무제표로 판단하는 것이 아니라 거시경제지표에 따른 FED의 경기부양책이 더 영향을 미치고 있는 실정이다. 따라서 본 연구는 FED의 경기부양책과 주가에 미치는 영향을 분석하여 주식투자에 손실을 줄이고 건전한 투자 정착을 위해 본 연구를 진행하였다.

국가중요농업유산 제도 시행에 따른 방문객 인식 변화: 울릉 화산섬 밭농업 지역을 대상으로 (A Study on the Change of Visitor's Perception with the Implementation of Korean Important Agricultural Heritage System: The Field Agricultural Area of the Volcanic Island in Ulleung)

  • 도지윤;정명철
    • 환경영향평가
    • /
    • 제31권3호
    • /
    • pp.173-183
    • /
    • 2022
  • 본 연구는 빅데이터를 활용하여 국가중요농업유산(KIAHS; Korean Important Agricultural Heritage System) 제도 시행 전후 기간을 비교하여 방문객 인식 특성을 파악함으로써 제도 도입의 효과와 발전 가능성을 모색하는데 목적이 있다. 울릉도와 관련된 인식은 지정 전후 모두 접근성과 관련된 키워드가 상위 키워드로 도출되었으며, 특히 지정 이후 다양한 접근 방법과 새로운 개항 등의 키워드를 찾아볼 수 있었다. 국가중요농업유산 지정 이후 긍정적인 인식이 증가하였으며, 호감의 인식이 증가한 것을 알 수 있다. 또한, 공통적으로 정확한 작물의 이름과 화산섬에 대한 키워드가 나타났으나, 지정 이후의 중심성 분석 결과에서 영향력이 높아진 것을 확인할 수 있었다. 즉, 전통지식 보전과 이를 활용한 전통 농업문화의 발전에 도움이 되고 있음을 알 수 있었다.

재무분야 감성사전 구축을 위한 자동화된 감성학습 알고리즘 개발 (Developing the Automated Sentiment Learning Algorithm to Build the Korean Sentiment Lexicon for Finance)

  • 조수지;이기광;양철원
    • 산업경영시스템학회지
    • /
    • 제46권1호
    • /
    • pp.32-41
    • /
    • 2023
  • Recently, many studies are being conducted to extract emotion from text and verify its information power in the field of finance, along with the recent development of big data analysis technology. A number of prior studies use pre-defined sentiment dictionaries or machine learning methods to extract sentiment from the financial documents. However, both methods have the disadvantage of being labor-intensive and subjective because it requires a manual sentiment learning process. In this study, we developed a financial sentiment dictionary that automatically extracts sentiment from the body text of analyst reports by using modified Bayes rule and verified the performance of the model through a binary classification model which predicts actual stock price movements. As a result of the prediction, it was found that the proposed financial dictionary from this research has about 4% better predictive power for actual stock price movements than the representative Loughran and McDonald's (2011) financial dictionary. The sentiment extraction method proposed in this study enables efficient and objective judgment because it automatically learns the sentiment of words using both the change in target price and the cumulative abnormal returns. In addition, the dictionary can be easily updated by re-calculating conditional probabilities. The results of this study are expected to be readily expandable and applicable not only to analyst reports, but also to financial field texts such as performance reports, IR reports, press articles, and social media.

LDA 토픽 모델링 기법을 활용한 무용공연의 연구 동향 분석 (Trend Analysis of Dance Performance Research Using Keywords and Topic Modeling of LDA Techniques)

  • 시유
    • 산업융합연구
    • /
    • 제22권3호
    • /
    • pp.13-25
    • /
    • 2024
  • 본 연구는 빅데이터를 기반으로 국내에서 발표된 무용공연 관련 연구 주제를 탐색하고, 시대 흐름에 따라 변화하는 연구동향을 살펴본다. 토픽모델링 분석하여 도출한 결과는 다음과 같다. (1)무용공연 마케팅전략 및 발전방안 연구, (2)무용공연 공간 및 공연만족 재관람요인 연구, (3)무대환경이 무용공연의 대중성 활성화와 기여도 연구, (4)무용공연 현황 및 무용단 운영사례 융합 연구, (5)다양한 소셜미디어 활용한 무용공연 확정성 연구, (6)기술적용 무용공연 콘텐츠 방향 및 개발 연구 6개의 주요 토픽이 도출되었다. 이에 무용공연을 비롯해 무용 분야 관련 연구의 시기, 사회 변화에 따른 연구 트렌드와 주제를 파악하고, 연구자들의 변화 관심 주제의 주요 핵심어를 추출해 키워드를 분석하였으며 시기별 주요 키워드를 비교 분석하였다. 이에 다각화되고 융합되면서 신기술이 적용되는 최신 연구 동향에 대한 발전적 연구의 필요성을 고민하고 제시하였다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.