• 제목/요약/키워드: Data Mining Process

검색결과 681건 처리시간 0.025초

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

건강추천시스템(HRS) 연구 동향: 인용네트워크 분석과 GraphSAGE를 활용하여 (Research Trends of Health Recommender Systems (HRS): Applying Citation Network Analysis and GraphSAGE)

  • 장하렴;유지수;양성병
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.57-84
    • /
    • 2023
  • 현대사회는 정보통신기술 및 빅데이터 기술의 발전으로 누구나 인터넷을 통해 손쉽게 방대한 데이터를 얻고 활용할 수 있는 시대로, 양질의 데이터를 수집하는 능력을 넘어 수많은 정보 속에서 올바른 데이터만을 선별하는 능력이 더욱 중요해지고 있다. 이러한 기조는 학계에서도 이어지고 있는데, 축적되는 연구물 속에서 양질의 연구를 선별하여 올바른 지식구조를 형성하기 위해, 다양한 연구 분야에서 체계적 고찰(systematic review) 및 비체계적 고찰(non-systematic review)과 같은 문헌연구(literature review)가 수행되고 있다. 한편, 코로나19 팬데믹 이후 의료산업에서도 그동안 합의에 이르지 못했던 원격의료가 제한적으로나마 허용되고, 인공지능 및 빅데이터 기술이 응용된 건강추천시스템(health recommender systems: HRS)과 같은 새로운 의료서비스가 각광을 받고 있다. 하지만, 실무적으로 HRS가 미래 의료산업 발전을 이끌 중요한 기술로 평가받고 있음에도 불구하고, 학술적인 문헌연구는 다른 분야에 비해 매우 부족한 실정이다. 더불어 HRS는 학제적 성격이 강한 융합 분야임에도 불구하고, 기존의 문헌연구는 비체계적 고찰과 체계적 고찰 방법만을 주로 활용하여 이뤄졌기 때문에, 다른 연구 분야와의 상호작용이나 동적인 관계를 유추하기에는 한계가 존재한다. 이에, 본 연구에서는 인용네트워크 분석(citation network analysis: CNA)을 활용하여 HRS 및 주변 연구 분야의 전체적인 네트워크 구조를 파악하였다. 또한, 이 과정에서 최신 논문이 인용 관계가 잘 나타나지 않는 문제를 보완하기 위해 GraphSAGE 알고리즘을 적용함으로써, HRS 연구에 있어 'recommender system', 'wireless & IoT', 'computer vision', 'text mining' 등과 같은 연구 분야들의 중요도가 높아지고 있음을 파악하였으며, 이와 동시에 개인화(personalization) 및 개인정보보호(privacy) 등과 같은 새로운 키워드가 주요 이슈로 등장하고 있음을 확인하였다. 본 연구를 통해 HRS 연구 커뮤니티의 구조를 파악하고, 관련된 연구 동향을 살펴보며, 미래 HRS 연구 방향을 설계함에 있어 실질적인 통찰을 제공할 수 있을 것으로 기대한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

태양광 폐모듈 실리콘을 재활용한 메커니컬 실 제조공정의 환경성평가 (Environmental Impact Evaluation of Mechanical Seal Manufacturing Process by Utilizing Recycled Silicon from End-of-Life PV Module)

  • 신병철;신지원;권우택;최준철;선주형;장근용
    • 청정기술
    • /
    • 제28권3호
    • /
    • pp.203-209
    • /
    • 2022
  • 본 연구에서는 태양광 폐모듈 해체과정에서 회수한 실리콘을 재활용하여 기계구조용 메커니컬 실을 제조하는 공정에 대해 전과정평가 방법에 의한 환경성평가를 수행하였다. 재활용 실리콘은 고순도 정제 후 탄소와 반응시켜 β-SiC 입자로 합성하고 압축 성형, 소결 및 열처리를 거쳐 제품을 생산한다. 현장 데이터 수집 및 환경부 LCI DB를 활용하여 각 단계별로 자원고갈, 산성화, 부영양화, 지구온난화, 오존층파괴, 광화학산화물 등 6개 영역의 환경영향을 산정하였다. 영향범주 별 환경영향은 지구온난화 45 kg CO2, 광화학산화물 2.23 kg C2H4으로 크게 나타났으며 가중화 분석결과 광화학산화물, 자원고갈 및 지구온난화에 의한 환경영향이 98.7%로 높은 기여도를 차지하였다. 원료 실리콘과 탄소를 미분쇄 혼합하는 습식공정과 β-SiC 과립화 공정이 주요한 환경영향 유발요인이므로 건식공정으로 전환 및 대기 배출되는 용매는 회수하여 재이용하는 시스템으로 개선이 필요하다. 폐모듈 실리콘의 재활용에 의해 자원고갈의 영향은 53.9%, 지구온난화는 60.7% 감소하며 가중화 결과 전체적인 환경영향이 27% 감소하는 것으로 분석되어 폐모듈 재활용은 자원절약과 탄소중립 실현의 주요 수단이 될 수 있음을 LCA 분석으로 확인하였다.

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.

네트워크에 기반한 MT자료의 처리기술 개발 연구 (Development of Network Based MT Data Processing System)

  • 이희순;권병두;정호준;오석훈
    • 지구물리와물리탐사
    • /
    • 제3권2호
    • /
    • pp.53-60
    • /
    • 2000
  • 본 연구에서는 급격히 증가하는 인터넷망 및 분산(distribution) 컴퓨팅 환경을 이용한 서버/클라이언트(server/client) MT자료 처리 시스템의 구축을 위한 여러 가지 기술적 사항에 대해 논의하였다. 이러한 시스템은 표준적인 처리 방식의 도입과 인증된 자료 처리 서버에서의 해석 수행을 통해 일관성과 안정성을 동시에 제공할 수 있을 것이다. 또한 인터넷망을 이용하여 현장에서의 자료해석이 가능해지므로 탐사 시간, 경비의 감소 및 추가 탐사 계획 수립에도 도움을 줄 것이다. 각종 자바 기술(pure java와 enterprised java)은 네트워크 프로그램을 손쉽게 개발할 수 있는 많은 방법들을 제공한다. 본 연구에서는 이를 이용하여 웹(web)에 의한 서버/클라이언트 모델과, 소켓(Socket) 및 원격 함수 호출(RMI: Remote Method Invocation) 에 의한 처리 기법을 MT자료의 해석에 적용하기 위한 방법에 대해 논하였다. 또한 MT자료의 특성상, 그 해석은 고성능의 컴퓨터를 이용하였을 때에도 상당한 시간을 필요로 하므로 이를 극복하기 위해 서버 프로그램에 MPI(Message Passing Interface) 병렬처리 기술을 적용하고자 한다. 이는 고가의 병렬 처리 컴퓨터를 대체할 수 있으며, 표준적인 코딩이 제시되었으므로 관리 및 유지, 보수에 있어 효율성을 제공할 것이다.

  • PDF

웹 마이닝을 이용한 개인 광고기법에 관한 연구 (A Study on Personalized Advertisement System Using Web Mining)

  • 김은수;송강수;이원돈;송정길
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.92-103
    • /
    • 2003
  • 최근 전자상거래의 발전과 인터넷 사용자의 급증으로 온라인 상에서 수많은 광고들이 서비스되고 있다. 하지만 이러한 광고서비스는 사용자들의 성향 분석을 기초로 하기보다는 해당 광고의 일방적 서비스에 그치고 있다. 따라서 많은 웹사이트들이 해당 광고의 효율적 서비스를 위해 개인화된 광고서비스를 원하고 있고 해당 서버의 로그 분석을 통한 서비스를 연구 및 시행하고 있다. 본 논문에서는 서버측 로그데이터의 분석이 아닌 로컬 시스템의 로그데이터를 이용하여 사용자의 선호도와 성향을 분석한다. 또한 해당 사이트 별 분류 카테고리를 만들어 해당 분류의 가중치를 부여함으로써 개인화된 광고 시스템을 제안하려고 한다. 사용자의 선호도 분석은 웹 개인화 기법 중 협업 필터링의 대상이 되는 사용자 선호도 정보를 방문 사이트 분류에 사용하고 학습에이전트의 대상이 되는 인터넷 사용자의 행동을 해당 사이트의 방문횟수로 가정하여 사용자의 성향분석을 시도하였다. 사용자의 선호도를 벡터로 표현하고, 성향분석 결과를 단순 적용형태가 아닌 연속적 데이터로 간주하였으며 이전 데이터와 이후 데이터의 성향분석 변화를 제안하는 기법을 이용하여 새롭게 분석하고 피드백 시킴으로써 지속적인 갱신과 적용을 할 수 있도록 제안하였다. 이러한 결과를 통해 해당 분류의 광고들을 선정하고 선정된 광고에 사용자 성향분석과 동일한 과정을 적용시킴으로써 차별화된 광고 서비스를 제공할 수 있는 방법을 제시하였다.

  • PDF

쌍극자-쌍극자 전기비저항 탐사에서 나타나는 음의 겉보기 비저항 (Negative apparent resistivity in dipole-dipole electrical surveys)

  • 정현기;민동주;이효선;오석훈;정호준
    • 지구물리와물리탐사
    • /
    • 제12권1호
    • /
    • pp.33-40
    • /
    • 2009
  • 쌍극자-쌍극자 전기비저항 탐사를 수행하여 자료를 얻다 보면 종종 음의 겉보기 비저항값을 얻게 된다. 음의 겉보기 비저항이란 겉보기비저항 가단면도 상에서 주변자료와 반대되는 부호를 갖고 나타나는 비저항을 의미한다. 이러한 음의 겉보기 비저항은 보통 측정오차로 간주되어 현장 자료 해석시 무시되어 왔다. 일부 측정기기에서는 겉보기 비저항의 절대간이 기록되므로 이러한 음의 비저항값들이 주변값과 같은 부호를 갖는 것으로 환산되어 해석되기도 한다. 현장에서의 여러 실험 결과 옴의 겉보기 비저항갈은 측정오차나 자연전위의 영향에 의해 나타나는 현상이 아니었으며, 유도분극에 의한 영향도 아니었다. 한가지 가능성으로 지하 지질구조에 의한 영향으로 생각할 수 있다. 이 연구에서는 수치모델링을 통하여 평탄한 지형에서 음의 비저항이 지하 지질구조에 의하여 나타날 수 있다는 것을 보여준다. 현장자료를 시뮬레이션하기 위하여 3차원 전산모델링 알고리즘을 이용하였으며, 3차원 결과로부터 2차원 가단면도를 얻었다. 음의 비저항을 발생시키는 모델로는 U자형과 초승달모양의 전도체 모델을 가정하였다. 수치모델링 결과 이러한 지질구조로부터 음의 비저항이 나타날 수 있다는 것을 확인할 수 있었다. 일반적으로 전류전극으로부터의 거리가 멀어질수록 전위값이 증가하게 되면 전위차 곡선들이 서로 교차하면서 음의 비저항값이 나타나는데, 본 연구에서 제시된 결과들에 대해 전극위치에 대한 전위차 그래프를 그려봄으로써 이를 확인할 수 있었다. 본 연구에서 제시한 수치예제들은 현장조사에서 획득한 음의 겉보기 비저항값들이 지하 지질구조에 의해 발생할 수 있는 가능성을 제시하며, 향후 현장조사 자료 해석시 이를 고려하여 해석할 것을 제안한다.

디지털 아카이브즈의 문제점과 방향 - 문화원형 콘텐츠를 중심으로 - (Digital Archives of Cultural Archetype Contents: Its Problems and Direction)

  • 함한희;박순철
    • 한국비블리아학회지
    • /
    • 제17권2호
    • /
    • pp.23-42
    • /
    • 2006
  • 본고는 문화원형콘텐츠를 유통시키고 있는 문화콘텐츠닷컴의 디지털아카이브 시스템에 주목해서 문제점을 분석하고 대안을 제시하는 것이 목적이다. 문화원형콘텐츠는 전통문화와 컴퓨터기술을 접목시켜 개척한 새로운 분야이다. 정부에서는 이 산업을 육성해서 한국문화의 세계화와 국가 경쟁력을 강화시킬 의도를 가지고 있다. 우리나라의 역사와 전통 풍물 생활 전승 예술 지리지 등 다양한 분야의 문화원형을 디지털 콘텐츠화하여 문화산업에 필요한 창작소재로 제공하는 것이 그 핵심내용이다. 아울러 디지털 콘텐츠 유통체계 정립과 저작권 관리를 통해서 공공부문 문화콘텐츠의 산업적 활용도를 제고하려는 의도도 포함된다. 본고에서 다루는 대상자료는 현재 문화콘텐츠닷컴에서 유통, 관리되고 있는 문화원형콘텐츠들이다. 이 성과물들은 2002년부터 2005년까지 개발되어서 문화콘텐츠닷컴 DB에 구축되어 있다. 이 자료들을 통해서 현재의 디지털아카이브 시스템의 문제점을 분석하였고, 현재의 시스템이 안고 있는 한계점을 요약하면 다음과 같다. 첫째는 각 자료에서 사용하는 주요 용어의 선택에 따라 유사한 자료들이 서로 다른 주제로 분류되면서 다른 항목에 속하게 되는 것이다. 둘째는, 따라서 서로 다른 항목 간에 교차검색이 이루어지지 않는 한계점이 있다. 현재의 제 문제를 해결할 수 있는 방법으로 본고에서는 온톨로지 기능을 포함한 데이터마이닝시스템을 이용해서 풍부한 지식정보표현과 활용이 가능한 디지털아카이브 시스템을 제안하고 있다. 데이터마이닝은 다섯 가지의 방법으로 가능하다. 의미검색 문서요약 문서클러스터링 문서분류 그리고 주제추적이다. 최근에 빠르게 개발되고 있는 디지털 신기술도 인문학과 긴밀하게 연결되지 않으면, 그 활용도가 제한적이라는 점을 본고를 통해서 지적하였다. 창작소재로서의 문화원형콘텐츠의 활용도를 크게 향상시킬 수 있는 길은 바로 신지식관리를 위한 통학적(uni-discipline) 접근이라는 점을 일깨우고자 한다.

과학기술정책 연구와 사회, 정부 : 과학기술의 사회이슈, 정부정책, 학술연구의 공진화 분석 (Science and Technology Policy Studies, Society, and the State : An Analysis of a Co-evolution Among Social Issue, Governmental Policy, and Academic Research in Science and Technology)

  • 권기석;정서화;이찬구
    • 기술혁신학회지
    • /
    • 제21권1호
    • /
    • pp.64-91
    • /
    • 2018
  • 이 연구의 목적은 우리나라에서 과학기술정책 연구가 본격적으로 등장한 이래 과학기술을 둘러싼 사회이슈, 학술연구, 과학기술정책이 어떻게 상호작용해 왔는지 탐색하는 데에 있다. 과학기술정책 연구가 시대적 수요를 얼마나 수용해 왔는지, 문제해결을 위해 얼마나 적절하게 대응해 왔는지 분석하였다. 이를 위해 크게 사회이슈, 학술연구, 그리고 과학기술정책의 텍스트에 대한 네트워크분석과 군집분석을 실시하였다. 먼저, 과거 20년 동안 과학기술 관련 언론 기사를 중심으로 사회이슈를 분석하였다. 다음으로, 과학기술정책 연구논문과 정부문서를 각각 분석해봄으로써 사회문제로 제기된 과학기술 관련 정책수요들이 연구를 통해 정부정책으로 이어졌는지 분석하였다. 분석 결과, 과학기술정책 연구는 통합적인 시각보다는 주로 급변하는 기술혁신에 발 빠르게 움직이는 단편적 연구가 많다고 할 수 있다. 그러나 다음 시기에서는 연구주제의 성숙도를 높이면서, 사회적 반응성을 높이는 공진화 경향을 보여 주었다. 이러한 과정에서 삼자간 시차 현상 또한 확인할 수 있었다. 향후 과학기술정책 연구는 기존의 미시수준의 연구에서 중범위와 거시수준으로 확장되어야 할 것이다. 특히 과학기술의 정책과정과 공공관리에 관심을 가져야하며, 사회적 이슈에 대한 민감성을 높이는 정책의제설정 등에 대한 연구가 필요하다는 시사점을 도출하였다.