• 제목/요약/키워드: Graph Mining

검색결과 105건 처리시간 0.02초

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

CHAID분석을 이용한 나들목 주변 지가의 공간분포 영향모형 개발 - 서울외곽순환고속도로를 중심으로 - (Development of Selection Model of Interchange Influence Area in Seoul Belt Expressway Using Chi-square Automatic Interaction Detection (CHAID))

  • 김태호;박제진;김영일;노정현
    • 대한토목학회논문집
    • /
    • 제29권6D호
    • /
    • pp.711-717
    • /
    • 2009
  • 본 연구는 고속도로 나들목의 접근성이 주변 아파트 지가형성에 미치는 영향 관계를 규명하기 위해서 서울외곽순환고속도로를 중심으로 분석하였다. 분석을 위해서는 데이터마이닝(CHAID분석), 추세선 분석(Trend Analysis) 등을 활용하여 고속도로의 나들목(IC) 주변 아파트가격과 관련된 지가경사 모형을 개발하였다. 분석결과, 첫째, 고속도로 나들목이 위치한 지역별(외측 : 경기도, 내측 : 서울시)로 아파트 가격에 차이가 있으며, 일반적인 주택가격과 교통결절점이 가지는 선형 관계가 아닌 비선형적 관계(2차 다항식)를 가지는 것으로 나타났다. 둘째, CHAID분석을 이용한 공간분포 검토 결과, 외측지역(경기도)의 경우 2.6km를 전후하여 2개의 상이한 공간분포를 가지며, 내측지역(서울시)의 경우 1.4km와 3.8km를 전후하여 3개의 상이한 공간분포를 가지는 것으로 나타났다. 이는 아파트 가격이 도로결절점(고속도로 나들목)으로부터 첫 번째 임계점까지 는 점차 상승하다가 일정거리 이후부터 서서히 감소하는 복합적인 공간분포를 가지는 것으로 나타나 교통접근성이 좋다고 하여 주택가격이 높지만은 않으며, 주거환경(고속도로 소음, 지역단절 등)과 교통접근성간의 상호 교환 작용(Trade Off Effect)에 의한 현상이라 할 수 있다. 향후 본 연구의 고속도로 나들목 주택가격 영향모형을 이용하여 고속도로 주변에 지속적으로 건설되고 있는 신도시 주택가격 산정에 활용이 가능할 것으로 판단된다.

네트워크 그래프를 활용한 자율주행차에 대한 인식 분석 (The Perception Analysis of Autonomous Vehicles using Network Graph)

  • 박효경;유연휘;용성중;이서영;문일영
    • 실천공학교육논문지
    • /
    • 제15권1호
    • /
    • pp.97-105
    • /
    • 2023
  • 최근 인공지능 기술의 발달에 따라 사용자의 편의성을 위한 기술이 많이 개발되고 있다. 그중 자율주행차에 대한 관심이 나날이 증가하고 있다. 현재 많은 자동차 기업에서 자율주행차 상용화를 목표로 하고 있다. 상용화를 뒷받침할 정부의 새롭고 합리적인 정책 수립의 기반을 조성하기 위하여 뉴스 기사 데이터를 통해 여론의 변화와 인식을 분석하고자 하였다. 따라서 본 논문에서는 최근 3년간 자율주행차와 유사한 용어가 언급된 뉴스 기사 데이터 35,891건을 수집하고, 네트워크 분석하였다. 분석결과, '자율주행', 'AI', '미래', '현대자동차', '자율주행차', '자동차', '산업', '전기차' 등의 주요 키워드가 도출되었다. 또한, 자율주행차 산업은 자동차 기업뿐만 아니라, 반도체 기업, 빅테크 기업 등 다양한 산업과 융합되며 더욱 빠르고 다양한 플랫폼과 서비스 산업으로 발전하고 있으며, 산업의 융복합에 주목하고 있는 것으로 나타났다. 여론의 변화와 인식을 지속적으로 확인하기 위해 SNS 데이터나 기술 트렌드의 지속적인 분석을 통한 인식 분석이 필요할 것으로 판단된다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

한국공업화과정(韓國工業化過程)에서의 광물자원(鑛物資源)의 수급구조변화(需給構造變化)와 경제성장(經濟成長)에 있어서의 역할(役割) (The Changing Patterns of Demand-Supply and Role of Mineral Resources in Economic Growth during Industrialization of the Republic of Korea)

  • 윤석규
    • 자원환경지질
    • /
    • 제18권1호
    • /
    • pp.65-92
    • /
    • 1985
  • A total of 12 mineral commodities significant in domestic output, economy and/or strategy of the Republic of Korea are chosen to examine the structural changes in production and demand-supply of these minerals during the last two decades of her industrialization. These include iron and manganese ores as the raw materials for iron and steel making, copper, zinc and tungsten ores among other non-ferrous metallic minerals, limestone (cement), kaolin, talc, pyrophyllite and graphite among other non-metallic minerals, and anthracite coal as the only domestic source of fossil energy. These are reviewed historically in time-series based on the statistical data which are tabulated and graphed in terms of domestic output, export, import, apparent demand-supply, its increasing rate, and self-sufficiency rate of each commodity. The increasing rates of demand-supply (IRDS) of some more important commodities are compared with those of Gross Domestic Production (GDP) and Economic Growth Rate (EGR) to evaluate how the IRDS contributed to the GDP and EGR. The major results revealed are as follows: Among the 12 commodities, the domestic output of 8 commodities appeared to have grown with steady upward trends: they are ores of lead, zinc and tungsten, limestone (cement), kaolin, talc, pyrophyllite and anthracite coal. Two commodities, ores of iron and copper, continued with unchanging or slightly declining trends and varied fluctuations, in spite of their cardinal importance to the heavy industry and strategy of Korea. The remaining two, graphite and manganese ore, have gradualy declined in domestic output in which the former has still enough resource potential but the latter has not and virtually ceased its domestic output. Trade patterns for mineral commodities in the Republic of Korea during the last two decades have changed greatly, being marked by a shift from mineral-exporting to mineral importing, mainly because of increasing consumption of mineral raw materials for industrialization rather than beceuse of decreasing output of domestic mineral commodities in quantity. In terms of trade patterns, the 12 commodities concerned in this study can be classified into the following four groups. The 1st group - ores of lead and tungsten have only been exported without imports. The 2nd group - amorphous graphite, and pyrophyllite have mainly been exported but partly been imported. The 3rd group - kaolin, talc and crystalline graphite have equally been exported and imported, but quantity of imports have rapidly been increased with time. The 4th group - ores of iron, manganese and zinc have shifted from exports to imports during the industrialization, particularly owing to the initiation of iron and steel making by the Pohang Iron and Steel Company in the middle 1970' s and the new establishment of the Onsan Zinc Refinery in the late 1970' s. All of the 12 commodities under considerations were far above 100% in self-sufficiency rate before or in the early 1960' s. Recently, however, most of them have been declined to below 100% except for those of limestone (cement) and pyrophyllite. It is particularly serious to identify that the self-sufficiency rates of the three important metallic minerals, iron, copper and manganese ores in 1982 appeared to be 5.1%, 0.5%, and 0.01%, respectively. The average self-sufficiency rate of the total domestic minerals produced in 1982 was 14.4% (in value) for that year. Mining industry appeared to be extremely high in its intermediate demand rate whereas its intermediate input rate to be quite low indicating that mineral raw materials have been exerted strong forward linkage effects upon the other industries rather than backward linkage effects. In comparing the curves of increasing rates of demand-supply of several major minerals - iron ore, manganese ore, copper ore, limestone (cement), kaolin, and anthracite coal - with those of Gross Domestic Production and Economic Growth Rate drawn on every graph, it is clearly shown that the curves of increasing rates of demand-supply comprise around 6 to 7 periods of cycles which roughly harmonious with those of the curves of GDP and EGR, except for the curve of anthracite coal of which the configuration seems to have resulted from the (artificial) government's mineral policy rather than from economic free market mechanism. The harmonic feature of these curves well suggests that the increasing rates of demand-supply of major minerals have been significantly contributed to the GDP and EGR. In addition, the wider amplitudes of the iron, manganese and copper curves than those of the limestone (cement) and kaolin curves indicate that the contribution of the former, metallic commodities, has been greater than that of the latter, non-metallic commodities.

  • PDF