• 제목/요약/키워드: Korean movie

검색결과 774건 처리시간 0.028초

영화도메인 한국어 감성사전의 자동구축과 평가 (Automatic Construction and Evaluation of Movie Domain Korean Sentiment Dictionary)

  • 조희련;최상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.585-587
    • /
    • 2015
  • 본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

Learning Algorithms in AI System and Services

  • Jeong, Young-Sik;Park, Jong Hyuk
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1029-1035
    • /
    • 2019
  • In recent years, artificial intelligence (AI) services have become one of the most essential parts to extend human capabilities in various fields such as face recognition for security, weather prediction, and so on. Various learning algorithms for existing AI services are utilized, such as classification, regression, and deep learning, to increase accuracy and efficiency for humans. Nonetheless, these services face many challenges such as fake news spread on social media, stock selection, and volatility delay in stock prediction systems and inaccurate movie-based recommendation systems. In this paper, various algorithms are presented to mitigate these issues in different systems and services. Convolutional neural network algorithms are used for detecting fake news in Korean language with a Word-Embedded model. It is based on k-clique and data mining and increased accuracy in personalized recommendation-based services stock selection and volatility delay in stock prediction. Other algorithms like multi-level fusion processing address problems of lack of real-time database.

A Robust Bayesian Probabilistic Matrix Factorization Model for Collaborative Filtering Recommender Systems Based on User Anomaly Rating Behavior Detection

  • Yu, Hongtao;Sun, Lijun;Zhang, Fuzhi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권9호
    • /
    • pp.4684-4705
    • /
    • 2019
  • Collaborative filtering recommender systems are vulnerable to shilling attacks in which malicious users may inject biased profiles to promote or demote a particular item being recommended. To tackle this problem, many robust collaborative recommendation methods have been presented. Unfortunately, the robustness of most methods is improved at the expense of prediction accuracy. In this paper, we construct a robust Bayesian probabilistic matrix factorization model for collaborative filtering recommender systems by incorporating the detection of user anomaly rating behaviors. We first detect the anomaly rating behaviors of users by the modified K-means algorithm and target item identification method to generate an indicator matrix of attack users. Then we incorporate the indicator matrix of attack users to construct a robust Bayesian probabilistic matrix factorization model and based on which a robust collaborative recommendation algorithm is devised. The experimental results on the MovieLens and Netflix datasets show that our model can significantly improve the robustness and recommendation accuracy compared with three baseline methods.

영화 리뷰에 대한 한국어 오피니언 마이닝 기법 (Mining Movie Reviews in Korean)

  • 방수라;김원영;류준석;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.721-722
    • /
    • 2009
  • 인터넷 시장이 빠르게 성장함에 따라 사용자들의 참여도가 매우 높아졌다. 인터넷 사용자들은 시장의 상품과 더불어 영화와 같은 문화 생활에 관한 의견을 웹 상에 표현하기 시작했고, 현재에 들어 그 양이 방대해 졌다. 본 논문에서는 사용들이 작성한 영화에 관한 리뷰를 모아 방대한 양에서 유용한 정보를 효율적으로 도출하고 요약해서 사용자에게 제공하는 방법을 제안한다.

감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석 (Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary)

  • 장연지;최지선;박서윤;강예지;강혜린;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

Identifying the Actual Impact of Online Social Interactions on Demand

  • Dong Soo Kim
    • Asia Marketing Journal
    • /
    • 제26권1호
    • /
    • pp.23-30
    • /
    • 2024
  • Firms often engage in manipulating online reviews as a promotional activity to influence consumers' evaluation on their products. With the prevalence of the promotional activities, consumers may notice and discount the reviews generated by the promotional activities. Discounting the firm-generating reviews may cause systematic measurement errors in the valence variable and lead to a negative bias when estimating the effect of consumers' organic reviews on demand. To correct the bias, this study proposes including product-specific bias-correction terms representing the proportion of extreme reviews in analysis. For illustration, the proposed method is applied to a demand model for data of movies released in South Korea. The results confirm a negative bias in the estimate of the valence sensitivity of demand. The negative bias potentially leads to an underestimation of the magnitude of the contagion effect through social interactions, a key component of evaluating the value of a satisfied consumer.

2000년대 한국 대중영화를 통해 바라본 사회·정치적 담론과 미디어적 현상 연구 (Study on the Media Phenomenon and Social & Political Discourse in 2000s Korean Public Movie)

  • 김민수;한화성;김건
    • 만화애니메이션 연구
    • /
    • 통권42호
    • /
    • pp.125-150
    • /
    • 2016
  • 2000년대 들어 한국영화는 천만 관객 동원과 한국형 블록버스터의 성공에 힘입어 산업적인 성장세를 이어가고 있다. 영화의 소재로 남북한 분단 이데올로기뿐만 아니라 역사, 정치, 사회문제 등의 다양한 소재가 다루어지며 실화를 바탕으로 한 영화도 인기를 끌었다. 이에 따라 영화산업의 외형적 규모도 점점 더 확대되고 있다. 이러한 배경에는 다양한 원인이 존재할 것이다. 그 중에서도 한국 상업영화의 발전은 문화소비로서의 대중문화 속성과 다양한 대중의 속성을 파악하여 만든 웰 메이드(well made)영화 그리고 이에 적극적으로 반응하는 미디어적 현상이 주원인일 것이다. 한국 대중영화가 영화 시장에서 확고한 위치를 점하며 자연스럽게 미디어 매체의 관심을 받게 되면서 많은 담론들이 생성되고 있다. 또한 대중영화의 파급력을 인지한 미디어 매체와 소셜 미디어의 영향력은 사회 정치적으로 변화를 이끌기도 하지만 이데올로기의 논란으로 이어지기도 한다. 왜냐하면 대중문화 연구와 관련된 이데올로기적 의미는 의식적 혹은 무의식적이거나 작가(예술가) 자신의 의도와는 관계없이, 언제나 세상에 대한 특정한 이미지를 재현하거나 표현하기 때문이다. 따라서 본 논문은 우선적으로 1990년대 말부터 한국영화가 대중영화로 확고히 자리 잡을 수 있었던 요인과 계기에 대한 논의를 검토하였다. 그런 다음, 2000년대 들어서 더욱 빈번한 정치, 사회, 역사에 대한 수많은 담론들을 형성한 대중영화와 미디어 그리고 소셜 미디어의 관계에 대해 고찰하였다. 이러한 흐름의 논의는 대중영화의 폭과 변화를 이해하는데 도움을 줄 것이다. 또한 편향적인 미디어의 홍수 속에서 사회 정치적인 영화보기나 읽기란 무엇인가에 대해서도 자문하는 계기가 될 것이다.

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

  • 김종수
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.15-30
    • /
    • 2023
  • 근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.

평균 관객 수 10분위를 활용한 감독, 제작자, 배우 흥행성과 분석 (Performance Analysis of Directors, Producers, Main Actors in Korean Movie Industry using Deciles Distribution (2004-2017))

  • 김정호;김재성
    • 한국콘텐츠학회논문지
    • /
    • 제18권10호
    • /
    • pp.78-98
    • /
    • 2018
  • 2004년~2017년 8월까지 국내에 개봉된, 다양성 영화를 제외한 순수 국산 상업 극영화 855편만을 대상으로 하여 이들 영화의 감독, 제작자, 주연배우, 흥행성적을 조사하여 각각의 변수들에 대한 10분위 분석을 시행하였다. 다양성을 제외한 극영화 855편을 만드는 데에는, 감독은 509명, 제작자는 696명, 주연배우는 785여 명이 참여하였다. 프로야구 등 스포츠에는 많은 통계적 분석이 활용되고 있다. 승률, 점유율, 타율, 출루율, 도루성공률, 장타율, 삼진, 비율, 볼넷 비율, 홈런 비율 등이 스포츠 경기 결과를 예측하고, 프로선수들의 평가지표로 다뤄지고, 선수들의 연봉 협상의 참고자료가 되고 있다. 스포츠 경기처럼 우연이 많이 존재하는 영화 흥행에서도 영화의 퀄리티를 결정짓는, 창의력이 있어야 하는 인력들 즉 제작자, 감독, 주연배우 등의 평가에 10분위를 활용하여, 이들의 성과를 예측하거나 공헌도를 평가하는 데에 참고자료가 될 수는 없는지를 탐색하고자 한다. 본 연구에서는 대본 즉 시나리오에 대해서는 제작자, 배우, 감독이 선택하는 안목과 경륜을 통한 간접평가만을 담고 있다. 향후 시나리오 내러티브 분석의 정량화, 창작 인력의 성장과 쇠퇴를 볼 수 있는 시계열 분석, 창작 인력 간의 상호작용을 보는 네트워크 분석이 요구된다.

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.