• 제목/요약/키워드: 개인 식별 시스템

검색결과 444건 처리시간 0.023초

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

객체관계형 DBMS에서 타입수준 액세스 패턴을 이용한 선인출 전략 (Prefetching based on the Type-Level Access Pattern in Object-Relational DBMSs)

  • 한욱신;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.529-544
    • /
    • 2001
  • 선인출은 데이타베이스 관리 시스템에서 클라이언트와 서버 사이에 발생하는 라운드트립을 줄 일 수 있는 효과적인 방법이다. 본 논문에서는 타입수준 액세스 패턴과 타입수준 지역성이라는 새로운 개 념을 제시하고, 이 개념에 기반한 새로운 선인출 방법을 제시한다. 타입수준 액세스 패턴이란 항해에 사 용된 애트리뷰트들의 패턴이며, 타입수준 엑세스 지역성이란 항해 응용에서 타입수준 액세스 패턴이 반복 적으로 나타나는 현상이다. 기존의 선인출 방법은 항해 응용에서 액세스된 객체 흑은 페이지 식별자들간의 패턴인 객체수준 혹은 페이지수준 액세스 패턴을 선인룰에 이용하는데, 이 방법은 동일한 객체 혹은 페이 지들이 반복적으로 액세스될 때에만 선인출 효과를 가지는 문제점이 있다. 이에 반해 제안하는 방법은 항 해 응용에서 같은 객체들이 반복적으로 액세스되지 않더라도 같은 애트리뷰트들이 반복적으로 참조되는 경우. 즉, 타입수준 액세스 지역성이 존재하면, 효과적인 선인출을 수행하는 장점이 있다 객체관계형 DHMS(ORDBMS)의 많은 항해 응용들은 타입수준 액세스 지역성이 있다 따라서, 제안하는 방법을 ORDBMS에 적용하면 라운드트립의 횟수를 효과적으로 줄일 수 있고 성능을 크게 향상시킬 수 있다. 제 안하는 방법의 우수성을 증명하기 위해, ORDBMS 프로토타입에 구현하여 많은 종류의 실험을 수행하였 다. 실험결과, 복잡한 구조를 탐색하는 007 벤치마크나 실제 GIS 응용에서, 제안하는 선인출 방법은 단순 한 요구인출 방법 및 최근의 문맥 기반 선인출 방법과 비교하여 라운드트림 횟수를 수십 배에서 수백배가 지 줄이고 성능을 수배가지 향상시켰다. 이와 같은 결과로 볼 때, 제안하는 방법은 객체지향 항해 응용의 성능을 크게 향상시키는 결과로서, 상용 ORDBMS에 구현될 수 있는 실용적인 결과라 믿는다.

  • PDF

4차 산업혁명 시대의 사물인터넷 산업 발전전략에 관한 연구: 기업측면의 비즈니스 모델혁신 방향을 중심으로 (A Study on the Strategy of IoT Industry Development in the 4th Industrial Revolution: Focusing on the direction of business model innovation)

  • 정민의;유성진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.57-75
    • /
    • 2019
  • 본 논문에서는 4차 산업혁명 핵심기술 중 가장 활발하게 산업화가 진행되고 있는 사물인터넷 산업을 대상으로 비즈모델 혁신방향 중심의 연구를 수행하였다. 글로벌 트렌드 분석을 위해 PEST분석을 활용하여 정책적, 경제적, 사회적, 기술적 이슈를 도출하였고, Gartner, International Data Corporation 등 ICT관련 조사 분석기관의 사물인터넷산업에 대한 미래전망을 제시하였는데, 사물인터넷은 인프라 및 플랫폼을 기반으로 산업인터넷(IIoT), 소물인터넷(IoST) 등으로 네트워크 기술경쟁이 이슈가 될 것으로 전망하였다. 4차 산업혁명으로 인해 급변하는 산업계에 대응하기 위해 기존의 비즈니스 모델 혁신을 위한 다양한 경영학적 방법론들을 검토하였고, '적용성', '민첩성', '다양성', '연계성' 4가지 기준을 가지고 전문가 설문조사를 수행하여 Business Model Canvas 모델이 비즈니스 모델 혁신 방법론으로 가장 적합하다는 AHP 분석결과를 도출하였다. Business Model Canvas는 비즈니스 모델 혁신을 위한 방법론으로 비교적 최근에 제시된 경영전략이며, 9개의 블록 접근 방식을 통해 비즈니스모델의 가치를 식별하며, 비즈니스의 4대 핵심 영역인 고객, 주문, 인프라, 사업타당성 분석 등을 포괄한다. 결론적으로 ICT융합산업 분야에서 어떠한 Business Model Canvas 모델을 방향으로 적용할지에 대한 고찰을 기술하였다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).