• Title/Summary/Keyword: Attention System

검색결과 4,238건 처리시간 0.044초

오피니언 마이닝과 네트워크 분석을 활용한 상품 커뮤니티 분석: 영화 흥행성과 예측 사례 (Product Community Analysis Using Opinion Mining and Network Analysis: Movie Performance Prediction Case)

  • 진위;김정수;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.49-65
    • /
    • 2014
  • 구전(WOM: Word of Mouth)는 주변 사람들에게 상품에 대한 경험을 입에서 입으로 전달하는 현상을 말하며 소셜 미디어의 발전으로 온라인 구전(eWOM: Electronic Word of Mouth) 형태로 발전하였다. 구전 효과의 중요성으로 인해서 대부분의 기업들의 자사의 상품이나 서비스에 대한 온라인 구전에 촉각을 세우고 있으며, 특히 영화와 같은 경험재의 경우에는 그 영향력이 더욱 크다. 본 연구에서는 영화 커뮤니티에 대한 사회 네트워크 분석을 통해서 영화 흥행성과 지표인 매출에 미치는 영향요인을 규명하고자 한다. 영화 흥행성과 연구들에서 주요하게 다루어진 영화에 대한 구전의 크기(volume)와 방향성(valence)과 같은 구전 요인들을 추가하여, 구전 네트워크의 중심성 척도를 영향 요인에 고려하였다. 구전의 크기, 방향성, 그리고 3가지 중심성 척도(연결 중심성, 매개 중심성, 근접 중심성)의 최종 영화 매출에 영향 관계를 가설로 설정하였다. 제시한 연구 모형을 검증하기 위하여 대표적인 온라인 영화 커뮤니티 사이트인 IMDb(Internet Movie Database)에서 영화 구전 데이터를 수집하였고, Box-Office-Mojo사이트에서 영화 매출 데이터를 수집하였다. 2012년 9월부터 1년 동안, 주간 Top-10에 포함된 적이 있는 영화들을 대상으로 하였으며, 총 103개의 영화가 선정되어 이 영화들에 대한 메타 데이터와 커뮤니티 데이터가 수집되었다. 영화 커뮤니티 네트워크는 평가자들간의 댓글 관계를 기초로 구축하였다. 본 연구에서 사용한 3가지 중심성 척도는 사회 네트워크 분석 도구인 NodeXL을 사용하여 계산되었으며, 각 영화별 커뮤니티 참여자들의 중심성 척도의 평균값을 활용하였다. 가설 검증의 사전 분석을 위한 상관관계 분석에서는 3가지 중심성 척도간에 상관 관계가 높은 것으로 파악되어서, 각각에 대하여 별도로 회귀분석을 수행하였다. 분석 결과, 기존 연구와 일관성 있게 구전의 크기와 방향성은 영화 성과지표인 최종 매출에 긍정적인 영향을 미치는 것으로 파악되었다. 또한 구전 네트워크 내의 참여자 매개중심성 평균은 영화의 최종 매출에 영향을 미치는 것으로 파악되었다. 하지만 연결중심성과 근접중심성은 최종 매출에 영향을 주지 못하는 것으로 나타났다.

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론 (Deep Learning-based Professional Image Interpretation Using Expertise Transplant)

  • 김태진;김남규
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.79-104
    • /
    • 2020
  • 최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.

고객 간 관계 네트워크가 조직성과에 미치는 영향: 페이스북 기업 팬페이지를 중심으로 (Effects of Customers' Relationship Networks on Organizational Performance: Focusing on Facebook Fan Page)

  • 전수현;곽기영
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.57-79
    • /
    • 2016
  • 최근 소셜 네트워크 서비스는 소비자와의 관계 마케팅 확산 및 확장을 위한 중요한 채널로 인식되며 많은 관심을 받고 있다. 기업이 온라인 환경에서 성공하기 위해서는 기업과 고객 사이의 관계 구축뿐만 아니라 고객들 간의 관계에 초점을 맞출 필요가 있다. 본 연구에서는 페이스북 팬 페이지에 참여하는 사용자들 사이의 네트워크를 분석하여 기업의 비즈니스 성과에 고객 간 네트워크의 구조적 특성이 미치는 영향을 실증적으로 분석하였다. 이를 위해 네트워크 데이터는 코스피 상장 기업 가운데 페이스북 팬 페이지에 100개 이상의 게시글을 올린 54개 기업으로부터 수집하였으며, 수집된 네트워크 데이터는 각 사용자를 노드로 하고 동일한 마케팅 활동에 대해 참여한 사용자간의 관계를 링크로 한 원모드 비방향 이진 네트워크(one-mode undirected binary network)이다. 본 연구에서는 이러한 네트워크 데이터를 핸들링하여 사용자들 간의 활동 관계를 분석할 수 있는 네트워크 지표(밀도, 글로벌 클러스터링 계수, 최단거리평균, 직경)를 도출하였으며, 이러한 고객 간 네트워크의 구조적 특징을 파악할 수 있는 지표와 기업의 과거실적(순이익), 그리고 미래 예측성과(토빈의 Q) 간의 관계를 분석하였다. 본 연구는 학문적 관점에서 소셜 미디어 채널을 비즈니스 관점에서 연구하려는 연구자들에게 소셜네트워크분석 방법을 통한 새로운 접근법을 제시한다. 실무적인 관점에서 본 연구는 소셜미디어를 통해 마케팅 활동을 수행하려는 기업의 관리자들에게 네트워크의 지표를 이용한 지능형 마케팅 서비스를 수행할 수 있는 토대를 제공할 것으로 기대한다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.

혁명시기 중국공산당의 문서당안관리 (Chinese Communist Party's Management of Records & Archives during the Chinese Revolution Period)

  • 이원규
    • 기록학연구
    • /
    • 제22호
    • /
    • pp.157-199
    • /
    • 2009
  • 중국공산당의 창당과 함께 문서와 당안 관리 조직이 출현한 것은 아니었다. 1926년 중앙 비서처가 설립된 이후 문서과와 그 소속 문건열람처, 문건보관처 등이 설립됨으로써 본격화되었던 것이다. 1930년대 초 비서조직의 업무개선이 집중적으로 논의되었는데, 비판의 핵심은 정치적 역할을 자각하지 못한 채 단순히 "기능적 조직"으로 전락하고 말았다는 것이었고, 이의 해결 방안은 곧 "비서처 업무의 정치화"였다. 나아가 1940년대에는 "정풍운동"의 영향으로 문서만이 아니라 각종 주요 정보자료를 수집하여 정리, 제공하는 재료과의 임무가 강조되었다. 한편, 문서의 작성에 있어서 인물이나 기관의 명칭을 다르게 표기한다든가 약물을 사용하여 문서를 작성하는 등 보안의 유지가 줄곧 강조되었으며, 또한 업무활동과 지역의 상황에 대한 정기보고를 통해 중앙과 지방간의 소통이 강조되었다. 비서장은 중요 공문의 초안을 작성하는 것은 물론, 모든 문건의 열람과 심사를 담당하여 문서처리의 중심적 역할을 수행하였다. 문서의 처리가 끝나면 당안이라고 불리우며 보관되었는데, 중앙 비서처 문서과의 "문건보관처"가 이러한 역할을 담당하였다. "중앙문고"라고 불리기도 한 문건보관처는 1930년대 초부터 더 이상 당안을 이관받을 수 없었지만, 1940년대에는 재료과가 문서와 간행재료를 보존하고 제공하는 역할을 강화해갔다. 특히 조사연구를 위한 재료의 수집이 실행되었고, 일본의 통치 아래에 있던 지역을 회복하면서 대량의 당안과 문헌 자료를 수집하기도 하였다. 1931년 당안의 분류방법과 목록작성방법이 규정된 이후 특히 1940년대에 본격적으로 제도화되었는데, 기본적으로는 주제분류법이 유지되었고 기초적인 목록표기법이 채택되었다. "중요성"과 "기밀성"을 관리의 기준으로 삼는 원칙은 비교적 초기부터 나타났지만, 문서의 보존과 폐기를 구분하는 평가의 개념이나 절차는 명확치 않았다. 비밀의 보안관리와 접근제한의 제도를 실행하는 한편, "보존과 이용의 통일"이라는 구호에서도 알 수 있듯이 당안재료의 이용제공에 대한 문제의식은 매우 강렬하였다. 혁명운동과 전쟁의 와중에서도 중국공산당은 문서당안의 관리와 보존을 강화해가는 노력을 지속했다. 그 성과가 항상 바람직한 것도 아니었고, 그 경험을 안정적으로 발전시켜갈 수 있었던 것도 아니었다. 그것은 필경 중국공산당이 처해 있던 역사적 여건에서는 불가피한 일이었을 것이다. 이 과정에서 두드러지게 나타난 특성은 단지 기능적인 수준에서 문서당안관리의 효율화를 추진했던 것이 아니라 것이 아니라, 오히려 중국공산당의 혁명운동에 미치는 정치적 의의에 대한 자각을 강화해가며, 혁명 정책 연구의 실증적 근거이자 또한 중국공산당 역사의 증거로서 당안재료가 갖는 가치에 주목하였던 것에서 찾을 수 있을 것이다.

한국 NPL시장 수익률 예측에 관한 연구 (A study on the prediction of korean NPL market return)

  • 이현수;정승환;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.123-139
    • /
    • 2019
  • 국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.

일제강점기의 신라고분조사연구에 대한 검토 (An Study on Cognition and Investigation of Silla Tumuli in the Japanese Imperialistic Rule)

  • 차순철
    • 헤리티지:역사와 과학
    • /
    • 제39권
    • /
    • pp.95-130
    • /
    • 2006
  • 근대 초부터 일제강점기까지 세키노 타다시(關野貞)를 비롯한 일본인 관학파 연구자들은 신라고분을 비롯한 한국의 문화유적 전반에 대한 조사연구와 자료수집활동을 했다. 이들은 초기에는 메이지정부의 지원을 받았고 한국이 식민지화된 이후에는 조선총독부와 유관기관으로부터 재정 지원을 받으면서 고고, 미술, 건축, 인류학, 민속학 등 전 분야에 걸친 조사를 하였다. 이들이 신라고분을 비롯한 한국의 문화유산을 조사한 목적은 한국에 대한 일본의 식민지배를 정당화하기 위한 이론적 근거와 필요한 자료를 찾기 위한 것이었으므로, 지역적으로 편중되고 왜곡된 시각이 나타나기도 한다. 1886년부터 한국의 고분과 출토유물에 대한 관심을 가진 일본인 연구자들에 의한 방한 조사가 계속 끊임없이 이루어졌다. 1904년 세키노가 한국에서 조사한 건축조사 보고서인 "한국건축조사보고(韓國建築調査報告)"에는 오릉을 비롯한 여러 고분에 대한 내용이 간단하게 소개되었고, 1906년에는 이마니시 류(今西龍)가 최초로 소금강산에 위치한 '북산고분(北山古墳)'과 황남동 남총(南塚)에 대한 발굴조시를 한 후, 적석목곽분(積石木樹墳)과 횡혈식석실분(橫穴式石室墳)의 구조에 대한 초보적인 인식이 이루어졌다. 1909년 건축학을 전공한 야츠이 세이이치(谷井第一)는 서악동 석침총(石枕塚) 발굴조사에서 작성한 석실의 평면도와 단면도는 한국에서 이루어진 발굴조사에서 최초로 제작된 유구실측도면으로 수치가 표현된 점에서 이전의 스케치된 그림과는 뚜렷하게 구분된다. 또한 이후 발굴조사에서는 이러한 유구 실측도면의 작성은 계속 이어진다. 이마니시와 야쯔이는 신라고분의 입지적 특징, 분구의 형태와 규모, 출토유물 등에 대한 조사 결과에 근거하여 적석목곽분과 횡혈식석실분은 서로 연대적으로 차이가 있음을 밝혔다. 조선총독부는 1916년에 "고적 및 유물보존규칙"과 "고적조사위원회규정"을 시행하고 고적조사위원회와 박물관협의회를 설치했다. 박물관이 활동하게 되면서 고분에서 출토된 유물들을 전시하고 유적을 조사하는 사업들은 모두 조선총독부의 허가를 얻어야 됐다. 1921년에는 금관총(金冠塚)이, 1927년에는 서봉총(瑞鳳塚)이 각각 발굴조사되면서 경주의 대형 적석목곽분은 화려한 출토유물로 주목을 받게 되지만, 전국 각지에 대한 조사가 이루어지면서 여러 고분들에 대한 보고서 발간은 이루어지지 못했다. 최근 몇몇 연구자들의 노력에 의해서 미발간 보고서가 간행되었지만, 서봉총과 같이 중요한 고분들에 대한 보고서가 아직 출판되지 못한 점은 당시의 한계로 볼 수 있다. 1920년대 후반에는 노모리 켄(野守健)이 지적도를 기초로 제작한 경주고분 분포도는 현재 통용되고 있는 155기의 고분의 규모와 위치를 명기한 자료로 시내에 소재한 여러 고분의 전체 모습을 확인시켜준 점에서 그 의미가 크다. 1930년대부터 아리미츠 쿄이찌(有光敎一)와 사이토 타다시(齋藤忠)는 다수의 적석목곽분과 횡혈식석실분에 대한 발굴조사를 통해서 한 묘제에 여러 가지 형식의 분묘가 존재하고 있음을 확인하였고, 특히 복잡하게 중복된 모습으로 노출된 적석목곽분에 대한 발굴조사경험은 이전에 이루어진 발굴조사와 보고서간행 등에 있어서 발전된 모습을 보여준다. 이번에 지난 근대~일제강점기에 발굴조사된 신라고분에 대한 발굴조사 내용을 살펴본 결과, 이때 조사된 여러 유적들에 대한 조사내용을 재검증하는 작업이 필요하며 이는 한국고고학사를 정리하는데 있어서 중요한 사실임을 재확인할 수 있다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.