• 제목/요약/키워드: Training set

검색결과 1,589건 처리시간 0.033초

종합 평점과 다기준 평점을 선택적으로 활용하는 협업필터링 기반 하이브리드 추천 시스템 (A Hybrid Recommender System based on Collaborative Filtering with Selective Use of Overall and Multicriteria Ratings)

  • 구민정;안현철
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.85-109
    • /
    • 2018
  • 추천시스템은 사용자의 과거 구매행동을 통해 향후 구매할 것이라고 예상되는 제품을 자동으로 검색하여 추천해준다. 특히 전자상거래 기업의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로 가치가 있다. 하지만, 전통적인 추천시스템, 특히 학계 및 산업계에서 가장 널리 사용되고 있는 전통적인 협업필터링 기법은 단일차원의 '종합 평점'만을 고려하여 추천결과를 생성하도록 설계되어 있어, 사용자들의 정확한 니즈를 이해하고 대응하는데 근본적인 한계가 있다. 최근에는 전자 상거래 기업들도 고객들로부터 보다 다각화된, 다기준 방식으로 피드백을 받고 있다. 특히 다기준 평점은 정량적으로 입력되는 정보이므로 상대적으로 분석 및 처리가 용이하다는 장점이 있다. 그러나 다기준 평점 역시 사전에 정해진 기준에 대해서만 사용자의 피드백이 이루어지기 때문에, 보다 상세하게 사용자의 의견을 이해하여 추천에 반영하는 데에는 한계가 있다. 이에 본 연구는 다기준 평점 정보와 선택적 협업필터링의 서로 다른 접근방법을 통해 도출된 추천결과를 종합하여, 최종적으로 추천 대상리스트를 산출할 수 있는 하이브리드 기술을 제안한다. 본 연구에서 제안한 연구모형의 유용성을 검증하기 위해, 식음료점(식당, 카페 등)에 대한 실제 이용자를 대상으로 온라인 설문을 통해 종합 평점과 다기준 평점을 수집하였으며, 데이터를 학습용과 검증용으로 구분하여 학습시키고 성과를 평가하였다. 이 기법은 결합 함수 기반 접근법과 사용자마다 구매의사결정의 체계가 다르다는 전제하에, 사용자들을 유형화하고, 유형에 따라 정보원을 선택적으로 활용하는 협업필터링 알고리즘을 활용했다. 실험결과, 제안 알고리즘을 통한 추천 방법이 단일 차원을 고려하는 전통적인 협업필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인했다. 아울러, 본 연구가 제안하는 다기준 평점과 선택적 협업필터링 알고리즘을 종합하여 추천하는 방법이, 단순히 다기준 평점을 고려했을 때 보다 통계적으로 유의한 수준의 정확도의 개선이 이루어짐을 확인할 수 있었다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

프랜차이즈 매장 품질요인의 속성분류: 국내 외식업을 중심으로 (Categorizing Quality Features of Franchisees: In the case of Korean Food Service Industry)

  • 변숙은;조은성
    • 한국유통학회지:유통연구
    • /
    • 제16권1호
    • /
    • pp.95-115
    • /
    • 2011
  • 본 연구는 Kano모델을 활용하여 프랜차이즈 매장에 관한 다양한 품질요인들의 속성을 고객의 관점에서 분류하였다. 또한, 각 품질요인들이 고객의 만족 또는 불만족에 미치는 상대적 영향력을 분석해 보고자 만족지수와 불만족지수를 산출하였다. 자료 수집을 위해 외식 프랜차이즈 매장 방문 경험이 있는 서울 및 전국광역시 거주 성인들을 대상으로 온라인조사를 실시하였으며, 총 257개의 응답이 분석에 사용되었다. 분석 결과, 해당 품질요소가 충족이 되지 않는 경우 소비자의 불만으로 이어지는 요소에는 매장 청결도, 직원 친절도 및 숙련도, 편의시설 제공 등이 포함되는 것으로 나타났다. 프랜차이즈 사업에서 매장 간 음식메뉴의 구색, 가격, 품질수준, 인테리어, 고객서비스 절차 등의 표준화는 중요하게 생각되어 왔으나, 이 중 음식 가격의 동일성만이 고객의 불만족과 깊은 관계를 가지고 있었다. 충족이 되지 않아도 상관없지만 충족이 되는 경우 고객들의 호의적인 반응을 이끌어낼 수 있는 요소로는 외부기관으로부터의 수상 또는 인증 경력, 프랜차이즈 브랜드의 해외진출, 경품이벤트 및 사용금액에 따라 혜택을 주는 로열티 프로그램의 실시, 그리고 우수한 매장접근성이 해당되었다. 프랜차이즈 브랜드를 상대적으로 자주 이용하는 헤비유저의 경우, 정기적인 신메뉴 출시 또한 매력적인 품질요인으로 생각하고 있었다. 본 논문은 경영자가 우선적으로 관심을 두고 개선하여야 하는 부분과 경쟁력 확보를 위해 추가적으로 투자해야 할 부분이 어디인가에 대한 시사점을 제공해 준다는 점에서 연구의 의의가 있다.

  • PDF

호흡연동 용적변조 회전방사선치료에서 호흡주기에 따른 선량전달 정확성 검증 (Dose verification for Gated Volumetric Modulated Arc Therapy according to Respiratory period)

  • 전수동;배선명;윤인하;강태영;백금문
    • 대한방사선치료학회지
    • /
    • 제26권1호
    • /
    • pp.137-147
    • /
    • 2014
  • 목 적 : 호흡연동 용적변조 회전방사선치료(Gated Volumetric Modulated Arc Therapy)에서 환자의 호흡주기 변화에 따른 선량전달의 정확성을 검증하고자 한다. 대상 및 방법 : 실험에는 TrueBeam STxTM(Varian Medical Systems, Palo Alto, CA)치료기를 사용하였다. 인체모형등가팬텀(Rando Phantom, Alderson Resarch Laboratories Inc. Stamford. CT, USA)의 전산화단층영상에 전산화치료계획시스템(Eclipse 10.0, Varian, USA)을 이용하여 10 MV FFF(Flatenning Filter Free), 선량률 1200 MU/min으로 1500 cGy/fx(Case1, 2, 3)과 220 cGy/fx(Case4, 5, 6)의 치료계획을 수립하였다. $QUASAR^{TM}$ Respiratory Motion Phantom(Modus Medical Devices Inc)을 이용하여 1.5, 2.5, 3.5, 4.5 sec의 일정한 호흡주기와 평균호흡주기가 2.2, 3.5 sec인 환자의 호흡주기를 재현하였고 위상모드 30~70% 구간에서 방사선이 조사되도록 설정하였다. 각각의 호흡 조건에서 2차원 이온전리함 배열 검출기(I'mRT Matrixx, IBA Dosimetry, Germany)와 MultiCube Phantom(IBA Dosimetry, Germany)을 이용하여 측정하였고 세기변조 방사선치료 분석 프로그램(OmniPro I'mRT, IBA Dosimetry, Germany)을 이용하여 Gamma pass rate(3 mm, 3%)을 비교하였다. 결 과 : Case 1, 2, 3, 4, 5, 6의 Gamma pass rate은 일정한 호흡주기 1.5 sec에서 100.0, 97.6, 98.1, 96.3, 93.0, 94.8%, 2.5 sec에서 98.8, 99.5, 97.5, 99.5, 98.3, 99.6%, 3.5 sec에서 99.6, 96.6, 97.5, 99.2, 97.8, 99.1%, 4.5 sec에서 99.4, 96.3, 97.2, 99.0, 98.0, 99.3%의 결과를 보였다. 환자의 호흡을 재현한 경우 평균 호흡주기 2.2 sec에서는 97.7, 95.4, 96.2, 98.9, 96.2, 98.4%, 3.5 sec에서는 97.3, 97.5, 96.8, 100.0, 99.3 99.8%의 결과를 보였다. 결 론 : 2.5 sec이상의 일정한 호흡주기와 환자의 호흡을 재현한 실험에서 Gamma pass rate 95%이상의 임상적으로 신뢰할 만한 결과를 보였다. 일정한 호흡주기 1.5 sec의 Case 5, 6 에서 93.0, 94.8%의 결과를 보였으나 100명의 환자 호흡주기 분석 결과 1.5 sec의 호흡을 지속했던 경우는 없었던 점으로 보아 대부분의 호흡조건에서 정확한 선량전달이 가능함을 확인 하였다. 다만 극히 짧은 호흡주기로 인한 오차발생 가능성을 배제할 수 없기 때문에 치료전 선량전달 정확성 검증이 선행되어야 하며 모의치료시 환자 교육으로 안정된 호흡을 유지하고 정확한 모니터링을 통해 치료중 환자 호흡변화에 대처한다면 더욱 안정적이고 정확한 치료가 이루어질 것으로 사료된다.

제 1, 2회 학생 과학 공동탐구 토론대회의 종합적 평가 (Summative Evaluation of 1993, 1994 Discussion Contest of Scientific Investigation)

  • 김은숙;윤혜경
    • 한국과학교육학회지
    • /
    • 제16권4호
    • /
    • pp.376-388
    • /
    • 1996
  • The first and the second "Discussion Contest of Scientific Investigation" was evaluated in this study. This contest was a part of 'Korean Youth Science Festival' held in 1993 and 1994. The evaluation was based on the data collected from the middle school students of final teams, their teachers, a large number of middle school students and college students who were audience of the final competition. Questionnaires, interviews, reports of final teams, and video tape of final competition were used to collect data. The study focussed on three research questions. The first was about the preparation and the research process of students of final teams. The second was about the format and the proceeding of the Contest. The third was whether participating the Contest was useful experience for the students and the teachers of the final teams. The first area, the preparation and the research process of students, were investigated in three aspects. One was the level of cooperation, participation, support and the role of teachers. The second was the information search and experiment, and the third was the report writing. The students of the final teams from both years, had positive opinion about the cooperation, students' active involvement, and support from family and school. Students considered their teachers to be a guide or a counsellor, showing their level of active participation. On the other hand, the interview of 1993 participants showed that there were times that teachers took strong leading role. Therefore one can conclude that students took active roles most of the time while the room for improvement still exists. To search the information they need during the period of the preparation, student visited various places such as libraries, bookstores, universities, and research institutes. Their search was not limited to reading the books, although the books were primary source of information. Students also learned how to organize the information they found and considered leaning of organizing skill useful and fun. Variety of experiments was an important part of preparation and students had positive opinion about it. Understanding related theory was considered most difficult and important, while designing and building proper equipments was considered difficult but not important. This reflects the students' school experience where the equipments were all set in advance and students were asked to confirm the theories presented in the previous class hours. About the reports recording the research process, students recognize the importance and the necessity of the report but had difficulty in writing it. Their reports showed tendency to list everything they did without clear connection to the problem to be solved. Most of the reports did not record the references and some of them confused report writing with story telling. Therefore most of them need training in writing the reports. It is also desirable to describe the process of student learning when theory or mathematics that are beyond the level of middle school curriculum were used because it is part of their investigation. The second area of evaluation was about the format and the proceeding of the Contest, the problems given to students, and the process of student discussion. The format of the Contests, which consisted of four parts, presentation, refutation, debate and review, received good evaluation from students because it made students think more and gave more difficult time but was meaningful and helped to remember longer time according to students. On the other hand, students said the time given to each part of the contest was too short. The problems given to students were short and open ended to stimulate students' imagination and to offer various possible routes to the solution. This type of problem was very unfamiliar and gave a lot of difficulty to students. Student had positive opinion about the research process they experienced but did not recognize the fact that such a process was possible because of the oneness of the task. The level of the problems was rated as too difficult by teachers and college students but as appropriate by the middle school students in audience and participating students. This suggests that it is possible for student to convert the problems to be challengeable and intellectually satisfactory appropriate for their level of understanding even when the problems were difficult for middle school students. During the process of student discussion, a few problems were observed. Some problems were related to the technics of the discussion, such as inappropriate behavior for the role he/she was taking, mismatching answers to the questions. Some problems were related to thinking. For example, students thinking was off balanced toward deductive reasoning, and reasoning based on experimental data was weak. The last area of evaluation was the effect of the Contest. It was measured through the change of the attitude toward science and science classes, and willingness to attend the next Contest. According to the result of the questionnaire, no meaningful change in attitude was observed. However, through the interview several students were observed to have significant positive change in attitude while no student with negative change was observed. Most of the students participated in Contest said they would participate again or recommend their friend to participate. Most of the teachers agreed that the Contest should continue and they would recommend their colleagues or students to participate. As described above, the "Discussion Contest of Scientific Investigation", which was developed and tried as a new science contest, had positive response from participating students and teachers, and the audience. Two among the list of results especially demonstrated that the goal of the Contest, "active and cooperative science learning experience", was reached. One is the fact that students recognized the experience of cooperation, discussion, information search, variety of experiments to be fun and valuable. The other is the fact that the students recognized the format of the contest consisting of presentation, refutation, discussion and review, required more thinking and was challenging, but was more meaningful. Despite a few problems such as, unfamiliarity with the technics of discussion, weakness in inductive and/or experiment based reasoning, and difficulty in report writing, The Contest demonstrated the possibility of new science learning environment and science contest by offering the chance to challenge open tasks by utilizing student science knowledge and ability to inquire and to discuss rationally and critically with other students.

  • PDF

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

한국 NPL시장 수익률 예측에 관한 연구 (A study on the prediction of korean NPL market return)

  • 이현수;정승환;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.123-139
    • /
    • 2019
  • 국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.

CNN 보조 손실을 이용한 차원 기반 감성 분석 (Target-Aspect-Sentiment Joint Detection with CNN Auxiliary Loss for Aspect-Based Sentiment Analysis)

  • 전민진;황지원;김종우
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.1-22
    • /
    • 2021
  • 텍스트를 바탕으로 한 차원 기반 감성 분석(Aspect-Based Sentiment Analysis)은 다양한 산업에서 유용성을 주목을 받고 있다. 기존의 차원 기반 감성 분석에서는 타깃(Target) 혹은 차원(Aspect)만을 고려하여 감성을 분석하는 연구가 대다수였다. 그러나 동일한 타깃 혹은 차원이더라도 감성이 나뉘는 경우, 또는 타깃이 없지만 감성은 존재하는 경우 분석 결과가 정확하지 않다는 한계가 존재한다. 이러한 문제를 해결하기 위한 방법으로 차원과 타깃을 모두 고려한 감성 분석(Target-Aspect-Sentiment Detection, 이하 TASD) 모델이 제안되었다. 그럼에도 불구하고, TASD 기존 모델의 경우 구(Phrase) 간의 관계인 지역적인 문맥을 잘 포착하지 못하고 초기 학습 속도가 느리다는 문제가 있었다. 본 연구는 TASD 분야 내 기존 모델의 한계를 보완하여 분석 성능을 높이고자 하였다. 이러한 연구 목적을 달성하기 위해 기존 모델에 합성곱(Convolution Neural Network) 계층을 더하여 차원-감성 분류 시 보조 손실(Auxiliary loss)을 추가로 사용하였다. 즉, 학습 시에는 합성곱 계층을 통해 지역적인 문맥을 좀 더 잘 포착하도록 하였으며, 학습 후에는 기존 방식대로 차원-감성 분석을 하도록 모델을 설계하였다. 본 모델의 성능을 평가하기 위해 공개 데이터 집합인 SemEval-2015, SemEval-2016을 사용하였으며, 기존 모델 대비 F1 점수가 최대 55% 증가했다. 특히 기존 모델보다 배치(Batch), 에폭(Epoch)이 적을 때 효과적으로 학습한다는 것을 확인할 수 있었다. 본 연구에서 제시된 모델로 더욱 더 세밀한 차원 기반 감성 분석이 가능하다는 점에서, 기업에서 상품 개발 및 마케팅 전략 수립 등에 다양하게 활용할 수 있으며 소비자의 효율적인 구매 의사결정을 도와줄 수 있을 것으로 보인다.