• 제목/요약/키워드: process mining

검색결과 1,050건 처리시간 0.025초

현대 경영자로서의 본질과 성향 연구 (A Study on the Essence and Tendency of Modern Manager)

  • 염배훈;김현수
    • 서비스연구
    • /
    • 제10권3호
    • /
    • pp.23-42
    • /
    • 2020
  • 본 연구는 서비스경제시대에 현대경영자가 갖추어야 할 본질 및 성향을 철학을 바탕으로 개념화한 후, 개념화된 내용을 평가 할 수 있는 항목들을 개발하였다. 새로운 경영학 프레임워크에 의해 경영철학과 경영자론 연구를 심화시키는 새로운 연구로서 수행하였다. 현대경영자의 철학적 기반을 구축하기 위하여 동서양 근본사상을 바탕으로 현대경영자의 본질을 개념화한 후, 분석적 실증적 방법을 통하여 현대경영자의 본질 및 성향을 실용화할 수 있는 평가 항목을 개발하였다. 인류의 대표 사상들을 분석한 후, 현대경영자의 본질을 도출할 수 있는 철학적 모델로 주역(周易)이 그 자격을 가짐을 도출하였다. 주역은 태극이나 음양 등 두 대립자의 구조로 세상의 이치를 설명하고 있고 각 대립자 내부의 모순을 인정하고 변화를 통해 모순을 극복하는 과정이 중심이 되는 사상이므로, 서비스의 본질 및 운용 구조와 부합한다고 볼 수 있기 때문이다. 개념적 연구를 수행한 후에, 실증연구를 통해, 현대경영자가 갖추어야 할 본질 및 성향을 개념화 하였다. 주역(周易)을 활용한 현대경영자의 본질 개념화와 실증 연구를 두 단계로 진행하였다. 먼저 현대경영자가 갖추어야 할 본질 및 성향 개념화 항목을 도출하기 위해 반복적비교분석법(CCM)과 초점집단인터뷰(FGI) 그리고 텍스트마이닝을 사용한 질적 연구를 수행하였다. 그리고 문헌고찰과 FGI를 통한 표본항목개발, 측정항목 개발을 위한 요인분석을 사용한 양적연구를 진행하여 현대경영자의 본질 개념을 도출하였다. 최종적으로 배움, 준비, 도전, 포용, 신뢰, 도덕, 희생이라는 현대경영자의 본질을 도출하였다. 향후 글로벌 및 한국 대표기업들을 대상으로 현대경영자 본질의 효과성에 대한 실증 연구 등을 수행할 필요가 있다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

망간단괴의 분화율과 망간단괴 분말 및 해저퇴적물의 물리적 특성 (Shattering Ratio of Manganese Nodule and Physical Properties of Powdered Manganese Nodule and Sea eottom Sediment)

  • 최헌수;강중석;장세원;고상모;엄인권
    • 한국광물학회지
    • /
    • 제20권4호
    • /
    • pp.277-287
    • /
    • 2007
  • 망간단괴의 분말과 채광과정에서 함께 유입되는 해저퇴적물이 양광과정에 어떠한 영향을 끼치는지 파악하기 위하여 망간단괴의 분화정도와 망간단괴의 분말과 해저퇴적물의 물리적 특성을 파악하였다. 망간단괴의 자체분화율과 파쇄분화율은 각각 약 27%와 3%로, 총 분화율은 약 30%정도이다. 망간단괴의 탁도는 초기에는 매우 높은 값(약 3,100)을 보이나 시간에 따라 급격히 감소하여 1 h 후에는 반으로(약 1,570) 줄어든다. 해저퇴적물 시료는 초기의 약 1,850의 높은 값에서 1 h 후 1,310, 2 h 후 약 1,110으로 빠른 감소를 보이나 망간단괴에 비해 느린 감소를 보인다. 그러나 시추용 이수제로 사용되는 Na-벤토나이트는 초기 820에서 1 h 후 730, 2 h 후 700으로 매우 변화가 적다. 망간단괴의 점도는 $1.4{\sim}1.5cP$이며, 해저퇴적물의 점도는 1 cP 미만으로 매우 낮다. 반면 Na-벤토나이트의 점도는 초기 37.2에서 시간이 갈수록 증가하여 30 min 후에는 86.4cP의 값을 보인다. 망간단괴의 탁도 초기 값이 높은 것은 망간단괴 자체의 짙은 색깔에 의한 것으로 생각되며, 높은 비중으로 쉽게 침전되어 탁도의 빠른 감소를 보인다. 해저퇴적물은 매우 미립으로 쉽게 분산되어 초기에는 높은 값을 보이나물과 결합하여 겔을 형성하기보다 응집되어 쉽게 침전되므로 탁도의 빠른 감소를 보이게 된다. 그러나 이들 망간단괴 및 퇴적물의 구성광물은 거의 비팽윤성으로 겔을 형성하지 않아 매우 낮은 점도 값을 보인다. 이러한 특성으로 미루어 보아 망간단괴의 파쇄된 분말이 양광과정에서 양광관이나 수중펌프의 내부에 강하게 점착되어 스케일링을 형성할 가능성은 비교적 낮을 것으로 생각된다. 반면 채광과정에 유입된 해저퇴적물도 그 특성상 망간단괴의 부양을 쉽게 할 수 있는 이수로서의 역할은 거의 할 수 없을 것으로 생각되며, 매우 미립이므로 양광 후 분리는 쉬우나 해상에서 폐기처리 할 경우 환경적인 문제의 가능성을 있을 것으로 사료된다.

Airborne MSS 자료를 이용한 수질인자의 분광특성 분석 (The Analysis of Spectral characteristics of Water Quality Factors Uisng Airborne MSS Data)

  • Dong-Ho Jang;Gi-Ho Jo;Kwang-Hoon Chi
    • 대한원격탐사학회지
    • /
    • 제14권3호
    • /
    • pp.296-306
    • /
    • 1998
  • Airborne MSS 자료는 수질오염을 효과적으로 감시하고 분석할 수 있는 자료이다. 본 연구에서는 다목적 실용위성(KOMPSAT)에 탑재될 저해상도카메라(LRC)의 다중분광 영상자료를 수질오염 분석에 활용할 목적으로 수질인자의 분광반사도를 측정하였으며, 고해상도 원격탐사 자료인 Airborne MSS 자료를 이용하여 수역에서의 수질인자 추출 가능성을 조사하였다. 특히 부영양화와 관련된 환경인자 추출을 시도하였다. 수질인자는 클로로필-a, 부유물질, 탁도 등을 선정하여 분광반사 특성 및 처리기법을 개발하였다. 그 결과는 다음과 같다 첫째, 수면에 도달하는 태양광 스펙트럼은 가시광 영역인 0.4~0.7$\mu\textrm{m}$에서 전체 복사량의 50% 정도가 반사되며, 0.50$\mu\textrm{m}$ 부근에서 가장 높다. 둘째, 클로로필-a는 녹색 파장대인 0.52$\mu\textrm{m}$, 부유물질의 반사도는 0.8$\mu\textrm{m}$, 탁도는 0.57$\mu\textrm{m}$에서 높은 반사율을 보였다. 셋째, Airborne MSS자료를 이용하여 수질인자 분석결과, 클로로필-a는 Band 3과 Band 7을 비연산처리를 하여 분포도를 작성하였다. 부유물질은 Band 7에서 분포도를 작성할 수 있었으며, PCA를 수행하였을 때 PC 1에서 유용함을 알 수 있었다. 탁도는 PCA 분석시 PC 4에서 현장자료와 유사한 분포패턴을 나타내었다. 이상의 결과들은 계절적, 시간적 변화에 따라 파장대역이 달라질 수 있으므로, LRC 자료를 이용하여 보다 정확한 수질환경 인자를 분석하기 위해서는 현장실측 자료 및 수역의 분광반사 특성 등을 지속적으로 조사할 필요가 있다. 추후 본 연구에서는 저해상도 위성영상 및 현장 분광반사도 측정을 통한 수역의 분광반사 특성을 지속적으로 분석하고, 수역의 수질분석자료 확보 및 수질오염 유형을 분석 할 것이다.

우리나라 3개 하구역 대형저서동물 군집 시공간 분포 (Spatio-temporal Distribution of Macrozoobenthos in the Three Estuaries of South Korea)

  • 임현식;이진영;이정호;신현출;류종성
    • 한국해양학회지:바다
    • /
    • 제24권1호
    • /
    • pp.106-127
    • /
    • 2019
  • 국가해양생태계종합조사의 일환으로 우리나라의 주요 하천인 한강, 금강, 낙동강 하구역에 서식하는 저서동물 군집 특성을 파악하였다. 현장조사는 2015년부터 2017년에 걸쳐 매 계절별(겨울: 2월, 봄: 5-6월, 여름: 7-9월, 가을: 11월)로 수행하였다. 시료채집은 한강 하구역에 7개, 금강 하구역에 6개, 낙동강 하구역에 7개의 정점을 설정하여 총 20개의 정점에서 수행되었다. 대형저서동물 채집은 van Veen grab(채집면적 $0.1m^2$)을 사용하여 각 정점 당 3회씩 반복채집 후 1 mm 망목의 표준체를 이용하여 펄을 제거하였다. 조사결과 총 1,008종의 저서동물이 출현하였으며 한강 하구역에서 602종, 금강 하구역에서 612종, 낙동강 하구역에서 619종이 출현하여 유사한 양상을 보였다. 평균 밀도는 $1,357ind./m^2$로서 한강 하구역에서 $1,127ind./m^2$, 금강 하구역에서 $1,357ind./m^2$ 및 낙동강 하구역에서 $1,587ind./m^2$으로 한강 하구역이 가장 낮고 낙동강 하구역이 가장 높았다. 평균 생체량은 $116.8g/m^2$으로 한강 하구역에서 $49.0g/m^2$, 금강 하구역에서 $129.0g/m^2$ 및 낙동강 하구역에서 $174.2g/m^2$이 출현하여 밀도와 유사한 양상을 보였다. 한강과 금강, 낙동강 하구역 모두 환형동물이 출현종수와 밀도에서 우점 분류군이었다. 한강과 금강 하구역에서는 연체동물이, 낙동강 하구역에서는 극피동물이 생체량 우점 분류군이었다. 각 하구역에서 4% 이상의 밀도 점유율을 보이는 우점종은 모두 다모류로서 한강 하구역의 경우 Dispio oculata와 Heteromastus filiformis, Aonides oxycephala였으며, 금강 하구역에서는 Heteromastus filiformis와 Scoletoma longifolia, 낙동강 하구역에서는 Pseudopolydora sp.와 Aphelochaeta sp.였다. 이러한 우점종들은 하구역에 따라 출현밀도의 차이가 있었다. 본 연구 결과 한강 하구역에서는 평균 입도, 금강 하구역에서는 염분 및 실트함량, 낙동강 하구역에서는 염분, 용존산소, 강열감량, 실트 함량이 군집 조성에 영향을 미치고 있었다. 따라서 한강 하구역의 경우 퇴적환경 변화를 초래하는 요인들(골재채취, 제방축조, 매립 등)에 대한 관리가 우선되어야 할 것으로 판단되며, 금강 하구역에서는 금강으로부터의 담수유입 및 주변 퇴적 환경에 변화를 줄 수 있는 요인들에 대한 관리가 우선시 되어야 할 것으로 보인다. 또한 낙동강 하구역의 경우 마산만 내측의 빈산소수괴 발달 양상과 주요 우점종의 공간분포에 대한 모니터링을 중점적으로 해야 할 것으로 판단된다.

과학에 관련된 위험 인식과 대응의 역사와 특징 -혈압을 중심으로- (History and Characteristics of Risk Perception and Response Related to Science: Focused on Blood Pressure)

  • 장원빈;김민철
    • 한국과학교육학회지
    • /
    • 제43권6호
    • /
    • pp.549-562
    • /
    • 2023
  • 최근 사회는 과학기술의 발달과 함께 인간이 생산하는 다양한 위험이 확산되는 VUCA 시대에 접어들었다. 시민들의 위험 소양 수준을 높여 이러한 위험에 대응할 수 있는 일상적인 대비를 강화할 필요가 있다. 이를 위해서 위험을 과학적이고 객관적으로 판단하고 대응할 수 있도록 과학 교육의 역할에 대한 재고가 필요하다. 이에 위험 사회에서 과학 교육의 역할을 규명하기 위해 본 연구는 과학과 관련된 위험 인식과 위험 대응의 역사를 검토하고 그 특징을 분석하였다. 이 과정에서 혈압으로 인해 발생하는 위험에 대한 인식과 대응을 세 가지 맥락(역사적 맥락, 교육과정 맥락, 교과서 맥락)에서 분석하였다. 역사적 맥락은 심혈관계 지식의 역사와 관련된 연구가 이루어진 학술지 중 SCIE에 등재된 학술지를 연구대상으로 선정하였다. 선정된 학술지에서 'Hypertenstion', 'History'라는 키워드로 논문을 선정하였고, 이를 시대별로 비교 분석하였다. 교육과정 맥락은 제1차 교육과정부터 2022 개정 교육과정까지 분석하였고, 혈압과 관련한 내용요소, 그리고 성취기준을 비교 분석하였다. 제1차부터 제6차 교육과정까지는 혈압으로 인해 발생하는 위험이 제시되지 않았고, 제7차 교육과정부터 혈압으로 인해 발생하는 위험이 포함된 것으로 확인되었다. 교과서 맥락은 제7차 교육과정 생물Ⅰ, 2015 개정 교육과정 생명과학Ⅰ 과 보건을 선정하여 텍스트 추출을 통해 교과목을 대표하는 키워드를 선정하였다. 이 키워드를 바탕으로 위험 인식과 위험 대응을 어떻게 제시하고 있는지 분석하였다. 그리고 교과서에서 제시된 자료들을 분석하여 위험 인식과 위험 대응의 특징을 도출하였다. 본 연구는 과학 교육에서 위험 인식과 위험 대응의 역할을 확인하였다는 점에서 의미를 갖는다.

국내 프로축구 팬들의 유니폼 소비 분석: 손흥민의 토트넘 홋스퍼 FC 이적 전후 비교 (Analysis of Football Fans' Uniform Consumption: Before and After Son Heung-Min's Transfer to Tottenham Hotspur FC)

  • 최영현;이규혜
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.91-108
    • /
    • 2020
  • 박지성 선수의 2005년 맨체스터 유나이티드 FC 입단 이후로, 국내에서 프로축구 유니폼 시장이 본격적으로 성장하기 시작했다. 이후, 국내 선수들의 해외 리그에서 활약이 계속되면서 국내에서도 잉글랜드 프리미어리그에 대한 대중의 관심이 지속되고 있다. 이러한 시점에서 본 연구는 국내 프로축구 팬들의 유니폼 소비에 전반적인 소비자 인식을 알아보고, 선수의 영입에 따른 소비자 인식 변화를 비교하고자 했다. EPL의 토트넘에서 활동하고 있는 손흥민 선수의 영입 전후를 중심으로 소셜 미디어에 나타난 프로축구 팬들의 소비자 인식과 구매 요인을 알아보았다. 'EPL 유니폼'을 키워드로, 국내 포털사이트와 소셜 미디어의 게시글을 수집하고, 텍스트 마이닝, SNA, 회귀분석을 사용하여 분석했다. 연구 결과, 첫째, 선수의 소속 팀, 실적, 포지션과 구단의 실적, 순위, 리그의 우승 여부가 프로축구 유니폼의 구매와 탐색에 있어 주요 요인으로 확인되었다. 가격, 디자인, 사이즈, 로고 등과 같은 항목보다 유니폼의 형태, 마킹, 정품 여부, 스폰서와 더 중요하게 작용하고 있었다. 둘째, 구조적 등위성 분석과 군집분석을 통해 국내 프로축구 팬들 사이에서 유니폼과 관련되어 언급되고 있는 주요 주제를 알아본 결과, EPL에 소속된 구단과 유명 선수들이 가장 핵심적인 주제로 나타났다. 셋째, 프로축구 유니폼에 대한 시기별 주제는 월드컵과 EPL 리그에 대한 관심에서 EPL에서 활동하는 다양한 국내외 선수들에 대한 관심으로, 2015년 이후에는 유니폼 자체에 대한 것으로 주제가 변화했다. 이를 통해, 선수들의 이적에 따라 선수가 소속된 해당 구단의 유니폼이 관심을 받고 있음을 알 수 있었다. 넷째, 남녀 소비자 모두 손흥민에 대한 관심이 증가함에 따라서 토트넘이 소속된 리그인 EPL에 대한 관심도 증가하는 것으로 나타났다. 여성의 경우 손흥민에 대한 관심이 증가함에 따라 축구 유니폼에 대해서도 관심을 가지는 것으로 나타난 반면, 남성의 경우 손흥민 선수에 대한 관심과 축구 유니폼에 대한 관심 사이의 관계가 유의하게 나타나지 않았다. 각 구단은 선수와 구단의 성적과 이미지 관리, 스폰서 브랜드 관리에 집중하고, 선수의 이적이 결정되면 선수의 자국에 해당 물량의 공급을 늘리며, 인기를 끌고 있는 선수의 등번호가 부착된 유니폼의 경우에는 여성을 위한 다양한 사이즈를 제공해야 할 필요가 있다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).