• Title/Summary/Keyword: analysis of algorithms

Search Result 3,535, Processing Time 0.034 seconds

분포형 비차등위상차를 이용한 S-밴드 이중편파레이더의 정량적 강우 추정 (Quantitative Rainfall Estimation for S-band Dual Polarization Radar using Distributed Specific Differential Phase)

  • 이건행;임상훈;장봉주;이동률
    • 한국수자원학회논문집
    • /
    • 제48권1호
    • /
    • pp.57-67
    • /
    • 2015
  • 이중편파레이더는 강우입자의 모양, 크기, 위상, 방향에 대한 정보를 제공해줌으로써 단일편파레이더보다 정확한 정량적 강우 추정에 장점이 있다. 본 연구에서는 대표적인 이중편파레이더 강우 추정 알고리즘인 JPOLE 알고리즘과 CSU 알고리즘을 이용하여 강우량을 산정 비교하였다. 이 두 알고리즘은 강우의 크기에 따라 반사도, 차등반사도, 비차등위상차를 각각 이용하거나 조합하여 강우량을 계산한다. 비차등위상차는 강우입자의 모양과 분포밀도에 대한 정보를 주는 차등위상차에 필터링이나 회귀분석기법을 이용하여 계산되는데, 대류성 강우 지역에서는 비차등위상차의 첨두값이 과소 추정되거나 음의 값을 보일 수 있으며, 약한 강우지역에서는 진동하기도 한다. 본 연구에서는 이러한 문제를 해결하고자 Lim et al. (2013)에서 제안된 새로운 분포형 비차등위상차 산정방법의 이용을 제안하였다. 2012년도의 두 강우사상에 대한 국토교통부의 비슬산 레이더 자료를 이용하여 분포형 비차등위상차를 산정한 후 강우 추정 알고리즘에 적용하였다. 산정된 분포형 비차등위상차는 첨두값이 개선되었으며, 크게 진동하거나 음의 값이 산정되지 않았다. 이를 이용하여 추정된 강우량에 있어서는 일강우량 80mm 이상의 강한 강우에 대해 일강우량의 누적값이 AWS 관측값에 가깝게 개선되는 것을 확인하였으며 80mm 이하의 약한 강우에서는 개선 정도가 미약하였다. 이는 강우 추정 알고리즘에서 강우강도가 높은 경우에 비차등위상차가 사용되고, 낮은 경우에는 반사도와 차등반사도가 사용되기 때문인 것으로 판단된다. 본 연구를 통해 향후 이중편파레이더를 이용한 강우량 추정의 정확도를 향상시킬 수 있을 것으로 기대된다.

MSTAR 자료를 이용한 EOC 조건(표적 폐색 및 촬영부각)에 따른 표적인식 정확도 분석 (Accuracy Analysis of Target Recognition according to EOC Conditions (Target Occlusion and Depression Angle) using MSTAR Data)

  • 김상완;한아림;조근후;김동한;박상은
    • 대한원격탐사학회지
    • /
    • 제35권3호
    • /
    • pp.457-470
    • /
    • 2019
  • Synthetic Aperture Radar(SAR)영상을 이용한 자동 표적 인식(Automatic Target Recognition(ATR))은 날씨와 주야에 영향을 받지 않는 장점으로 감시, 정찰, 및 국토안보 등의 분야에서의 관심이 증대되고 있다. 그러나 SAR 자동표적인식은 실제 환경에서 발생하는 다양한 문제로 인해 자동으로 표적을 식별하는데 어려움이 있다. 따라서 본 연구에서는 실제 환경과 유사한 Extended Operating Conditions(EOC)에서의 ATR 문제에 대한 분석을 수행하였다. 특히, 표적의 폐색 조건과 훈련 영상과 테스트 영상의 관측 부각 차이에 따른 표적 식별률의 변화를 정량적으로 분석하였다. 관측 부각은 $30^{\circ}$$45^{\circ}$로 구분하였으며, 10%부터 50%까지의 다양한 폐색 조건에 대한 영상을 생성하기 위해 SARBake 알고리즘을 적용하였다. 표적에 대한 정량적인 식별률은 표적인식 분야에서 대표적으로 이용되는 템플릿 매칭과 Adaboost 알고리즘을 적용해 분석하였다. 분석 결과 관측부각에 따른 식별률은 두 알고리즘 모두 $45^{\circ}$에서 $30^{\circ}$보다 30%이상 급감했다. $30^{\circ}$의 관측 부각에서 템플릿 매칭은 75.88%, Adaboost 알고리즘은 94.46%로 Adaboost의 식별률이 높았다. 폐색 조건에 따른 식별률은 템플릿 매칭의 경우 폐색이 없을 때 95.77%에서 10%의 폐색 조건일 때 52.69%로 식별률이 급감하였다. Adaboost 알고리즘의 경우 폐색이 없을 때 85.16%, 10%의 폐색 조건일 때 68.48%로 폐색 조건에서의 식별률이 높았다. Adaboost 알고리즘은 50%의 폐색조건에서도 52.48%로 템플릿 매칭이 동일한 조건에서 30% 이하의 식별률을 보이는 것에 비해 전반적으로 높은 식별률을 보였다.

인공지능 기반 금융서비스의 공정성 확보를 위한 체크리스트 제안: 인공지능 기반 개인신용평가를 중심으로 (A Checklist to Improve the Fairness in AI Financial Service: Focused on the AI-based Credit Scoring Service)

  • 김하영;허정윤;권호창
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.259-278
    • /
    • 2022
  • 인공지능(AI)의 확산과 함께 금융 분야에서도 상품추천, 고객 응대 자동화, 이상거래탐지, 신용 심사 등 다양한 인공지능 기반 서비스가 확대되고 있다. 하지만 데이터에 기반한 기계학습의 특성상 신뢰성과 관련된 문제 발생과 예상하지 못한 사회적 논란도 함께 발생하고 있다. 인공지능의 효용은 극대화하고 위험과 부작용은 최소화할 수 있는 신뢰할 수 있는 인공지능에 대한 필요성은 점점 더 커지고 있다. 이러한 배경에서 본 연구는 소비자의 금융 생활에 직접 영향을 끼치는 인공지능 기반 개인신용평가의 공정성 확보를 위한 체크리스트 제안을 통해 인공지능 기반 금융서비스에 대한 신뢰 향상에 기여하고자 하였다. 인공지능 신뢰성의 주요 핵심 요소인 투명성, 안전성, 책무성, 공정성 중 포용 금융의 관점에서 자동화된 알고리즘의 혜택을 사회적 차별 없이 모두가 누릴 수 있도록 공정성을 연구 대상으로 선정하였다. 문헌 연구를 통해 공정성이 영향을 끼치는 서비스 운용의 전 과정을 데이터, 알고리즘, 사용자의 세 개의 영역으로 구분하고, 12가지 하위 점검 항목과 항목별 세부 권고안으로 체크리스트를 구성하였다. 구성한 체크리스트는 이해관계자(금융 분야 종사자, 인공지능 분야 종사자, 일반 사용자)별 계층적 분석과정(AHP)을 통해 점검 항목에 대한 상대적 중요도 및 우선순위를 도출하였다. 이해관계자별 중요도에 따라 세 개의 그룹으로 분류하여 분석한 결과 학습데이터와 비금융정보 활용에 대한 타당성 검증 및 신규 유입 데이터 모니터링의 필요성 등 실용적 측면에서 구체적인 점검 사항을 파악하였고, 금융 소비자인 일반 사용자의 경우 결과에 대한 해석 오류 및 편향성 확인에 대한 중요도를 높게 평가한다는 것을 확인할 수 있었다. 본 연구의 결과가 더 공정한 인공지능 기반 금융서비스의 구축과 운영에 기여할 수 있기를 기대한다.

머신러닝 기법의 산림 총일차생산성 예측 모델 비교 (Predicting Forest Gross Primary Production Using Machine Learning Algorithms)

  • 이보라;장근창;김은숙;강민석;천정화;임종환
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.29-41
    • /
    • 2019
  • 산림생태계에서 총일차생산성(Gross Primary Production, GPP)은 기후변화에 따른 산림의 생산성과 그에 영향을 미치는 식물계절, 건강성, 탄소 순환 등을 대표하는 지표이다. 총일차생산성을 추정하기 위해서는 에디공분산 타워 자료나 위성영상관측자료를 이용하기도 하고 물리지형적 한계나 기후변화 등을 고려하기 위해 기작기반모델링을 활용하기도 한다. 그러나 총일차생산성을 포함한 산림 탄소 순환의 기작기반 모델링은 식물의 생물, 생리, 화학적 기작들의 반응과 지형, 기후 및 시간 등과 같은 환경 조건들이 복잡하게 얽혀 있어 비선형적이고 유연성이 떨어져 반응에 영향을 주는 조건들을 모두 적용하기가 어렵다. 본 연구에서는 산림 생산성 추정 모델을 에디공분산 자료와 인공위성영상 정보를 사용하여 기계학습 알고리즘을 사용한 모델들로 구축해 보고 그 사용 및 확장 가능성을 검토해 보고자 하였다. 설명변수들로는 에디공분산자료와 인공위성자료에서 나온 대기기상인자들을 사용하였고 검증자료로 에디공분산 타워에서 관측된 총일차생산성을 사용하였다. 산림생산성 추정 모델은 1) 에디공분산 관측 기온($T_{air}$), 태양복사($R_d$), 상대습도(RH), 강수(PPT), 증발산(ET) 자료, 2) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD 자료(개량식생지수 제외), 3) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD, 개량식생지수(EVI) 자료를 사용하는 세 가지 경우로 나누어 구축하여 2006 - 2013년 자료로 훈련시키고 2014, 2015년 자료로 검증하였다. 기계학습 알고리즘은 support vector machine (SVM), random forest (RF), artificial neural network (ANN)를 사용하였고 단순 비교를 위해 고전적 방법인 multiple linear regression model (LM)을 사용하였다. 그 결과, 에디공분산 입력자료로 훈련시킨 모델의 예측력은 피어슨 상관계수 0.89 - 0.92 (MSE = 1.24 - 1.62), MODIS 입력자료로 훈련시킨 모델의 예측력은 개량식생지수 제외된 모델은 0.82 - 0.86 (MSE = 1.99 - 2.45), 개량식생지수가 포함된 모델은 0.92 - 0.93(MSE = 1.00 - 1.24)을 보였다. 이러한 결과는 산림총일차생산성 추정 모델 구축에 있어 MODIS인공위성 영상 정보 기반으로 기계학습 알고리즘을 사용하는 것에 대한 높은 활용가능성을 보여주었다.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

식생유니트형 LID 시스템의 우수유출 지연효과에 대한 SWMM 전산모의와 인공강우 모니터링 간의 유의성 분석 (Analysis of Significance between SWMM Computer Simulation and Artificial Rainfall on Rainfall Runoff Delay Effects of Vegetation Unit-type LID System)

  • 김태한;최부헌
    • 한국조경학회지
    • /
    • 제48권3호
    • /
    • pp.34-44
    • /
    • 2020
  • 본 연구는 식생기반 LID 시스템 모델을 기반으로 생태적 구성요소의 성능 분석 방향을 제시하기 위해, SWMM 전산모의와 강우·유출 모의장치를 이용하여 모니터링 결과 간의 통계적 유의성을 분석하고, 시스템 사전설계에 요구되는 기초자료를 제공하고자 한다. 또한, 선행연구에서 상대적으로 논의가 부족했던 식생기반 LID 시스템의 토양, 식생 모델 및 분석 방안을 종합하고, 장치형 LID 시스템을 대체할 수 있는 성능 정량화 방향을 제시하려 한다. 인공강우재현 모니터링 40분 경과 후 실험구와 대조구 모두 최대강우강도인 142.91mm/hr(n=3, sd=0.34), 142.24mm/hr(n=3, sd=0.90)로 집계되었다. 우량주상도 대비 10분, 50분 구간은 낮은 강우강도가 재현되었으며, 20분, 30분, 40분 구간은 높은 강우강도가 확인되었다. 우수유출 지연효과의 경우, 실험구의 유출강도 저감량은 대조구의 최대유출강도가 발생된 50분에 0.46mm/min을 기록하여, 79.8% 저감된 것으로 분석되었다. 전산모의의 경우, 실험구의 유출강도 저감량은 대조구의 최대유출강도가 발생된 50분에 0.05mm/min을 기록하여, 99.1% 저감된 것으로 모의되었다. 최대 강우유출강도의 경우, 실험구(Dv=30.35, NSE=0.36)는 인공강우 모니터링과 SWMM 전산모의가 동일하게 70분에 각각 0.77mm/min, 1.06mm/min을 기록하였다. 대조구(Dv=17.27, NSE=0.78)도 동일하게 50분에 각각 2.26mm/min, 2.38mm/min으로 집계되었다. 상기 연구결과를 통해 강우·유출 모의장치와 SWMM 전산모의 간의 통계적 유의성을 통해 단일 식생이 적용된 LID 시스템의 우수유출저감 성능의 사전설계 방향을 제시할 수 있었다. 또한, LID 시스템의 토양, 식생 모델 및 분석방법을 종합하여, 사전설계와 연계 가능한 식생 및 토양 부문의 매개변수 정량화 방안이 정리되었다. 다만, 단일 식생기반 LID 시스템으로 유형과 물리적 변수가 제한되었고, 모니터링, 전산모의 결과 간의 통계적 유의성 보정에 요구되는 알고리즘 연구가 후속되어야 할 것으로 판단된다.

충주댐 유역의 유출량에 대한 SWAT 모형의 예측 불확실성 분석 기법 비교 (Comparing Prediction Uncertainty Analysis Techniques of SWAT Simulated Streamflow Applied to Chungju Dam Watershed)

  • 조형경;박종윤;장철희;김성준
    • 한국수자원학회논문집
    • /
    • 제45권9호
    • /
    • pp.861-874
    • /
    • 2012
  • SWAT(Soil and Water Assessment Tool) 모형의 적용성 검증을 위해서는 매개변수 민감도 분석 및 검 보정, 예측 불확실성 분석을 필요로 한다. 최근 SWAT 모형의 불확실성을 분석하기 위한 다양한 기법들이 개발되었는데, 본 연구는 충주댐 유역(6,581.1 $km^2$)을대상으로유역출구점의 실측 일 유출량자료(1998~2003)를 바탕으로 SWAT 모형의 유출관련 매개변수에 대한 불확실성 분석을 실시하였다. 이때 사용된 분석 기법으로는 SUFI2 (Sequential Uncertainty FItting algorithm ver.2), GLUE(Generalized Likelihood Uncertainty Estimation), ParaSol (Parameter Solution) 등을 적용하였다. 이러한 기법은 모두 SWAT-CUP (SWAT-Calibration Uncertainty Program; Abbaspour et al., 2007) 모형에 탑재되어있으며, 모형의 결과로써 검 보정, 매개변수의 민감도 분석, 각종 목적 함수 및 불확실성의 범위 등이 자동으로 산출되므로 모형의 사용자가 불확실성 평가 기법의 분석 및 비교를 손쉽게 할 수 있다. 그 결과 대표적인 목적 함수인 결정 계수($R^2$; Legates and McCabe, 1999)와 NS (Nash and Sutcliffe, 1970) 모형효율은 모두 0.67에서 0.92 사이의 값을 나타내어 대체적으로 모의가 잘 이루어졌음을 알 수 있었다. 그러나 불확실성의 범위를 나타내는 지표인 p-factor 및 r-factor에서는 평가 기법 별로 그 차이가 확연하게 드러났다. 여기서 p-factor는 불확실성 범위에 실측치가 포함되는 비율이며, r-factor는 불확실성의 상대적인 범위로 각각 1과 0에 가까울수록 모의기법의 성능이 우수함을 의미한다. 세가지 알고리듬 중에서 SUFI2의 p-factor가 약 0.79로 가장 높게 나타났으며, ParaSol의 r-factor가 0.03으로 가장 작게 나타났다. 본 연구의 결과는 SWAT 모형을 이용한 수문 모의에서 수문분석에 따른 예측결과의 불확실성을 정량적으로 평가함으로서, 모형의 적용성 평가 및 모의결과의 신뢰성 확보에 근거자료로 활용이 가능할 것으로 판단된다.

사용자 간 신뢰관계 네트워크 분석을 활용한 협업 필터링 알고리즘의 예측 정확도 개선 (Enhancing Predictive Accuracy of Collaborative Filtering Algorithms using the Network Analysis of Trust Relationship among Users)

  • 최슬비;곽기영;안현철
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.113-127
    • /
    • 2016
  • 협업 필터링(Collaborative Filtering)은 유용성과 정교성 면에서 가장 성공적인 추천 알고리즘으로 평가받으며 산업계나 학계에서 많이 활용 및 연구되고 있지만, 기본적으로 사용자들이 평가한 점수에만 기반하여 추천결과를 생성하는 한계점이 있다. 이에 본 연구는 사용자가 상품을 구매할 때 자신이 신뢰하는 타인의 추천을 더 적극적으로 수용할 것이라는 점에 착안하여, 사용자의 평점 외에 사용자 간 신뢰관계를 소셜네트워크분석으로 분석한 결과를 추가로 반영하는 추천 알고리즘들을 제안하였다. 구체적으로 본 연구에서는 소셜네트워크분석에서 네트워크 내의 중심적 위치를 나타내는 척도인 내향 및 외향 중심성을 활용하여 사용자 간 유사도를 산출하는 알고리즘들과 사용자 신뢰 네트워크를 탐색하여 추천 대상이 되는 사용자가 직접 간접적으로 신뢰하는 사용자의 평가점수를 보다 높게 반영하는 알고리즘을 제안한 뒤 그 성능을 비교해 보았다. 실제 데이터에 적용하여 분석한 결과, 사용자 신뢰 네트워크의 내향 중심성 지수를 조건 없이 적용한 경우에는 오히려 정확도의 감소만을 야기하는 것으로 나타났고, 일정 임계치 이상의 외향 중심성을 갖는 사용자에 한해 내향 중심성 지수를 고려한 추천 알고리즘은 전통적인 협업 필터링에 비해 약간의 정확도 개선이 이루어짐을 확인할 수 있었다. 아울러, 사용자 신뢰 네트워크를 기반으로 탐색하는 알고리즘이 가장 우수한 성능을 보이는 것을 알 수 있었으며, 전통적인 협업 필터링과 비교해서도 통계적으로 유의한 수준의 정확도의 개선이 이루어짐을 확인할 수 있었다.

기업의 SNS 노출과 주식 수익률간의 관계 분석 (The Analysis on the Relationship between Firms' Exposures to SNS and Stock Prices in Korea)

  • 김태환;정우진;이상용
    • Asia pacific journal of information systems
    • /
    • 제24권2호
    • /
    • pp.233-253
    • /
    • 2014
  • Can the stock market really be predicted? Stock market prediction has attracted much attention from many fields including business, economics, statistics, and mathematics. Early research on stock market prediction was based on random walk theory (RWT) and the efficient market hypothesis (EMH). According to the EMH, stock market are largely driven by new information rather than present and past prices. Since it is unpredictable, stock market will follow a random walk. Even though these theories, Schumaker [2010] asserted that people keep trying to predict the stock market by using artificial intelligence, statistical estimates, and mathematical models. Mathematical approaches include Percolation Methods, Log-Periodic Oscillations and Wavelet Transforms to model future prices. Examples of artificial intelligence approaches that deals with optimization and machine learning are Genetic Algorithms, Support Vector Machines (SVM) and Neural Networks. Statistical approaches typically predicts the future by using past stock market data. Recently, financial engineers have started to predict the stock prices movement pattern by using the SNS data. SNS is the place where peoples opinions and ideas are freely flow and affect others' beliefs on certain things. Through word-of-mouth in SNS, people share product usage experiences, subjective feelings, and commonly accompanying sentiment or mood with others. An increasing number of empirical analyses of sentiment and mood are based on textual collections of public user generated data on the web. The Opinion mining is one domain of the data mining fields extracting public opinions exposed in SNS by utilizing data mining. There have been many studies on the issues of opinion mining from Web sources such as product reviews, forum posts and blogs. In relation to this literatures, we are trying to understand the effects of SNS exposures of firms on stock prices in Korea. Similarly to Bollen et al. [2011], we empirically analyze the impact of SNS exposures on stock return rates. We use Social Metrics by Daum Soft, an SNS big data analysis company in Korea. Social Metrics provides trends and public opinions in Twitter and blogs by using natural language process and analysis tools. It collects the sentences circulated in the Twitter in real time, and breaks down these sentences into the word units and then extracts keywords. In this study, we classify firms' exposures in SNS into two groups: positive and negative. To test the correlation and causation relationship between SNS exposures and stock price returns, we first collect 252 firms' stock prices and KRX100 index in the Korea Stock Exchange (KRX) from May 25, 2012 to September 1, 2012. We also gather the public attitudes (positive, negative) about these firms from Social Metrics over the same period of time. We conduct regression analysis between stock prices and the number of SNS exposures. Having checked the correlation between the two variables, we perform Granger causality test to see the causation direction between the two variables. The research result is that the number of total SNS exposures is positively related with stock market returns. The number of positive mentions of has also positive relationship with stock market returns. Contrarily, the number of negative mentions has negative relationship with stock market returns, but this relationship is statistically not significant. This means that the impact of positive mentions is statistically bigger than the impact of negative mentions. We also investigate whether the impacts are moderated by industry type and firm's size. We find that the SNS exposures impacts are bigger for IT firms than for non-IT firms, and bigger for small sized firms than for large sized firms. The results of Granger causality test shows change of stock price return is caused by SNS exposures, while the causation of the other way round is not significant. Therefore the correlation relationship between SNS exposures and stock prices has uni-direction causality. The more a firm is exposed in SNS, the more is the stock price likely to increase, while stock price changes may not cause more SNS mentions.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.