• 제목/요약/키워드: time domain

검색결과 5,741건 처리시간 0.041초

기업의 SNS 노출과 주식 수익률간의 관계 분석 (The Analysis on the Relationship between Firms' Exposures to SNS and Stock Prices in Korea)

  • 김태환;정우진;이상용
    • Asia pacific journal of information systems
    • /
    • 제24권2호
    • /
    • pp.233-253
    • /
    • 2014
  • Can the stock market really be predicted? Stock market prediction has attracted much attention from many fields including business, economics, statistics, and mathematics. Early research on stock market prediction was based on random walk theory (RWT) and the efficient market hypothesis (EMH). According to the EMH, stock market are largely driven by new information rather than present and past prices. Since it is unpredictable, stock market will follow a random walk. Even though these theories, Schumaker [2010] asserted that people keep trying to predict the stock market by using artificial intelligence, statistical estimates, and mathematical models. Mathematical approaches include Percolation Methods, Log-Periodic Oscillations and Wavelet Transforms to model future prices. Examples of artificial intelligence approaches that deals with optimization and machine learning are Genetic Algorithms, Support Vector Machines (SVM) and Neural Networks. Statistical approaches typically predicts the future by using past stock market data. Recently, financial engineers have started to predict the stock prices movement pattern by using the SNS data. SNS is the place where peoples opinions and ideas are freely flow and affect others' beliefs on certain things. Through word-of-mouth in SNS, people share product usage experiences, subjective feelings, and commonly accompanying sentiment or mood with others. An increasing number of empirical analyses of sentiment and mood are based on textual collections of public user generated data on the web. The Opinion mining is one domain of the data mining fields extracting public opinions exposed in SNS by utilizing data mining. There have been many studies on the issues of opinion mining from Web sources such as product reviews, forum posts and blogs. In relation to this literatures, we are trying to understand the effects of SNS exposures of firms on stock prices in Korea. Similarly to Bollen et al. [2011], we empirically analyze the impact of SNS exposures on stock return rates. We use Social Metrics by Daum Soft, an SNS big data analysis company in Korea. Social Metrics provides trends and public opinions in Twitter and blogs by using natural language process and analysis tools. It collects the sentences circulated in the Twitter in real time, and breaks down these sentences into the word units and then extracts keywords. In this study, we classify firms' exposures in SNS into two groups: positive and negative. To test the correlation and causation relationship between SNS exposures and stock price returns, we first collect 252 firms' stock prices and KRX100 index in the Korea Stock Exchange (KRX) from May 25, 2012 to September 1, 2012. We also gather the public attitudes (positive, negative) about these firms from Social Metrics over the same period of time. We conduct regression analysis between stock prices and the number of SNS exposures. Having checked the correlation between the two variables, we perform Granger causality test to see the causation direction between the two variables. The research result is that the number of total SNS exposures is positively related with stock market returns. The number of positive mentions of has also positive relationship with stock market returns. Contrarily, the number of negative mentions has negative relationship with stock market returns, but this relationship is statistically not significant. This means that the impact of positive mentions is statistically bigger than the impact of negative mentions. We also investigate whether the impacts are moderated by industry type and firm's size. We find that the SNS exposures impacts are bigger for IT firms than for non-IT firms, and bigger for small sized firms than for large sized firms. The results of Granger causality test shows change of stock price return is caused by SNS exposures, while the causation of the other way round is not significant. Therefore the correlation relationship between SNS exposures and stock prices has uni-direction causality. The more a firm is exposed in SNS, the more is the stock price likely to increase, while stock price changes may not cause more SNS mentions.

그래픽 프로세서를 이용한 탄성파 수치모사의 계산속도 향상 (Acceleration of computation speed for elastic wave simulation using a Graphic Processing Unit)

  • Nakata, Norimitsu;Tsuji, Takeshi;Matsuoka, Toshifumi
    • 지구물리와물리탐사
    • /
    • 제14권1호
    • /
    • pp.98-104
    • /
    • 2011
  • 탐사 지구물리학에서 수치 모사는 지하매질에서의 탄성파 전파 현상을 이해하는데 중요한 통찰력을 제공한다. 탄성파 모사는 음향파 근사에 의한 수치 모사보다 계산시간이 많이 소요되지만 전단응력 성분을 포함하여 보다 현실적인 파동의 모사를 가능하게 한다. 그러므로 탄성파 모사는 탄성체의 반응을 탐사하는데 적합하다고 할 수 있다. 계산 시간이 길다는 단점을 극복하기 위해 본 논문에서는 그래픽 프로세서(GPU)를 이용하여 탄성파 수치 모사 시간을 단축하고자 하였다. GPU는 많은 수의 프로세서와 광대역 메모리를 갖고 있기 때문에 병렬화된 계산 아카텍쳐에서 사용할 수 있는 장점이 있다. 본 연구에서 사용한 GPU 하드웨어는 NVIDIA Tesla C1060으로 240개의 프로세서로 구성되어 있으며 102 GB/s의 메모리 대역폭을 갖고 있다. NVIDIA에서 개발된 병렬계산 아카텍쳐인 CUDA를 사용할 수 있음에도 불구하고 계산효율을 상당히 향상시키기 위해서는 GPU 장치의 여러 가지 다양한 메모리의 사용과 계산 순서를 최적화해야만 한다. 본 연구에서는 GPU 시스템에서 시간영역 유한차분법을 이용하여 2차원과 3차원 탄성과 전파를 수치 모사하였다. 파동전파 모사에 가장 널리 사용되는 유한차분법 중의 하나인 엇갈린 격자기법을 채택하였다. 엇갈린 격자법은 지구물리학 분야에서 수치 모델링을 위해 사용하기에 충분한 정확도를 갖고 있는 것으로 알려져 있다. 본 논문에서 제안한 모델링기법은 자료 접근 시간을 단축하기 위해 GPU 장치를 메모리 사용을 최적화하여 가능한 더 빠른 메모리를 사용한다. 이점이 GPU를 이용한 계산의 핵심 요소이다. 하나의 GPU 장치를 사용하고 메모리 사용을 최적화함으로써 단일 CPU를 이용할 경우보다 2차원 모사에서는 14배 이상, 3차원에서는 6배 이상 계산시간을 단축할 수 있었다. 세 개의 GPU를 사용한 경우에는 3차원 모사에서 계산효율을 10배 향상시킬 수 있었다.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

구조토양에서의 침출수와 잔존수농도의 파과곡선에 관한 비교연구 (COMPARISON OF FLUX AND RESIDENT CONCENTRATION BREAKTHROUGH CURVES IN STRUCTURED SOIL COLUMNS)

  • Kim, Dong-Ju
    • 한국토양환경학회지
    • /
    • 제2권2호
    • /
    • pp.81-94
    • /
    • 1997
  • 오염물질 이동현상 연구에서는 침출수 혹은 잔존수농도 형태가 사용되는데 이의 선택은 모니터링 방법에 의존하게 된다. 파과곡선 실험에서 모니터링 농도 형태에 관한 선택은 임의적이며, 각 농도 형태에서 얻어진 운송 파라미터들은 동등하며 다공성매질의 수리적 특성을 각각 대표하는 것으로 알려져왔다. 그러나, 현장상태의 구조적 발달을 보이는 토양에서는 농도 형태별 운송계수의 동등성이 의문시 된다. 본 연 구에서는 불교란 현장시료(직경 20cm, 높이 20cm)에 대하여 두가지 농도 형태에 의한 파과곡선 실험을 시행하므로써 모니터링 방법에 따른 농도 형태와 그에 따른 운송 파라미터들을 비교분석 하였다. 침출수 농도와 잔존수 농도는 토양상부에서 20cm와 loom 떨어진 지점에서 EC-meter와 TDR 을 이용하여 각각 측정하였다. 연구결과, 침출수 농도는 잔존수 농도보다 첨두농도가 훨씬 높게 그리고 첨두농도의 운송시간이 짧게 나타났음을 알 수 있었다. 따라서 침출수농도곡선으로부터 추정된 운송파 라미터들은 잔존수농도곡선으로부터 추정된 수치들과 상당한 차이를 보였으며 그 차이는 CLT 모델보다 CDE 모델에서 더 크게 나타났다. 특히 CDE 모델에서는 침출수곡선으로부터 도출된 계수값들이 잔존수곡선으로부터 도출된 계수값들보다 훨씬 크게 나타났다. 이는 구조토양내에 존재하고 있는 대공극을 통한 오염물질 우회통과와 평형조건에서의 CDE 모델이 연구대상토양에서의 오염물질 이동현상을 표현하는데 부적합하였기 때문인 것으로 사료된다. 분자 분산에 대한 동수리학적 확산의 비와 Peclet number와의 상관관계를 나타내는 도표영역에서 두가지 농도는 모두 역학적 확산이 오염물질 운송을 좌우하는 영역에 속하였다. 그러나 분자분산은 토양내 대공극부분보다 matrix 부분에서의 오염물질 확산에 더 많은 기여를 하는 것으로 나타났으며 이는 공극유속과 확산계수사이에 존재하는 비선형성에 기인하기 때문인 것으로 사료된다.

  • PDF

불포화토 칼럼시험을 통한 연속강우와 반복강우의 강우침투속도 분석 (Analysis of Rainfall Infiltration Velocity in Unsaturated Soils Under Both Continuous and Repeated Rainfall Conditions by an Unsaturated Soil Column Test)

  • 박규보;채병곤;박혁진
    • 지질공학
    • /
    • 제21권2호
    • /
    • pp.133-145
    • /
    • 2011
  • 본 연구는 불포화 풍화토별 강우지속시간 및 비강우시간에 따른 강우침투속도 관계를 파악하기 위하여 국내에서 산사태 발생빈도가 높은 선캠브리아기 편마암 풍화토와 백악기 화강암 풍화토를 대상으로 불포화 풍화토 칼럼시험을 하였다. 본 연구에서는 일정시간 간격으로 체적함수비를 측정하기 위하여 함수비 측정 TDR센서를 이용하였다. 강우강도 조건은 20 mm/h로 선정하여 연속강우와 반복강우를 재현하였으며, 반복강우의 경우 강우시간과 비강우시간을 조절하였다. 그리고 흙의 단위중량 조건은 편마암 풍화토의 경우 현장 건조단위중량보다 낮고 칼럼상부유출이 일어나지 않는 1.35 $g/cm^3$, 화강암 풍화토의 경우 현장 건조단위중량인 1.21 $g/cm^3$로 선정하였다. 편마암 풍화토와 화강암 풍화토 총 강우량 200 mm인 조건에서 $2.090{\times}10^{-3}{\sim}2.854{\times}10^{-3}$ cm/s와 $1.692{\times}10^{-3}{\sim}2.012{\times}10^{-3}$ cm/s로 총 강우량 100 mm에서의 $1.309{\times}10^{-3}{\sim}1.871{\times}10^{-3}$ cm/s와 $1.175{\times}10^{-3}{\sim}1.581{\times}10^{-3}$ cm/s보다 강우침투속도가 빠르게 나타났다. 이는 동일 시간당 토층 내 주입되는 물의 양이 200 mm조건에서 100 mm조건보다 많기 때문이다. 완전 건조 상태의 강우침투속도와 강우가 반복되어 물을 함유하고 있는 상태의 강우 재침투속도를 비교해 보면, 편마암 풍화토와 화강암 풍화토의 최초 강우침투속도인 $1.309{\times}10^{-3}{\sim}2.854{\times}10^{-3}$ cm/s와 $1.175{\times}10^{-3}{\sim}2.012{\times}10^{-3}$ cm/s보다 강우 재침투속도가 $1.307{\times}10^{-2}{\sim}1.718{\times}10^{-2}$ cm/s와 $1.789{\times}10^{-2}{\sim}2.070{\times}10^{-2}$ cm/s로 높게 나타났다. 이는 토층 내 공기의 함입량이 줄어들어서 불포화 투수계수에 영향을 미치는 흡입력(matric suction)이 감소한 것이 원인으로 생각된다.

스마트 TV 환경에서 정보 검색을 위한 사용자 프로파일 기반 필터링 방법 (A User Profile-based Filtering Method for Information Search in Smart TV Environment)

  • 신위살;오경진;조근식
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.97-117
    • /
    • 2012
  • 인터넷 사용자는 비디오를 보면서 소셜 네트워크 서비스를 이용하고 웹 검색을 하고, 비디오에 나타난 상품에 관심이 있을 경우 검색엔진을 통해 정보를 찾는다. 비디오와 사용자의 직접적인 상호작용을 위해 비디오 어노테이션에 대한 연구가 진행되었고, 스마트 TV 환경에서 어노테이션 된 비디오가 활용될 경우 사용자는 객체에 대한 링크를 통해 원하는 상품의 정보를 쉽게 확인할 수 있게 된다. 사용자가 상품에 대한 구매를 원할 경우 상품에 대한 정보검색 이외에 상품평이나 소셜 네트워크 친구의 의견을 통해 구매 결정을 한다. 소셜 네트워크로부터 발생되는 정보는 다른 정보에 비해 신뢰도가 높아 구매 결정에 큰 영향을 미친다. 하지만 현재 소셜 네트워크 서비스는 의견을 얻고자 할 경우 모든 소셜 네트워크 친구들에게 전달되고 많은 의견을 얻게 되어 이들로부터 유용한 정보를 파악하는 것은 쉽지 않다. 본 논문에서는 소셜 네트워크 사용자의 프로파일을 기반으로 상품에 대해 유용한 정보를 제공할 수 있는 친구를 규명하기 위한 필터링 방법을 제안한다. 사용자 프로파일은 페이스북의 사용자 정보와 페이스북 페이지의 'Like' 정보를 이용하여 구성된다. 프로파일의 상품 정보는 GoodRelations 온톨로지와 BestBuy 데이터를 이용하여 의미적으로 표현된다. 사용자가 비디오를 보면서 상품 정보를 얻고자 할 경우 어노테이션된 URI를 이용하여 정보가 전달된다. 시스템은 소셜 네트워크 친구들에 대한 사용자 프로파일과 BestBuy를 기반으로 어노테이션된 상품에 대한 의미적 유사도를 계산하고 유사도 값에 따라 순위가 결정한다. 결정된 순위는 유용한 정보를 제공할 수 있는 소셜 네트워크 상의 친구를 규명하는데 사용된다. 참가자의 동의하에 페이스북 정보를 활용하였고, 시스템에 의해 도출된 결과와 참가자 인터뷰를 통해 평가된 결과를 이용하여 타당성을 검증하였다. 비교 실험의 결과는 제안하는 시스템이 상품 구매결정을 하기 위해 유용한 정보를 획득할 수 있는 방법임을 증명한다.

공정 시뮬레이션을 이용한 조사유기응력부식균열 시험 작업자 피폭량의 전산 해석에 관한 연구 (Numerical Calculations of IASCC Test Worker Exposure using Process Simulations)

  • 장규호;김해웅;김창규;박광수;곽대인
    • 한국방사선학회논문지
    • /
    • 제15권6호
    • /
    • pp.803-811
    • /
    • 2021
  • 본 연구에서는 공정 시뮬레이션 기술을 적용하여 조사유기응력부식균열 시험 작업자의 피폭량 평가를 하였다. 상용 공정 시뮬레이션 코드인 DELMIA Version 5를 사용하여 조사유기응력부식균열 분석 시험 설비, 핫셀 및 작업자를 작성하고 조사유기응력부식균열 시험 공정을 구현하였으며, 사용자 코딩을 통해 선량이 분포된 공간을 지나는 작업자의 누적 피폭량을 평가할 수 있도록 하였다. 작업자 모사를 위해 시험 공정별로 인체의 근골격계를 모방하여 약 200 개 이상의 자유도를 가지는 휴먼 마니킨 자세를 작성하였다. 작업자 피폭량 계산을 위하여 휴먼 마니킨 작업의 하위정보에 접근하여 자세 별 좌표, 시작 시간 및 유지 시간을 추출하였으며, 공간 선량 값과 자세 유지 시간을 곱하여 누적 피폭량을 계산하였다. 피폭량 평가를 위한 공간 선량은 MCNP6 Version 1.0을 사용하여 핫셀 내·외부 공간 선량을 계산하였으며, 계산된 공간 선량은 공정 시뮬레이션 도메인에 입력하였다. 공정 시뮬레이션을 이용한 피폭량 평가 결과와 전형적인 피폭량 평가 결과를 비교 분석한 결과, 상시 출입구역 내 일상 시험 작업에 대한 연간 피폭량은 각각 0.388 mSv/year 및 1.334 mSv/year로서 공정 시뮬레이션을 이용한 피폭량 평가 결과가 전형적인 방법의 피폭량 평가 결과 대비 70 % 낮게 예측되었다. 공간 선량 높은 구역에서 수행되는 특수작업에 대해서도 공정 시뮬레이션을 이용한 피폭량 평가를 수행하였으며, 피폭량이 높은 작업을 쉽게 선별할 수 있었고, 해당 작업의 휴먼 마니킨 자세와 공간 선량 가시화를 통해 직관적으로 작업 개선안을 도출할 수 있었다.

재현 중심의 기록학 - 담기, 관리하기, 보기 (A Study on Archiving Science Focused on Representation - Putting in, Managing, and Viewing)

  • 류한조;이희숙
    • 기록학연구
    • /
    • 제24호
    • /
    • pp.3-40
    • /
    • 2010
  • 최근 기록학은 생산되어 있는 기록을 관리하는 역할을 넘어, 가치있는 대상을 적극적으로 보존하고 전승하는 역할을 자처하고 있다. 그러나 현재의 기록학에서는 업무나 조직, 주제의 맥락 내에서 관리하는 방법론이 존재하지만, 하나의 대상을 아카이빙하는 이론적 방법론이 부재한 상황이다. 이러한 맥락에서 이 글은 하나의 대상을 아카이빙하여 재현하는 이론적 방법론을 기록의 가치에 근거하여 제시하였다. 보존할 대상의 가치에 초점을 맞추어 아카이빙하고, 이를 재현하는 방법론은 담기 관리하기 보기라는 3가지 장으로 나누어 정리하였다. 담기에서는 대상이 가진 가치를 식별하여 재현을 위한 전략에 바탕을 둔 다큐멘테이션 방법론을 다루었다. 대상의 가치에 근거하여 어떻게 담을 것인가를 정의하고, 효과적인 접근을 위해 재현대상을 오브제와 행위의 개념으로 나누어 접근하는 방식을 제시하였다. 이와 동시에 대상의 가치를 중심으로 접근하였으므로, 가치를 지닌 단위인 재현단위 개념을 적용하여 효과적으로 아카이빙 할 수 있는 도구를 제안하였다. 관리하기에서는 재현이 가능한 구조로 관리하기 위한 재현계층과 재현 메타데이터를 설명하였다. 개별기록에서부터 최종 재현대상까지의 계층을 제시하고 원활한 재현을 위해 필요한 메타데이터 항목을 구체적으로 제시하였다. 또한 보기는 이론적으로 아카이빙한 기록을 이용한 재현과정을 개념적으로 설명하였다. 보기는 대체로 기술적인 영역이지만 개념적으로 지켜야하는 부분에 대해 중점적으로 다루었다. 이 글은 이러한 일련의 과정을 전체적으로 설명하여 재현을 위해 재현주체가 어떻게 아카이빙 할 것인지를 정하는 작업에서부터 어떻게 관리할 것 인지까지에 대해 실제적인 방안을 제시하는데 의미를 가진다. 또한 이러한 작업의 이론적 근거를 제시하기 위해 기록학이 다루어야 하는 영역을 재현에 대한 논의를 중심으로 확장할 것을 제안하였다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.