• 제목/요약/키워드: Context log

검색결과 60건 처리시간 0.023초

스마트폰에서의 OTT(Over The Top)서비스 시청패턴 추적 어플리케이션 설계 : 티빙(tving)을 중심으로 (An Application-embedded method to trace OTT viewing patterns on smartphone)

  • 최선영;김민수;김명준
    • 한국정보통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.1000-1006
    • /
    • 2014
  • 본 연구는 스마트폰에서 OTT 서비스 이용이 활성화되고 있는 것에 주목하여 텔레비전 콘텐츠 시청 행위 추적 방법의 설계를 제안한다. 이를 위해 기존 OTT서비스 어플리케이션을 활용하여 시청 맥락의 흐름(flow)과 패턴을 기록하는 로그 파일 기록 어플리케이션을 개발하였다. 본 논문에서 제시한 로그 파일 포맷은 기존의 분단위 시청률 조사방법이 아닌 초단위 측정으로 이용자 스마트폰을 통한 시청 행위와 시청 시간을 정확하고 정밀하게 측정할 수 있었다. 또한 실시간 방송 VOD 광고 콘텐츠 속성 및 플레이 모드에 따라 나타나는 시청 행태를 발생 이벤트에 따라 추적할 수 있었으며, GPS 데이터를 로그 파일 기록과 매칭한 결과 시청의 공간적 맥락을 분석할 수 있었다. 연구 결과를 바탕으로 패널을 이용한 통합시청률 조사 또는 모바일 민속지학(Mobile Ethnography) 에서의 방법론적 활용과 같은 학문적 실무적 의의를 논의하였다.

반도체 공정의 위험요소 판단을 위한 온톨로지 기반의 상황인지 시스템 설계 (A Design of the Ontology-based Situation Recognition System to Detect Risk Factors in a Semiconductor Manufacturing Process)

  • 백승민;전민호;오창헌
    • 한국항행학회논문지
    • /
    • 제17권6호
    • /
    • pp.804-809
    • /
    • 2013
  • 현재 구축되어 있는 반도체 공정에서의 상태감시 시스템은 센서 데이터를 수동으로 수집하는 방식으로써 복합 장애 검출이나 실시간 감시에서 한계가 존재한다. 본 논문에서는 영역 온톨로지를 구성하여 시간에 따른 관계망을 형성하는 상황인지 알고리즘을 설계하고 이를 통해 반도체 공정에서 위험요소가 발견되는 부분에 대해서 이벤트를 생성하여 사용자에게 서비스하는 시스템을 제안하며, 이를 구현하기 위해 상황 추론을 위한 다중센서 노드를 설계하고 이를 실험하였다. 실험 결과, 다수의 수집된 데이터에서 시간에 대한 관계가 형성된 내용에 대해서는 시간적 규칙추론이 적용된 이벤트가 발생하였으며 오작동 및 외부의 시간적 요인에서 발생되는 이벤트는 Log로만 데이터를 제공하는 것을 확인할 수 있었다.

음성인식을 위한 의사(疑似) N-gram 언어모델에 관한 연구 (A Study on Pseudo N-gram Language Models for Speech Recognition)

  • 오세진;황철준;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.16-23
    • /
    • 2001
  • 본 논문에서는 대어휘 음성인식에서 널리 사용되고 있는 N-gram 언어모델을 중규모 어휘의 음성인식에서도 사용할 수 있는 의사(疑似) N-gram 언어모델을 제안한다. 제안방법은 ARPA 표준형식 N-gram 언어모델의 구조를 가지면서 각 단어의 확률을 임의로 부여하는 비교적 간단한 방법으로 1-gram은 모든 단어의 출현확률을 1로 설정하고, 2-gram은 허용할 수 있는 단어시작기호 와 WORD 및 WORD와 단어종료기호 의 접속확률만을 1로 설정하며, 3-gram은 단어 시작기호 와 WORD, 단어종료기호 만의 접속을 허용하며 접속확률을 1로 설정한다. 제안방법의 유효성을 확인하기 위해 사전실험으로서 국어공학센터(KLE) 단어음성에 대해 오프라인으로 평가한 견과, 남성 3인의 452 단어에 대해 평균 97.7%의 단어인식률을 구하였다. 또한 사전실험결과를 바탕으로 1,500단어의 중규모 어휘의 증권명을 대상으로 온라인 인식실험을 수행한 결과, 남성 20명이 발성한 20단어에 대해 평균 92.5%의 단어인식률을 얻어 제안방법의 유효성을 확인하였다.

  • PDF

인간 관계관리 지원 서비스 개발을 위한 연구 - 휴대전화를 이용한 관계 관리를 중심으로 (A Study on the Development of Services Supporting Personal Relationship Management - focusing on relationship management using mobile phones)

  • 김주용;이창희;이세영;이준호
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 2부
    • /
    • pp.239-244
    • /
    • 2008
  • 사람은 타인과 새로운 관계를 맺거나, 기존의 관계를 유지하거나, 관계를 끊는 등의 행동을 하며 사회 공동체속에서 살아간다. 다른 사람과의 관계는 커뮤니케이션을 기반으로 한 사회적인 활동을 전제로 이루어진다. 일반적으로 커뮤니케이션을 통해 정보와 감정을 교류함으로써 관계가 형성되고 유지되며, 활발한 커뮤니케이션을 통해 관계를 강화하는 활동을 하게 된다 최근 10년 사이에 기술과 정보통신의 발달로 새롭게 등장한 커뮤니케이션 채널이라 할 수 있는 휴대전화는, 이제 유선전화 시장을 넘어서 거의 전국민이 사용할 만큼 보편화되어 인간에게 매우 친밀하고 중요한 수단으로 자리잡았다. 이제 사람들은 일상생활 속에서 휴대전화와 거의 모든 시간, 장소에 함께 하며 타인과의 커뮤니케이션을 위한 채널을 열어둔다. 이렇게 휴대전화는 사람들의 인간 관계를 유지, 보수, 강화하는 데에 매우 긴밀하게 사용할 수 도구이지만, 인간관계 관리의 측면에서 보면 단순히 커뮤니케이션을 도와주는 역할에 머무르고 있으며 실제적인 관계 관리에 능동적인 도움을 주지 못하고 있는 것이 현실이다. 본 연구는 커뮤니케이션의 주 도구로 사용되는 휴대전화의 사용을 바탕으로 사용자의 인간 관계관리를 도와주기 위한 지원 서비스를 제공하고자 하였다. 휴대전화 사용 정보를 바탕으로 커뮤니케이션이 필요한 대상을 알려주어 사용자로 하여금 현재의 관계 상황을 이해하고 커뮤니케이션 행위, 즉 관계관리로 이어지도록 하고자 하였다. 이를 위해 모바일 커뮤니케이션에서의 관계 특성을 활용하여 사용자와 대상간의 친밀도를 추출하는 방법을 수립하고 휴대전화를 통해 인간관계 관리를 지원하는 서비스의 프로토타입을 제작하였다.

  • PDF

콕스 비례위험 모형을 이용한 중소기업의 업종별 생존율 및 생존요인 분석 (Survival analysis on the business types of small business using Cox's proportional hazard regression model)

  • 박진경;오광호;김민수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권2호
    • /
    • pp.257-269
    • /
    • 2012
  • 최근 글로벌 금융위기와 중소기업들의 연이은 도산으로 인해 국내 중소기업들의 구조조정에 대한 논의가 활발히 진행되고 있다. 이에 본 논문에서는 신용보증기금에 등록된 중소기업 자료에 대하여 업종별 생존율 동향을 비교분석하였다. 이때 생존율의 차이는 로그순위 검정과 윌콕슨의 검정통계량을 사용하여 분석하였다. 또한 재무변수들을 이용하여 중소기업의 업종별 콕스 회귀분석을 실시하였다. 그 결과, 도소매업과 서비스업이 경공업과 중공업, 건설업에 비하여 생존율이 높았으며, 건설업의 경우 생존율이 가장 낮음을 알 수 있었다. 또한, 업종별로 유의한 재무변수를 살펴보면, 건설업은 자기자본비율, 유동비율이 커질수록 부도율이 감소하는 반면에 차입금의존도가 커질수록 부도율이 증가하였다. 경공업은 자기자본비율, 총자산 순이익률이 커질수록, 도소매업은 자기자본비율, 유동비율이 커질수록 부도율이 감소하였다. 중공업은 자기자본비율, 총자산 순이익률, 유동비율이 커질수록 부도율이 감소하였지만 결합지표가 커질수록 부도율이 증가하였다. 마지막으로, 서비스업은 유동비율이 커질수록 부도율이 감소하였다.

A Study on the Meaning and Strategy of Keyword Advertising Marketing

  • Park, Nam Goo
    • 유통과학연구
    • /
    • 제8권3호
    • /
    • pp.49-56
    • /
    • 2010
  • At the initial stage of Internet advertising, banner advertising came into fashion. As the Internet developed into a central part of daily lives and the competition in the on-line advertising market was getting fierce, there was not enough space for banner advertising, which rushed to portal sites only. All these factors was responsible for an upsurge in advertising prices. Consequently, the high-cost and low-efficiency problems with banner advertising were raised, which led to an emergence of keyword advertising as a new type of Internet advertising to replace its predecessor. In the beginning of 2000s, when Internet advertising came to be activated, display advertisement including banner advertising dominated the Net. However, display advertising showed signs of gradual decline, and registered minus growth in the year 2009, whereas keyword advertising showed rapid growth and started to outdo display advertising as of the year 2005. Keyword advertising refers to the advertising technique that exposes relevant advertisements on the top of research sites when one searches for a keyword. Instead of exposing advertisements to unspecified individuals like banner advertising, keyword advertising, or targeted advertising technique, shows advertisements only when customers search for a desired keyword so that only highly prospective customers are given a chance to see them. In this context, it is also referred to as search advertising. It is regarded as more aggressive advertising with a high hit rate than previous advertising in that, instead of the seller discovering customers and running an advertisement for them like TV, radios or banner advertising, it exposes advertisements to visiting customers. Keyword advertising makes it possible for a company to seek publicity on line simply by making use of a single word and to achieve a maximum of efficiency at a minimum cost. The strong point of keyword advertising is that customers are allowed to directly contact the products in question through its more efficient advertising when compared to the advertisements of mass media such as TV and radio, etc. The weak point of keyword advertising is that a company should have its advertisement registered on each and every portal site and finds it hard to exercise substantial supervision over its advertisement, there being a possibility of its advertising expenses exceeding its profits. Keyword advertising severs as the most appropriate methods of advertising for the sales and publicity of small and medium enterprises which are in need of a maximum of advertising effect at a low advertising cost. At present, keyword advertising is divided into CPC advertising and CPM advertising. The former is known as the most efficient technique, which is also referred to as advertising based on the meter rate system; A company is supposed to pay for the number of clicks on a searched keyword which users have searched. This is representatively adopted by Overture, Google's Adwords, Naver's Clickchoice, and Daum's Clicks, etc. CPM advertising is dependent upon the flat rate payment system, making a company pay for its advertisement on the basis of the number of exposure, not on the basis of the number of clicks. This method fixes a price for advertisement on the basis of 1,000-time exposure, and is mainly adopted by Naver's Timechoice, Daum's Speciallink, and Nate's Speedup, etc, At present, the CPC method is most frequently adopted. The weak point of the CPC method is that advertising cost can rise through constant clicks from the same IP. If a company makes good use of strategies for maximizing the strong points of keyword advertising and complementing its weak points, it is highly likely to turn its visitors into prospective customers. Accordingly, an advertiser should make an analysis of customers' behavior and approach them in a variety of ways, trying hard to find out what they want. With this in mind, her or she has to put multiple keywords into use when running for ads. When he or she first runs an ad, he or she should first give priority to which keyword to select. The advertiser should consider how many individuals using a search engine will click the keyword in question and how much money he or she has to pay for the advertisement. As the popular keywords that the users of search engines are frequently using are expensive in terms of a unit cost per click, the advertisers without much money for advertising at the initial phrase should pay attention to detailed keywords suitable to their budget. Detailed keywords are also referred to as peripheral keywords or extension keywords, which can be called a combination of major keywords. Most keywords are in the form of texts. The biggest strong point of text-based advertising is that it looks like search results, causing little antipathy to it. But it fails to attract much attention because of the fact that most keyword advertising is in the form of texts. Image-embedded advertising is easy to notice due to images, but it is exposed on the lower part of a web page and regarded as an advertisement, which leads to a low click through rate. However, its strong point is that its prices are lower than those of text-based advertising. If a company owns a logo or a product that is easy enough for people to recognize, the company is well advised to make good use of image-embedded advertising so as to attract Internet users' attention. Advertisers should make an analysis of their logos and examine customers' responses based on the events of sites in question and the composition of products as a vehicle for monitoring their behavior in detail. Besides, keyword advertising allows them to analyze the advertising effects of exposed keywords through the analysis of logos. The logo analysis refers to a close analysis of the current situation of a site by making an analysis of information about visitors on the basis of the analysis of the number of visitors and page view, and that of cookie values. It is in the log files generated through each Web server that a user's IP, used pages, the time when he or she uses it, and cookie values are stored. The log files contain a huge amount of data. As it is almost impossible to make a direct analysis of these log files, one is supposed to make an analysis of them by using solutions for a log analysis. The generic information that can be extracted from tools for each logo analysis includes the number of viewing the total pages, the number of average page view per day, the number of basic page view, the number of page view per visit, the total number of hits, the number of average hits per day, the number of hits per visit, the number of visits, the number of average visits per day, the net number of visitors, average visitors per day, one-time visitors, visitors who have come more than twice, and average using hours, etc. These sites are deemed to be useful for utilizing data for the analysis of the situation and current status of rival companies as well as benchmarking. As keyword advertising exposes advertisements exclusively on search-result pages, competition among advertisers attempting to preoccupy popular keywords is very fierce. Some portal sites keep on giving priority to the existing advertisers, whereas others provide chances to purchase keywords in question to all the advertisers after the advertising contract is over. If an advertiser tries to rely on keywords sensitive to seasons and timeliness in case of sites providing priority to the established advertisers, he or she may as well make a purchase of a vacant place for advertising lest he or she should miss appropriate timing for advertising. However, Naver doesn't provide priority to the existing advertisers as far as all the keyword advertisements are concerned. In this case, one can preoccupy keywords if he or she enters into a contract after confirming the contract period for advertising. This study is designed to take a look at marketing for keyword advertising and to present effective strategies for keyword advertising marketing. At present, the Korean CPC advertising market is virtually monopolized by Overture. Its strong points are that Overture is based on the CPC charging model and that advertisements are registered on the top of the most representative portal sites in Korea. These advantages serve as the most appropriate medium for small and medium enterprises to use. However, the CPC method of Overture has its weak points, too. That is, the CPC method is not the only perfect advertising model among the search advertisements in the on-line market. So it is absolutely necessary that small and medium enterprises including independent shopping malls should complement the weaknesses of the CPC method and make good use of strategies for maximizing its strengths so as to increase their sales and to create a point of contact with customers.

  • PDF

Performance of Drip Irrigation System in Banana Cultuivation - Data Envelopment Analysis Approach

  • Kumar, K. Nirmal Ravi;Kumar, M. Suresh
    • Agribusiness and Information Management
    • /
    • 제8권1호
    • /
    • pp.17-26
    • /
    • 2016
  • India is largest producer of banana in the world producing 29.72 million tonnes from an area of 0.803 million ha with a productivity of 35.7 MT ha-1 and accounted for 15.48 and 27.01 per cent of the world's area and production respectively (www.nhb.gov.in). In India, Tamil Nadu leads other states both in terms of area and production followed by Maharashtra, Gujarat and Andhra Pradesh. In Rayalaseema region of Andhra Pradesh, Kurnool district had special reputation in the cultivation of banana in an area of 5765 hectares with an annual production of 2.01 lakh tonnes in the year 2012-13 and hence, it was purposively chosen for the study. On $23^{rd}$ November 2003, the Government of Andhra Pradesh has commenced a comprehensive project called 'Andhra Pradesh Micro Irrigation Project (APMIP)', first of its kind in the world so as to promote water use efficiency. APMIP is offering 100 per cent of subsidy in case of SC, ST and 90 per cent in case of other categories of farmers up to 5.0 acres of land. In case of acreage between 5-10 acres, 70 per cent subsidy and acreage above 10, 50 per cent of subsidy is given to the farmer beneficiaries. The sampling frame consists of Kurnool district, two mandals, four villages and 180 sample farmers comprising of 60 farmers each from Marginal (<1ha), Small (1-2ha) and Other (>2ha) categories. A well structured pre-tested schedule was employed to collect the requisite information pertaining to the performance of drip irrigation among the sample farmers and Data Envelopment Analysis (DEA) model was employed to analyze the performance of drip irrigation in banana farms. The performance of drip irrigation was assessed based on the parameters like: Land Development Works (LDW), Fertigation costs (FC), Volume of water supplied (VWS), Annual maintenance costs of drip irrigation (AMC), Economic Status of the farmer (ES), Crop Productivity (CP) etc. The first four parameters are considered as inputs and last two as outputs for DEA modelling purposes. The findings revealed that, the number of farms operating at CRS are more in number in other farms (46.66%) followed by marginal (45%) and small farms (28.33%). Similarly, regarding the number of farmers operating at VRS, the other farms are again more in number with 61.66 per cent followed by marginal (53.33%) and small farms (35%). With reference to scale efficiency, marginal farms dominate the scenario with 57 per cent followed by others (55%) and small farms (50%). At pooled level, 26.11 per cent of the farms are being operated at CRS with an average technical efficiency score of 0.6138 i.e., 47 out of 180 farms. Nearly 40 per cent of the farmers at pooled level are being operated at VRS with an average technical efficiency score of 0.7241. As regards to scale efficiency, nearly 52 per cent of the farmers (94 out of 180 farmers) at pooled level, either performed at the optimum scale or were close to the optimum scale (farms having scale efficiency values equal to or more than 0.90). Majority of the farms (39.44%) are operating at IRS and only 29 per cent of the farmers are operating at DRS. This signifies that, more resources should be provided to these farms operating at IRS and the same should be decreased towards the farms operating at DRS. Nearly 32 per cent of the farms are operating at CRS indicating efficient utilization of resources. Log linear regression model was used to analyze the major determinants of input use efficiency in banana farms. The input variables considered under DEA model were again considered as influential factors for the CRS obtained for the three categories of farmers. Volume of water supplied ($X_1$) and fertigation cost ($X_2$) are the major determinants of banana farms across all the farmer categories and even at pooled level. In view of their positive influence on the CRS, it is essential to strengthen modern irrigation infrastructure like drip irrigation and offer more fertilizer subsidies to the farmer to enhance the crop production on cost-effective basis in Kurnool district of Andhra Pradesh, India. This study further suggests that, the present era of Information Technology will help the irrigation management in the context of generating new techniques, extension, adoption and information. It will also guide the farmers in irrigation scheduling and quantifying the irrigation water requirements in accordance with the water availability in a particular season. So, it is high time for the Government of India to pay adequate attention towards the applications of 'Information and Communication Technology (ICT) and its applications in irrigation water management' for facilitating the deployment of Decision Supports Systems (DSSs) at various levels of planning and management of water resources in the country.

X-tree Diff: 트리 기반 데이터를 위한 효율적인 변화 탐지 알고리즘 (X-tree Diff: An Efficient Change Detection Algorithm for Tree-structured Data)

  • 이석균;김동아
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.683-694
    • /
    • 2003
  • 인터넷 사용이 급속도로 증가함에 따라 XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지가 중요한 연구 분야로 등장하고 있다. 본 논문에서는 효율적인 변화 탐지를 위한 데이터 구조로 X-tree와 이에 기초한 휴리스틱 변화 탐지 알고리즘 X-tree Diff 를 제안한다. X-tree Diff 는 X-tree 의 변화 내용에 대한 최소 비용 편집 스크립트를 찾는 알고리즘과는 달리 휴리스틱 트리 대응 알고리즘을 통해 병화 내용을 확인하는 알고리즘으로, X-tree 에 속한 모든 노드에 대해 각각의 노드를 루트로 하는 서브트리의 구조와 서브트리속에 속한 노드들의 데이터들을 128비트 해시값으로 표현한 값인 트리 MD를 각 노드에 저장하고, 이를 변화 탐지 과정에서 활용하여 신-구 버전의 X-tree들에 속한 서브트리들의 비교을 효율적으로 처리한다. X-tree Diff 는 4단계로 구성되며 1)신-구버넌의 X-tree노드들에 대해, 우선 1:1 대응이 가능한 모든 동등한 서브트리 쌍을 찾고, 2) 이들 서브트리 쌍의 루트로부터 신-구 버전의 X-tree의 루트까지의 경로 상에 존재하는 노드들에 대한 대응관계를 결정한다. 3) 그 후 신-구 버전의 X-tree의 루트들로부터 깊이 우선 탐색으로 노드를 방문하며 대응이 결정되지 않은 노드들에 대한 대응여부를 결정해 나간다. 4) 마지막까지 대응여부가 결정되지 않은 도드들은 삭제나 삽입된 것으로 간주한다. X-tree Diff XML 문서들에 대한 버저닝(Versioning) 을 목적으로 설계된 BUILD Diff 알고리즘과 달리 XML/HTML 에 공통적으로 사용할 수 있을 뿐 아니라, 알고리즘이 명확하고 간결하여 다양한 형태의 확장이 가능하다. 알고리즘의 성능도 개선되어 신-구 X-tree의 노드의 수를 n이라 할 때, O(n)의 시간 복잡도를 갖는다. 제안된 알고리즘은 현재 보안 관련 상용 시스템인 WIDS(Web-Document Instrusion Detection System) 에서 사용되고 있으며, 본 논문에서는 WIDS를 이용하여 20여개 신문-방송 사이트에서 변화가 탐지된 11,000 개 페이지에 대한 성능평가를 보이고 있다.

BERT 기반 감성분석을 이용한 추천시스템 (Recommender system using BERT sentiment analysis)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.1-15
    • /
    • 2021
  • 추천시스템은 사용자의 기호를 파악하여 물품 구매 결정을 도와주는 역할을 할 뿐만 아니라, 비즈니스 전략의 관점에서도 중요한 역할을 하기에 많은 기업과 기관에서 관심을 갖고 있다. 최근에는 다양한 추천시스템 연구 중에서도 NLP와 딥러닝 등을 결합한 하이브리드 추천시스템 연구가 증가하고 있다. NLP를 이용한 감성분석은 사용자 리뷰 데이터가 증가함에 따라 2000년대 중반부터 활용되기 시작하였지만, 기계학습 기반 텍스트 분류를 통해서는 텍스트의 특성을 완전히 고려하기 어렵기 때문에 리뷰의 정보를 식별하기 어려운 단점을 갖고 있다. 본 연구에서는 기계학습의 단점을 보완하기 위하여 BERT 기반 감성분석을 활용한 추천시스템을 제안하고자 한다. 비교 모형은 Naive-CF(collaborative filtering), SVD(singular value decomposition)-CF, MF(matrix factorization)-CF, BPR-MF(Bayesian personalized ranking matrix factorization)-CF, LSTM, CNN-LSTM, GRU(Gated Recurrent Units)를 기반으로 하는 추천 모형이며, 실제 데이터에 대한 분석 결과, BERT를 기반으로 하는 추천시스템의 성과가 가장 우수한 것으로 나타났다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.