• 제목/요약/키워드: Search frequency

검색결과 883건 처리시간 0.023초

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

Support Vector Regression을 이용한 GARCH 모형의 추정과 투자전략의 성과분석 (Estimation of GARCH Models and Performance Analysis of Volatility Trading System using Support Vector Regression)

  • 김선웅;최흥식
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.107-122
    • /
    • 2017
  • 주식시장의 주가 수익률에 나타나는 변동성은 투자 위험의 척도로서 재무관리의 이론적 모형에서뿐만 아니라 포트폴리오 최적화, 증권의 가격 평가 및 위험관리 등 투자 실무 영역에서도 매우 중요한 역할을 하고 있다. 변동성은 주가 수익률이 평균을 중심으로 얼마나 큰 폭의 움직임을 보이는가를 판단하는 지표로서 보통 수익률의 표준편차로 측정한다. 관찰 가능한 표준편차는 과거의 주가 움직임에서 측정되는 역사적 변동성(historical volatility)이다. 역사적 변동성이 미래의 주가 수익률의 변동성을 예측하려면 변동성이 시간 불변적(time-invariant)이어야 한다. 그러나 대부분의 변동성 연구들은 변동성이 시간 가변적(time-variant)임을 보여주고 있다. 이에 따라 시간 가변적 변동성을 예측하기 위한 여러 계량 모형들이 제안되었다. Engle(1982)은 변동성의 시간 가변적 특성을 잘 반영하는 변동성 모형인 Autoregressive Conditional Heteroscedasticity(ARCH)를 제안하였으며, Bollerslev(1986) 등은 일반화된 ARCH(GARCH) 모형으로 발전시켰다. GARCH 모형의 실증 분석 연구들은 실제 증권 수익률에 나타나는 두터운 꼬리 분포 특성과 변동성의 군집현상(clustering)을 잘 설명하고 있다. 일반적으로 GARCH 모형의 모수는 가우스분포로부터 추출된 자료에서 최적의 성과를 보이는 로그우도함수에 대한 최우도추정법에 의하여 추정되고 있다. 그러나 1987년 소위 블랙먼데이 이후 주식 시장은 점점 더 복잡해지고 시장 변수들이 많은 잡음(noise)을 띠게 됨에 따라 변수의 분포에 대한 엄격한 가정을 요구하는 최우도추정법의 대안으로 인공지능모형에 대한 관심이 커지고 있다. 본 연구에서는 주식 시장의 주가 수익률에 나타나는 변동성의 예측 모형인 GARCH 모형의 모수추정방법으로 지능형 시스템인 Support Vector Regression 방법을 제안한다. SVR은 Vapnik에 의해 제안된 Support Vector Machines와 같은 원리를 회귀분석으로 확장한 모형으로서 Vapnik의 e-insensitive loss function을 이용하여 비선형 회귀식의 추정이 가능해졌다. SVM을 이용한 회귀식 SVR은 두터운 꼬리 분포를 보이는 주식시장의 변동성과 같은 관찰치에서도 우수한 추정 성능을 보인다. 2차 손실함수를 사용하는 기존의 최소자승법은 부최적해로서 추정 오차가 확대될 수 있다. Vapnik의 손실함수에서는 입실론 범위내의 예측 오차는 무시하고 큰 예측 오차만 손실로 처리하기 때문에 구조적 위험의 최소화를 추구하게 된다. 금융 시계열 자료를 분석한 많은 연구들은 SVR의 우수성을 보여주고 있다. 본 연구에서는 주가 변동성의 분석 대상으로서 KOSPI 200 주가지수를 사용한다. KOSPI 200 주가지수는 한국거래소에 상장된 우량주 중 거래가 활발하고 업종을 대표하는 200 종목으로 구성된 업종 대표주들의 포트폴리오이다. 분석 기간은 2010년부터 2015년까지의 6년 동안이며, 거래일의 일별 주가지수 종가 자료를 사용하였고 수익률 계산은 주가지수의 로그 차분값으로 정의하였다. KOSPI 200 주가지수의 일별 수익률 자료의 실증분석을 통해 기존의 Maximum Likelihood Estimation 방법과 본 논문이 제안하는 지능형 변동성 예측 모형의 예측성과를 비교하였다. 주가지수 수익률의 일별 자료 중 학습구간에서 대칭 GARCH 모형과 E-GARCH, GJR-GARCH와 같은 비대칭 GARCH 모형에 대하여 모수를 추정하고, 검증 구간 데이터에서 변동성 예측의 성과를 비교하였다. 전체 분석기간 1,487일 중 학습 기간은 1,187일, 검증 기간은 300일 이다. MLE 추정 방법의 실증분석 결과는 기존의 많은 연구들과 비슷한 결과를 보여주고 있다. 잔차의 분포는 정규분포보다는 Student t분포의 경우 더 우수한 모형 추정 성과를 보여주고 있어, 주가 수익률의 비정규성이 잘 반영되고 있다고 할 수 있다. MSE 기준으로, SVR 추정의 변동성 예측에서는 polynomial 커널함수를 제외하고 linear, radial 커널함수에서 MLE 보다 우수한 예측 성과를 보여주었다. DA 지표에서는 radial 커널함수를 사용한 SVR 기반의 지능형 GARCH 모형이 가장 우수한 변동성의 변화 방향에 대한 방향성 예측력을 보여주었다. 추정된 지능형 변동성 모형을 이용하여 예측된 주식 시장의 변동성 정보가 경제적 의미를 갖는지를 검토하기 위하여 지능형 변동성 거래 전략을 도출하였다. 지능형 변동성 거래 전략 IVTS의 진입규칙은 내일의 변동성이 증가할 것으로 예측되면 변동성을 매수하고 반대로 변동성의 감소가 예상되면 변동성을 매도하는 전략이다. 만약 변동성의 변화 방향이 전일과 동일하다면 기존의 변동성 매수/매도 포지션을 유지한다. 전체적으로 SVR 기반의 GARCH 모형의 투자 성과가 MLE 기반의 GARCH 모형의 투자 성과보다 높게 나타나고 있다. E-GARCH, GJR-GARCH 모형의 경우는 MLE 기반의 GARCH 모형을 이용한 IVTS 전략은 손실이 나지만 SVR 기반의 GARCH 모형을 이용한 IVTS 전략은 수익으로 나타나고 있다. SVR 커널함수에서는 선형 커널함수가 더 좋은 투자 성과를 보여주고 있다. 선형 커널함수의 경우 투자 수익률이 +526.4%를 기록하고 있다. SVR 기반의 GARCH 모형을 이용하는 IVTS 전략의 경우 승률도 51.88%부터 59.7% 사이로 높게 나타나고 있다. 옵션을 이용하는 변동성 매도전략은 방향성 거래전략과 달리 하락할 것으로 예측된 변동성의 예측 방향이 틀려 변동성이 소폭 상승하거나 변동성이 하락하지 않고 제자리에 있더라도 옵션의 시간가치 요인 때문에 전체적으로 수익이 실현될 수도 있다. 정확한 변동성의 예측은 자산의 가격 결정뿐만 아니라 실제 투자에서도 높은 수익률을 얻을 수 있기 때문에 다양한 형태의 인공신경망을 활용하여 더 나은 예측성과를 보이는 변동성 예측 모형을 개발한다면 주식시장의 투자자들에게 좋은 투자 정보를 제공하게 될 것이다.

재상업복무교역중적매매관계중상호신임대관계적효적영향(在商业服务交易中的买卖关系中相互信任对关系绩效的影响) (The Effect of Mutual Trust on Relational Performance in Supplier-Buyer Relationships for Business Services Transactions)

  • Noh, Jeon-Pyo
    • 마케팅과학연구
    • /
    • 제19권4호
    • /
    • pp.32-43
    • /
    • 2009
  • 信任在心理学, 经济学, 社会学中已被广泛研究, 其重要性不仅在市场营销中被强调, 在一般商业原则中也被强调. 供应商和买家之间的关系与过去不同, 过去的关系需要相当大的私人网络优势, 并可能涉及不道德的商业行为. 而在以工业营销成功的为核心的二十一世纪激烈的全球竞争中, 供应商和买家之间的关系是伙伴关系. 在相互合作的高级别信任的基础上, 通过交换的关系, 这会给买家和供应商带来长期的利益, 竞争力增强和交易成本的降低以及其他福利. 尽管现有的研究有信任的重要性, 但是在购买与供应关系中却忽视了信任的作用, 也没有系统地分析信任对关系的影响. 因此, 深入研究, 确定买家和商业服务供应商之间信任和关系绩效之间的联系是绝对需要的. 本研究中的商业服务, 包括那些支持制造业, 正作为下一代经济增长的引擎而吸引着人们的注意. 韩国政府已选择其作为制造业发展的战略领域. 由于商业服务开放市场的需求日趋激烈, 商业服务业的竞争力应该比以往得到更多的提倡. 本研究的目的是探索相互信任对买家和供应商之间的关系绩效的影响. 具体来说, 本研究在商业服务交易中提出了一个关于信任-关系绩效的理论模型, 并实证检验根据模型而提出的假设. 这项研究表明, 研究结果有战略意义. 本研究通过多种方法收集经验数据. 这些方法包括通过电话, 邮件和面试. 作为样本的公司是在韩国供应和购买商业服务的以知识为本的公司. 本研究收集的是二进的基础数据. 每个样本公司对包括购买公司及其相应的供应公司. 并跟踪调查每个公司对的相互信任. 本研究为商业服务的买卖双方提出了信任-关系绩效的模型. 该模型由信任和它的前因和后果. 买家的信任分为对供应公司的信任和对销售人员的信任. 根据Doney 和Cannon (1997)的研究我们在个人水平和组织水平上观察信任. 通常情况下, 买方是信任的受体, 但这项研究我们建议以供应商为观察受体. 因此, 它独特的关注了双边角度的知觉风险. 换言之, 供应商和买家一样, 是信任的主体, 因为交易通常是双边的. 从这个角度来看, 供应商对买家信任和买方对供货商的信赖一样重要. 供应商的信任从某种程度上受它信任的买方公司和买家的影响. 这种使用个人水平和组织水平的信任分类是根据Doney 和Cannon (1997)的研究. 信任影响供应商的选择, 这是一项双向放的工作. 供应商们积极参与供应商选择过程中, 和买家密切的一起工作. 此外, 该过程从某种程度上受每一方信任的合作伙伴的影响. 挑选过程包括一些步骤: 识别, 信息检索, 供应商选择和绩效评价. 作为这一进程的结果, 买家和供应商都进行绩效评估, 并就这些结果为基础, 采取有形或无形的纠正行动. 本研究中使用的关于信任的测量问项是根据Mayer, Davis 和 Schoorman (1995) 以及Mayer和Davis (1999)的研究发展起来的. 根据他们的建议, 有关信任的三个方面的研究包括有能力, 善和完整. 根据商业服务这个背景我们调整了原来的问题. 例如, 如 "他/她的专业能力" 已被改为 "当我们讨论我们的产品时销售人员表现出专业能力. "这项研究使用的测量问项不同于在以往的研究中使用的问项(Rotter 1967; Sullivan和Peterson 1982; Dwyer和Oh 1987. 本研究中有关信任的前因后果的测量问项是根据Doney和Cannon (1997)的研究为基础制定的. 根据商业服务这个背景我们调整了原来的问题. 特别是, 问题被设计为对买家和供应商以解决下列因素: 信誉 (诚信, 客户服务, 良好意愿), 市场地位 (公司规模, 市场份额, 在行业中的地位), 愿意定制(产品, 过程, 交付), 信息共享(专有信息, 个人信息), 愿意保持良好关系, 认为专业, 权威授权, 买方与卖方的相似性, 以及接触频率. 作为信任相应的变量, 我们对关系绩效进行了测试. 关系绩效分为有形的影响, 无形影响, 和副作用. 有形的影响包括财务业绩;无形的影响, 包括关系的改善, 网络开发, 以及内部员工的满意度;副作用包括既不是有形影响也不是无形影响的影响. 我们联系了350对公司, 105对公司答复了我们. 由于不完整我们删除了5对公司, 105对公司被用于数据分析. 用于数据分析的回应率为30%(三百五十零分之一百零五), 高于工业营销的平均回复比率. 至于回复的公司的特点, 大多数的公司运作的商业服务既为买方(85.4%)也为供应商(81.8%). 大部分买家是做消费品贸易(76%), 而供应商的大部分(70%)是做工业品贸易. 这可能意味着买家的过程是购入材料, 部件和组件从而生产消费品成品. 正如他们对他们与合作伙伴关系的长度的报告表示, 供应商比买家有更长的商业关系. 假设1测试买方-供应方特点对信任的影响. 销售人员的专业度(t=2.070, p<0.05)和权威授权(t=2.328, p<0.05)积极影响买方对供应方的信任. 另一方面, 权威授权(t=2.192, p<0.05)积极影响供应方对买方的信任. 对买方和供应方来说, 权威授权的程度对保持对彼此的信任有关键作用. 假设2测试买卖双方关系特点对信任的影响. 买家倾向于信任供应方, 因为供应方总是尽全力联系买方(t=2.212, p<0.05)这种倾向性在供应方方面也表现得很强(t=2.591, p<0.01). 另一方面, 供应商对买方的信任是由于供应商感知买家与自己的相似性(t=2.702, p<0.01). 这一发现证实了Crosby, Evans, 和Cowles(1990)的研究结果. 他们的结果表明供应方和买方通过商务或私务的定期会议来建立彼此的联系. 假设3测试信任对感知风险的影响. 结果表明无论对买方还是供应方, 信任越低, 感知风险就越大(买方: t =-6.621, p<0.01; 供应方: t=-2.437, p<0.05). 有趣的是, 这一趋势已被证明对买方更强. 这种较高水平的感知风险的一个可能的解释是在商业服务交易中买方通常比供应方感知到更大的风险. 为此, 有必要对供应商对买方实施减少风险的战略. 假设4测试信任对信息搜集. 根据结果, 对供应方和买方, 与预期相反, 信任取决于他们合作伙伴的名誉(买方t=2.929, p<0.01; 供应方t=2.711, p<0.05). 这一发现表明, 具有良好信誉的供应商往往是可信的. 以往的经验并没有显示出任何与买家或供应商信任的重要关系. 假设5测试信任对供应方/买方选择的影响. 与买方不同, 当供应方认为以往与买方的交易重要时, 供应方倾向信任买方(t=2.913 p<0.01). 但是, 本研究并没有现实资源忠诚和买方对供应方的信任之间有显著关系. 假设6测试的是信任对关系绩效的影响. 对买方和供应方, 当财务表现被报告提高时, 他们比较信任他们的合作伙伴(买方: t=2.301, p<0.05;供应方: t=3.692, p<0.01). 有趣的是, 这种趋势在供应方比较明显. 类似的, 当竞争力被报告提高时, 买卖双方比较信任他们的合作伙伴(买方t=3.563, p<0.01 ; 供应方t=3.042, p<0.01). 对供应方来说, 当对买方信任时效率和生产力会提高(t=2.673, p<0.01). 其他绩效指标与信任没有显著关系. 这项研究结果有一定的战略意义. 首先和最重要的是, 以信任为基础的交易对供应商和买家而言都是有益的. 根据研究证实, 通过努力建立和保持相互信任可以使财务表现提高. 同样, 可以通过同样的努力提高竞争力. 第二, 以信任为基础的交易能够减少购买情况中的感知风险. 这对供应商和买家都有启示. 人们普遍认为, 在一个高度参与的采购情况中买家感知到更高的风险. 为了减少风险, 以往的研究已建议供应商制定降低风险的策略. 而本研究的特点是从双边角度关注知觉风险. 换言之, 供应商也容易存在风险, 特别是当他们提供的服务, 需要非常先进的技术, 操作和维护. 因此, 购买者和供应商必须一起密切合作解决问题. 因此, 相互信任在问题解决过程中起着关键作用. 第三, 在这项研究中发现, 销售人员有更多的授权, 他或她越被信任. 这一发现从战术角度看是非常重要的. 建立信任是一个长期的任务, 然而, 当互信尚未开发, 供应商能够通过授权销售人员做出某些决定来克服遇到的问题, 这一结论也适用于供应商.

  • PDF