股票市场通过股市新闻和股票预测股票市场要求-turnitin论文查重

【摘要】文章结合股市新闻和股票历史，首先将股市新闻作为多重核的一个子核，利用中文分词软件对股市新闻进行分割，并从中选取1000个有代表性的词语处理后作为股市新闻子核的特征空间；然后选取11个指标对股票历史进行了处理并将其作为另外一个子核的特征空间；最终利用线性加权的方法对两个特征子空间进行合成，并进行仿真。
【关键词】股票市场预测；中文分词；多重核学学习；交互验证；网络搜索

一、研究背景

股票市场是当今金融市场主要部分之一，金融市场的投资者与预测者都想通过分析市场信息从而获得更多利润。通过有效市场检测说（EMH），我们知道股票包含且反映了市场信息，但是，一些研究行为金融学的学者质疑了EMH的准确性，因为投资者会被各种市场信息和他们的心理所影响，从而造成不合理的投资举措。为了将多重信息整合到同一个系统当中，我们运用了多重核学习方（MKL），采用两个子核：一个运用股市新闻，另一个运用近期历史。在研究了子核的权重后，我们可以得到合成核，从而我们的改进的模型给出了一个比传统更准确的预测。

二、模型设计

(一)信息来源

我们的系统是以两个信息为来源设计的：股市新闻和事前。所以系统的输入应该有如下几个特征：（1）时间戳记：每个股市新闻与一个时间戳记联系，它表示这个新闻的发行时间；（2）逐笔交易数据：交易数据往往记录在一个短时间段中；（3）同时：因为系统需要用变动来标记股市新闻，股市新闻和历史必须是同一时间段的信息；

(二)股市新闻信息的预处理

股市新闻可以理解为一种需要我们进行预处理的原始数据资源，其预处理的主要步骤如下：（1）中文分词：我们用中文分词软件对股市新闻数据进行分词。该中文分词软件可以对文字信息合理地划分，但是许多金融领域的一些特殊术语不能被该软件准确地分词，因此我们用金融字典对分词软件的输出进行二次加工；（2）词语过滤：首先删去中文停止词，例如：和、或等。然后过滤掉其他不重要的词语，只留下典型的具有代表性的词语，例如：名词、动词和形容词；（3）特征词语精选：不是余下的词语都可以作为特征词语留下，Feldman只选择了过滤后余下的10%作为特征词语。于是我们根据卡方分布选择了过滤后总共7052中的前1000个词语作为我们系统的特征词语；（4）赋予权重：最后为1000个词语赋权，我们计算作为每个词语的权重。

(三)历史的预处理

原始的逐笔交易数据通过以下步骤来进行预处理：（1）排序：因为交易不可能按照它们的时间戳记来排序，所以我们必须先按照时间戳记来对整个记录进行排序。（2）插入添加：因为连续交易之间的时间间隔不一样，有些时间段甚至不可能有记录，所以存在一个问题：在那些空时间段中，我们需要加入什么值。有两种方法解决这个问题：一是线性时间权重通过Dacorogna来排序；二是最近的收盘。该方法将逐笔交易数据以同一分钟为基础分开，将每分钟最相近的放在一起。如果某一分钟没有记录，那么上一分钟的记录将为代替。尽管两种方法都可以实现，我们选择了第二种方法，因为它的实现过程较为简单。

(四)结合股市新闻和历史

1.提取加工股票的历史。为了使计算机能使用这两种信息数据，我们需要将这些原始数据处理为算法需要的输入数据。检测设股市新闻的时间戳记为，此时对应的股票为，则其后5、10、15、20、25和30分钟的股价分别表示为，，，，，和。如果，例如超过了交易时间限制，这个股市新闻将会被删掉。我们将股市新闻发布后的股票通过下面的公式转化为回收率：
我们以市场平均交易的为临界值，如果，股市新闻将会标记称积极的消息，反之如果则标记成消极的消息。在股市新闻发行之前的三十分钟到一分钟时间段内，我们的实验每隔一分钟抽取一次样本作为股票的历史。Cao和Tay将股价序列转换为RDP指标，通过他们的方法，我们用同样的计算的公式对股票进行处理。
除了RDP指标，我们运用了其他用于股票分析的市场指标，计算该股市指标的公式列在附录2中，其中是第分钟的股价，是时间顺序。最后，30个历史股价点转化为 6个RDP指标和5个市场指标，在后面的模型中它们将作为简化的指标。
2. 数据的标准化处理。在完成以上工作之后，我们得到了：（1）股市新闻实例的集合，用N表示；（2）指标实例的集合，用表示；（3）由对股市新闻的标记构成的向量。其中N中的每一个实例对应于一条新闻消息，每一个特征分量代表一个被选中的文字；中的每个特征分量对应于一个指标；于是标准化处理可以分为两种情况进行讨论：第一，当和的特征分量只取非负值时，用表示，标准化处理如下：标准化之后的取值范围为[0，1]。第二，当和的特征分量可以取正负值时，用表示，标准化处理如下：标准化之后的取值范围为[-1

源于：毕业设计论文模板www.udooo.com

，1]。

三、实验结果及分析

(一)数据集

选取相关的股市新闻信息和市场作为实验数据集。（1）股市新闻信息：实验运用了来自Caihua 2001年的股市新闻信息，所有的新闻信息都是用繁体中文发布的，并且每条新闻信息都有一个时间戳记以表明它的发布时间。（2）市场：市场包括2001年香港交易所所有股票的。股市新闻信息的时间戳记和股票市场以每笔交易为基础。港交所有成千上万支股票，而并不是所有的股票都很活跃，我们主要关注恒生指数在2001的33支股票，然而恒生指数的组成分别在2001年6月1号和7月31号发生了两次变动，根据，新增加的股票在前几个月内的变动是不合理的，通常会发生定价错误，因此我们选择那些一年内都是恒生指数组成股的股票作为研究对象，则只有23支股票满足要求。我们选择这23支股票前10的月的数据作为训练集合，最后两个月的数据作为检验集合，用以检验模型的精确性。

(二)参数的计算

在模型训练的时候，通过网络搜索和五摺交互验证来确定参数的值，以模型1的训练为例，检测设SVM的参数为€%＼和C，对于€%＼的计算，以0.2为步长从0到10进行搜索，对于C的计算，以1为步长，从1到20进行搜索，则总共有50×20=1000种参数组合，也就是算法要运行1000次。在每一次循环中，通过五摺交互验证来验证模型的效果，也就是将前10个月的数据平均分为5个部分，用其中的4个部分训练模型，剩余的1个部分用来验证模型的预测效果。在1000中参数组合中，保存使模型的预测效果做好的那一组参数值，并用于最后的模型检验。在模型中，参数的计算方法是一样的，对于模型4，我们选用通过模型1，2得到的€%＼值，参数C的值则通过与其它模型一样的方法得到。

(三)实验结果

我们用准确度来衡量模型的预测效果，其中：
从交互验证以及网络搜索所得实验结果我们能看出：（1） MKL经交互验证以及网络搜索得到的预测结果（除在第5的交互验证和第10m，25m的网络搜索的结果外）都优于其余三个模型。尽管自然组合的方法和MKL都运用了股市新闻信息以及市场，但是自然组合方法没有像预期那样比依赖于单种信息的模型表现得好，原因可能是简单的将股市新闻信息和指标集的特征分量的结合导致了对某种特征分量的偏向。特征分量在很大程度上偏向了股市新闻信息一方，这正如图1所表现的那样，自然组合的图形与简单依赖于新闻信息的图形十分接近；另一方面，MKL平衡了股市新闻信息和市场之间的可预测性（股市信息和股票都有各自的特点，隐藏在他们背后的信息能形成互补）。相比于交互验证，MK

源于：论文范文网www.udooo.com

L经网络搜索的表现虽然有所下降，但依然获得了4个最好的预测结果和2个次好的预测结果。
（2）从图1和2中可以很明显的看出指标集对股市的预测效果的走势几乎总是向下的，这表明的可预测性随着时间的推移在慢慢下降，这和我们通常认为随时间按推移市场信息会逐渐被市场所吸收、可预测性会逐渐下降这一观点相契合。（3）从图1可以看出，模型1，3，4的准确度曲线在第分钟时达到最高点，并且这三个模型都运用了股市新闻信息，这说明股市新闻的可预测性在第分钟时达到最高，结论和的研究发现一致。
参考文献
E.F. Fama. The behior of stock market prices. Journal of business， 38（1）， 1964.
G. Fung， J. Yu， and W. Lam. News sensitive stock trend prediction. Advances in Knowledge Discovery and Data Mining， pages 481-493， 2002.
[3]G.P.C. Fung， J.X. Yu， and H. Lu. The predicting power of textual information on financial markets. IEEE Intelligent Informatics Bulletin， 5（1）：1-10， 2005.

股票市场通过股市新闻和股票预测股票市场要求