0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于数据挖掘原理分析及其在量化投资中的应用介绍

MATLAB 来源:djl 2019-09-19 09:00 次阅读

一、什么是数据挖掘

数据挖掘(Data Mining),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、 Internet信息库 以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中,所处的位置如图1所示。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图1 数据由数据库转化为知识的过程

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。

二、数据挖掘的原理

数据本来只是数据,直观上并没有表现出任务有价值的知识。当我们用数据挖掘方法,从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的, 现在来简要介绍一下数据挖掘的原理。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图2 数据挖掘与其他学科的关系

数据挖掘其实质是综合应用各种技术,对于业务相关的数据进行一系列科学的处理,这这过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发以及其他学科(如图2所示)。其核心是利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到我们希望得到的新的输出。所以虽然这种模型不容易解释或很难看到, 但它是基于大量数据训练并经过验证的,所以能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是我们需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出, 数据挖掘是有一定科学依据的, 数据挖掘的结果也是值得信赖的。

三、数据挖掘在量化投资的应用

1、宏观经济分析

股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观的经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。其中经济周期包括衰退、危机、复苏和繁荣四个阶段。按照一般常理来说,在经济衰退时期,股价指数会逐渐下跌;到经济危机时期,股价指数跌至最低点;当经济复苏开始时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必须的。

在量化投资领域, 数据挖掘技术可以做以下几个方面的工作:

分析GDP对股市及个股的影响。

分析分析货币供应量对股票价格的影响及对个股的影响。

分析利率对股市的影响及利率变化对个股的影响。

分析汇率对股市及个股的影响。

在宏观经济分析方面, 经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期, 并研究不同股票于各经济周期的关联性, 这样就可以在不同的经济周期,制定不同的投资策略,这样不仅可以在不同的经济周期实现持续盈利,还可以规避风险。 比如有的投资机构在2008年前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。 其实,如果将08年之前的宏观经济数据可视化之后(图3所示), 就会发现这期间的经济环境了。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图3 08年前后的宏观经济趋势图

2、估价

国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资。

通过对上市公司的价值的评估,来进行股票的选择。这是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对于上市公司的价值进行一个评估,然后结合股票市场上的表现来决定市场上的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。当然,中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分的卖空,所以中国市场还是主要以买入为主。于是,我们更多的是选择那些价格被低估的股票。分析未来股票发行和上市价格的合理定位。

数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票, 比如可以用最近邻方法确定基本面相似的股票的市场估价, 然后根据实际价格很容易确定哪些股票被低估或者高估。 该方法对于新股的认购策略也同样非常有帮助, 因为可以用来评估新股的合理价格区间。

3、量化选股

量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资的最重要的内容。像上面刚介绍的多因子选股模型,主要是靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础, 有时是根据策略进行挖掘。 比如,可以用聚类方法对股票进行聚类,从而对股票进行分池, 选股的时候就2可以从上涨概率比较大的池子中选择股票。 再比如,可以用神经网络方法预测股票的涨跌概率,具体实现方法这里先不赘述, 这些内容在本书中将都会进行介绍。

4、量化择时

量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,例如低估值、例如高成长、例如小市值、例如隐形资产低估等等。 但择时就不是那么简单了, 这里会有一个简单的问题:大盘明天是涨还是跌?

这个看似简单的问题其实并不好回答,尤其是从量化的角度去处理,甚至我们从传统的策略研究——技术面+基本面+政策面会更加好回答一些。为什么?因为量化择时无法处理来自政策面的消息。还有就是量化择时经常会有很强的时域特性,太短的时域预测例如一天,太长的时域预测例如一年,量化择时是很难处理的。

正因为择时比较难处理, 所以采用数据挖掘技术, 用大量的数据去寻找最佳的卖点相对显得更理性些。 比如用上面刚介绍的SVM方法进行择时, 或采用神经网络预测近期的涨跌趋势, 再或者采用分类方法判断近期的最佳交易周期。

5、算法交易

算法交易(algorithmic trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。 根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成冲击,降低交易成本,且还能帮助机构投资者快速增加交易量。

算法交易系统的核心是通过一套计算机程序,可以在一秒钟内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减小对市场的冲击,并且可以寻求最佳的成交执行路径,减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往都是在大量的历史交易数据挖掘中得到的, 然后再经过严格的测试,确定算法的可靠且有效后方可投入实际的算法交易。 在算法交易方面,可用到的数据挖掘技术比较广, 往往涉及到多种方法的综合。 在算法交易方面,目前用的比较多的数据挖掘方法是集成决策树, 其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出),采用这种方法不仅是稳定、灵活,而且还可以采用优化算法对其进行优化,提高收益, 图4即为采用遗传算法优化交易指标的迭代效果图。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图4 遗传算法优化交易指标的迭代效果图

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    405

    浏览量

    24031
收藏 人收藏

    评论

    相关推荐

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法,通过高效的算法和工具,对大
    的头像 发表于 02-03 14:19 486次阅读

    机器学习与数据挖掘方法和应用

    机器学习与数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    关于数据挖掘的十种算法原理讲解

    数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘
    的头像 发表于 09-18 15:00 655次阅读
    <b class='flag-5'>关于</b><b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>的十种算法原理讲解

    一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解

    数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘
    的头像 发表于 09-14 15:56 529次阅读
    一文弄懂<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>的十大算法,<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>算法原理讲解

    机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

    机器学习与数据挖掘的区别 , 机器学习与数据挖掘的关系 机器学习与数据挖掘是如今热门的领域。随着
    的头像 发表于 08-17 16:30 1517次阅读

    数据挖掘和机器学习之间的关系

    这两个领域的相同点和不同点以及它们是如何相互作用的。 数据挖掘是指从大量的数据中发现隐藏在其中的有意义的信息的过程。它涉及到各种技术和方法,包括统计分析、模式识别、
    的头像 发表于 08-17 16:29 2308次阅读

    数据挖掘和机器学习有什么关系

    的定义 数据挖掘和机器学习都是现代数据科学的重要部分。下面分别从定义上介绍两者的概念。 1. 数据挖掘
    的头像 发表于 08-17 16:29 2064次阅读

    数据挖掘十大算法

    数据挖掘十大算法 数据挖掘是目前最热门的技术和概念之一。数据挖掘是一种利用现代
    的头像 发表于 08-17 16:29 1827次阅读

    python数据挖掘案例

    Python数据挖掘的强大功能。 一、金融领域 1.股票价格预测 股票市场是一个复杂的系统,而股票价格的预测对于投资者来说常常是至关重要的。Python数据
    的头像 发表于 08-17 16:29 840次阅读

    python数据挖掘与机器学习

    python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘和机器学习领域。在本篇文章中,我们将探讨Python在数据
    的头像 发表于 08-17 16:29 880次阅读

    数据挖掘定义及方法 数据挖掘在微电子领域的应用

      摘要:本文首先介绍了微电子领域及该领域中半导体制造的发展现状,然后分析数据挖掘在半导体制造中应用的必要性和可行性。最后重点讨论数据
    发表于 07-18 15:43 0次下载

    数据分析数据挖掘的方法(2)#数据挖掘

    数据
    学习硬声知识
    发布于 :2023年07月06日 16:27:16

    数据分析数据挖掘使用的技术(2)#数据挖掘

    数据
    学习硬声知识
    发布于 :2023年07月06日 16:25:51

    数据分析数据挖掘(2)#数据挖掘

    数据
    学习硬声知识
    发布于 :2023年07月06日 16:23:47

    关于让NXP TPL嗅探器与Saleae逻辑分析器一起工作的任何提示?

    背景: 我正在研究 33772C 芯片,它似乎系统级与 NXP 微控制器 TPL 上工作。 我正在深入挖掘并想了解跨 TPL 传达的内容。 我看到 CRC 计算是通信帧的一部分,并认为这是建立
    发表于 05-09 08:33