0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于数据挖掘原理分析及其在量化投资中的应用介绍

MATLAB 来源:djl 2019-09-19 09:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、什么是数据挖掘

数据挖掘(Data Mining),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、 Internet信息库 以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中,所处的位置如图1所示。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图1 数据由数据库转化为知识的过程

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。

二、数据挖掘的原理

数据本来只是数据,直观上并没有表现出任务有价值的知识。当我们用数据挖掘方法,从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的, 现在来简要介绍一下数据挖掘的原理。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图2 数据挖掘与其他学科的关系

数据挖掘其实质是综合应用各种技术,对于业务相关的数据进行一系列科学的处理,这这过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发以及其他学科(如图2所示)。其核心是利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到我们希望得到的新的输出。所以虽然这种模型不容易解释或很难看到, 但它是基于大量数据训练并经过验证的,所以能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是我们需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出, 数据挖掘是有一定科学依据的, 数据挖掘的结果也是值得信赖的。

三、数据挖掘在量化投资的应用

1、宏观经济分析

股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观的经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。其中经济周期包括衰退、危机、复苏和繁荣四个阶段。按照一般常理来说,在经济衰退时期,股价指数会逐渐下跌;到经济危机时期,股价指数跌至最低点;当经济复苏开始时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必须的。

在量化投资领域, 数据挖掘技术可以做以下几个方面的工作:

分析GDP对股市及个股的影响。

分析分析货币供应量对股票价格的影响及对个股的影响。

分析利率对股市的影响及利率变化对个股的影响。

分析汇率对股市及个股的影响。

在宏观经济分析方面, 经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期, 并研究不同股票于各经济周期的关联性, 这样就可以在不同的经济周期,制定不同的投资策略,这样不仅可以在不同的经济周期实现持续盈利,还可以规避风险。 比如有的投资机构在2008年前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。 其实,如果将08年之前的宏观经济数据可视化之后(图3所示), 就会发现这期间的经济环境了。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图3 08年前后的宏观经济趋势图

2、估价

国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资。

通过对上市公司的价值的评估,来进行股票的选择。这是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对于上市公司的价值进行一个评估,然后结合股票市场上的表现来决定市场上的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。当然,中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分的卖空,所以中国市场还是主要以买入为主。于是,我们更多的是选择那些价格被低估的股票。分析未来股票发行和上市价格的合理定位。

数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票, 比如可以用最近邻方法确定基本面相似的股票的市场估价, 然后根据实际价格很容易确定哪些股票被低估或者高估。 该方法对于新股的认购策略也同样非常有帮助, 因为可以用来评估新股的合理价格区间。

3、量化选股

量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资的最重要的内容。像上面刚介绍的多因子选股模型,主要是靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础, 有时是根据策略进行挖掘。 比如,可以用聚类方法对股票进行聚类,从而对股票进行分池, 选股的时候就2可以从上涨概率比较大的池子中选择股票。 再比如,可以用神经网络方法预测股票的涨跌概率,具体实现方法这里先不赘述, 这些内容在本书中将都会进行介绍。

4、量化择时

量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,例如低估值、例如高成长、例如小市值、例如隐形资产低估等等。 但择时就不是那么简单了, 这里会有一个简单的问题:大盘明天是涨还是跌?

这个看似简单的问题其实并不好回答,尤其是从量化的角度去处理,甚至我们从传统的策略研究——技术面+基本面+政策面会更加好回答一些。为什么?因为量化择时无法处理来自政策面的消息。还有就是量化择时经常会有很强的时域特性,太短的时域预测例如一天,太长的时域预测例如一年,量化择时是很难处理的。

正因为择时比较难处理, 所以采用数据挖掘技术, 用大量的数据去寻找最佳的卖点相对显得更理性些。 比如用上面刚介绍的SVM方法进行择时, 或采用神经网络预测近期的涨跌趋势, 再或者采用分类方法判断近期的最佳交易周期。

5、算法交易

算法交易(algorithmic trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。 根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成冲击,降低交易成本,且还能帮助机构投资者快速增加交易量。

算法交易系统的核心是通过一套计算机程序,可以在一秒钟内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减小对市场的冲击,并且可以寻求最佳的成交执行路径,减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往都是在大量的历史交易数据挖掘中得到的, 然后再经过严格的测试,确定算法的可靠且有效后方可投入实际的算法交易。 在算法交易方面,可用到的数据挖掘技术比较广, 往往涉及到多种方法的综合。 在算法交易方面,目前用的比较多的数据挖掘方法是集成决策树, 其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出),采用这种方法不仅是稳定、灵活,而且还可以采用优化算法对其进行优化,提高收益, 图4即为采用遗传算法优化交易指标的迭代效果图。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图4 遗传算法优化交易指标的迭代效果图

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24975
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于NFC镍锌铁氧体片的介绍

    关于NFC镍锌铁氧体片的介绍
    的头像 发表于 12-04 10:52 98次阅读
    <b class='flag-5'>关于</b>NFC镍锌铁氧体片的<b class='flag-5'>介绍</b>

    RT-Thread睿赛德科技受邀参加“投资中国·2025上海城市投资推介大会”|新闻速递

    近日,由上海市人民政府主办的“投资中国·2025上海城市投资推介大会”在上海国际会议中心隆重举行。上海市委书记陈吉宁出席并致辞,上海市委副书记、市长龚正作主旨推介。作为全球领先的嵌入式操作系统提供商
    的头像 发表于 11-07 17:37 1118次阅读
    RT-Thread睿赛德科技受邀参加“<b class='flag-5'>投资中</b>国·2025上海城市<b class='flag-5'>投资</b>推介大会”|新闻速递

    关于系统链接脚本的介绍

    起来后所处于的地址,程序中的相对寻址都会遵从此虚拟地址。 四、关于ITCM和DTCM(若使用FLASH下载模式) (1) 代码段上载到ITCM,ITCM起始地址(0x80000000)存储的代码就是主函数的入口。 (2)数据段上载到DTCM,DTCM起始地址(0x
    发表于 10-30 08:26

    【新启航】深度学习玻璃晶圆 TTV 厚度数据智能分析中的应用

    一、引言 玻璃晶圆总厚度偏差(TTV)是衡量晶圆质量的关键指标,其精确分析对半导体制造、微流控芯片等领域至关重要 。传统 TTV 厚度数据分析方法依赖人工或简单算法,效率低且难以挖掘数据
    的头像 发表于 10-11 13:32 249次阅读
    【新启航】深度学习<b class='flag-5'>在</b>玻璃晶圆 TTV 厚度<b class='flag-5'>数据</b>智能<b class='flag-5'>分析</b>中的应用

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监测数据进行
    的头像 发表于 09-15 11:22 429次阅读
    XKCON祥控输煤皮带智能机器人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b><b class='flag-5'>分析</b>

    商汤科技亮相2025中国国际投资贸易洽谈会

    9月8日,第二十五届中国国际投资贸易洽谈会在福建厦门开幕。作为我国唯一以促进投资为主题的国家级重大展会,本届投洽会吸引了120多个国家和地区、11个国际组织的代表团参会。本届投洽会突出“投资中
    的头像 发表于 09-10 09:59 829次阅读

    云知声亮相2025中国国际投资贸易洽谈会

    9月8日-11日,“携手中国 投资未来丨第二十五届中国国际投资贸易洽谈会”厦门成功举办。本届投洽会聚焦“投资中国”“中国投资”“国际
    的头像 发表于 09-09 10:49 753次阅读

    如何根据设备健康状态数据进行分析决策?

    要根据设备健康状态数据做好分析决策,需先明确数据核心价值,再通过 “数据预处理→多维度分析→风险评估→决策落地” 的闭环流程推进,既依托技术
    的头像 发表于 08-20 10:07 463次阅读
    如何根据设备健康状态<b class='flag-5'>数据</b>进行<b class='flag-5'>分析</b>决策?

    用树莓派挖掘5种顶级加密货币!

    加密货币是用于在线交易的数字货币。挖掘这些货币通常需要专门的硬件,如ASIC矿机或高性能GPU。然而,有些加密货币仍可用树莓派来挖掘本文中,我将为您介绍可在树莓派上
    的头像 发表于 07-21 16:34 948次阅读
    用树莓派<b class='flag-5'>挖掘</b>5种顶级加密货币!

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注了人脸框和关键点,该模型的预处理是放到模型外的,不在模型
    发表于 06-13 09:07

    永磁无刷电机及其驱动技术

    结构电机以及Halbach 阵列布置的电机等。第2章简要介绍了功率器件和它们的开关特性与损耗,整流器及逆变器。逆变 器主要介绍了其模型、开关方案及其优缺点。同时介绍了四象限运行常用的学
    发表于 03-31 15:25

    是德示波器触发模式及其使用

    到我们能否准确捕捉并分析目标信号。以下是关于是德示波器触发模式及其使用的简要介绍。 一、触发模式概述 是德示波器通常具备三种基本触发模式:自动模式(AUTO)、常规模式(NORM)和单
    的头像 发表于 03-17 11:42 1364次阅读
    是德示波器触发模式<b class='flag-5'>及其</b>使用

    是否可以输入随机数据集来生成INT8训练后量化模型?

    无法确定是否可以输入随机数据集来生成 INT8 训练后量化模型。
    发表于 03-06 06:45

    求助,关于ADC10D1500低温问题求解

    1023,对比板上另外一块正常的ADC没有饱和,指标正常。将输入幅度减小不让问题ADC饱和,发现问题ADC量化后的数据比正常ADC量化后的数据大3~5dB。测试序列测试FPGA采集到的
    发表于 02-12 07:26

    ADC量化位数只有两位,将采样结果做FFT分析后,发现二次谐波的幅度最大,请教是什么原因造成的?

    如题,ADC量化位数只有两位,将采样结果做FFT分析后,发现二次谐波的幅度最大,请教是什么原因造成的?
    发表于 12-26 06:23