• 首页
  • 时政
  • 财经
  • 社会
  • 股票
  • 信用
  • 视频
  • 图片
  • 品牌
  • 发改动态
  • 中宏研究
  • 营商环境
  • 新质生产力
logo 公司
  • 中宏网首页 >
  • 商业管理 >
  • 公司 >
  • 正文

DolphinDB 助力 WILLIAM O'NEIL 笑傲股市

2022-10-27 14:48:53 来源:信阳新闻网
分享到:
用微信扫描二维码

       WILLIAMO’NEIL(威廉欧奈尔),成立于1963年,致力于为投资机构和投资者提供投资建议和独立调研报告,目前已服务超过500家世界顶级投资机构。

  我所在的是威廉欧奈尔信息科技上海有限公司,团队负责公司所有量化基金产品的业务,同时进行所有数据相关的技术研发。

  1.我们用DolphinDB做了什么

  目前我们使用DolphinDB处理所有的时序数据,主要进行因子研发、中高频数据处理和tick级流数据处理。每天的新增数据量在1000万~5000万条级别,如果存为CSV文件的话,总共为4~5GB。

  1.1因子研发

  我们结合财报和日线数据衍生出大量因子,然后使用DolphinDB的分布式存储、分布式计算和实时流计算等功能进行因子的存储、计算和建模。在使用DolphinDB进行因子研发的过程中,我们可以快速处理高达PB级别的数据集,利用内置的多范式的编程语言,高效开发出不同风格的因子。在计算得到一些因子后,我们可以再次使用DolphinDB实时计算产生基于这些因子的衍生因子,投研效率得到极大提升。

  此外,我们使用DolphinDB进行因子评估来测试因子的有效性。之前我们使用Python加上某国外知名云服务商的数据库进行因子回测,在使用DolphinDB之后,发现DolphinDB也提供了一些高效的回测工具。比如通过一个replay函数,我们就可以模拟真实的生产环境,通过模拟回放的方式将数据注入到流计算框架中,方便之后的回测计算。在这个过程中,我们可以使用不同的回放形式,并且通过设置不同的回放速率进行匀速、倍速或者极速回放,还可以将多个表的数据回放到同一张表中,总体来说使用非常方便。未来随着项目的推进,我们计划将这块业务逐渐迁移到DolphinDB中。

  1.2处理中高频数据

  目前我们团队专攻中高频数据,这块的数据量非常庞大,历史数据大概在TB级别。在使用DolphinDB处理高频数据时,我们会对输入的行情数据使用时间序列聚合引擎生成分钟级K线,然后根据分钟级K线使用自定义函数生成状态因子,同时将输出结果指向另一个流数据表以方便之后的其他计算。在DolphinDB的助力下,我们实现了日线数据的高效处理,并且将研究的数据精度推进到分钟级,在降低开发成本的基础上极大提升了研发效率。

  1.3搭建tick级数据流架构

  我们团队在去年搭建了一个处理tick级数据的数据流架构——使用Kafka连接数据流,然后传到DolphinDB中进行计算分析,最后得到所需数据。该数据流框架能够实时产生我们需要的市场信号。

  在我看来,只要把Kafka接数据流这步做好,后边的很多事情并不需要操心。因为DolphinDB提供了非常成熟的实时流计算框架,其中最核心的部件是流计算引擎和流数据表。我们通过流数据引擎进行时间序列处理、横截面处理、窗口处理、表关联和异常检测等操作。同时可以将流数据表作为简化版的消息中间件,实现数据的发布和订阅。在投研阶段封装好的基于批量数据开发的因子函数,可以无缝投入实际生产,实现批流一体,加速开发进程。目前DolphinDB的延时可以控制在毫秒级,这完全满足了我们的需求。

  2.回顾数据库选型

  之前我们主要研究中低频数据,使用某国外知名云服务商来存储数据,然后用Python进行分析计算。当公司有处理高频数据的需求时,我们发现这套系统并不能满足对数据处理的理想需求,尤其在数据分析方面,这套系统的反应速度非常慢。

  于是我们在市面上寻找匹配公司需求的新产品,希望这款产品能够实现高效处理时序数据,并且方便未来扩展。

  经过一番市场调研与产品性能测试,我们在选型会议上讨论了三套方案。

  第一套方案是KDB+。由于KDB+语言晦涩,学习成本过高,这套方案并没有被采纳。

  第二套方案是NoSQLCassandra。经过讨论,这套方案需要额外招人进行系统的重构搭建,并且后续需要专人进行维护。这会极大增加成本,所以并没有采用。

  第三套方案是DolphinDB。当时是21年初,市面上已经出现了金融行业处理时序数据“非KDB+即DolphinDB”的两家争霸趋势。我在会议上对照KDB+的算法例子做了一些DolphinDB的性能测试,然后展示了同样的例子使用DolphinDB语言来写,脚本明显会变得更加简洁。在一些例子中,DolphinDB的性能超越了KDB+。当时基金经理们大多熟悉KDB+,我在会议上做完演示后,他们也非常惊讶于DolphinDB的优秀性能。

  最后在方案表决时,DolphinDB以压倒性优势胜出。

  3.对DolphinDB的评价

  使用DolphinDB已经有一年多了,让我印象最深刻的就是它的高性能、易上手与及时支持。

  高性能

  在性能方面,DolphinDB可以对实时数据进行快速地计算与分析,实现毫秒级的响应速度,完全满足了我们高效处理时序数据的需求。

  易上手

  在学习成本方面,由于DolphinDB的脚本语言类似Python,同时提供了很多官方的技术教程,我认为DolphinDB是非常好上手的。如果是一个有着C或Python开发经验的同事,只需要2周、最多1个月的时间,这位同事就能对布置的项目实现上手开发。

  及时支持

  DolphinDB技术支持团队的响应速度非常好。除过一些日常的技术交流,在和技术支持团队沟通的过程中,我会反馈一些DolphinDB原本不提供的接口或者函数的开发需求。不到一个月的时间,我发现之前提到的需求会随着DolphinDB的新版本同时上线,这样快速且及时的反应速度极大地帮助了我们的研发生产。

  4.文章最后

  使用DolphinDB给我们的业务带来了极大的改善。作为一家跨国公司,我们在与国外的同事交流时,也会向他们推荐性能优秀的时序数据库DolphinDB。衷心希望DolphinDB能够越做越强,未来在国际上打出更高的知名度!


编辑:徐霞
审核:王怡然

免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。

  • 微信
  • 微博
  • 手机中宏网

互联网新闻信息服务许可证10120230012 信息网络传播视听节目许可证0121673 增值电信业务经营许可证京B2-20171219 广播电视节目制作经营许可证(京)字第10250号

关于我们 中宏网动态 广告服务 中宏网版权所有 京ICP备2023030128号-1 举报电话:010-63359623

Copyright © 2016-2025 by www.zhonghongwang.com. all rights reserved 运营管理:国家发展和改革委员会宏观经济杂志社