国内某头部券商是国内排名前三的全国性大型综合证券公司。作为证券行业领头羊之一,该券商一直高度重视核心系统的自主可控以及网络信息安全。早些时候,其已经完成了信创化数据库改造和OA系统适配,接下来的当务之急是完成数据能力平台的信创化改造。随着该券商近年来数据中台的发展,企业内部数据系统纷繁庞杂,需要统一的调度系统来实现调度管理统一化、监控可视化、预警智能化等功能。在经过长时间调研之后,该券商携手白鲸开源,基于白鲸调度系统为其数据开发和数据服务的统一管理提供了高效、完善的解决方案,助力其建设 DataOps 底座。本文将详细介绍该券商基于白鲸调度系统在其复杂多样的金融信贷场景中实践应用。
背景
核心系统自主可控以及网络信息安全已经是国家战略层面的重要问题,在证券行业更是向来是被高度重视的话题。2023年6月9日,中国证券业协会印发《证券公司网络和信息安全三年提升计划(2023-2025)》。《计划》鼓励券商信息科技资金投入占比提升至23-25年平均营收的7%或平均净利润的10%,同时高度重视自主可控和信息安全。在《计划》提到的31项主要任务中,其中有17项任务关于提高数据架构与核心系统的自主掌控能力和安全防控能力。2022年国内金融信创发展迅速,据不完全统计,2022年金融信创项目数同比增长300%,在券商行业,信创建设主要集中在数据库改造、OA系统适配、交易系统的改造、数据能力平台建设等方面。
作为证券行业领头羊之一,该券商以数据为引擎,赋能精准投放产品和服务,做到业务和科技超融合,形成有效闭环,希望同时解决之前面临的几大核心问题:
•需求与供给的矛盾:响应业务需求不及时,数据产品开发耗时过久、角色协作性不足
•业务与技术的矛盾:缺少数据消费者反馈机制,数据产品运营能力不足,复用性不高
•成本与效益的矛盾:数据价值未显性化:对大数据能力建设的指导性不强
而随着该券商数据驱动的深入,更多的业务部门对数据部门有更多的数据需求,传统的数据赋能方式已经无法满足其需求。在信息化推动数字加发展的新时代,DataOps应运而生,克服了传统数据赋能的弊端。
DataOps作为数据管理技术,管理着从数据源到价值的信息流,加速从数据中提取价值的过程。它面向数据全生命周期,以价值最大化为目标,利用自动化来提高数据和洞察力处理的敏捷性,协同数据开发、运营和管理全链路过程,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化。DataOps的特点是敏捷、高效,能够为企业带来巨大的价值,促进企业数字化转型,激发技术创新。
证券行业有着业务数据量大、数据处理过程复杂等特点,对于数据管道策略、建设和运营有着更加迫切的需求,为满足实际业务需求,已经走在了DataOps探索的前沿。
白鲸开源作为全球领先的DataOps解决方案提供商,成为该券商合作的首选,通过周密调研和细致验证,其最终选定了白鲸开源作为合作伙伴,共同打造了国产信创化DataOps平台,为数据开发和数据服务的统一管理提供了高效、完善的解决方案。
金融证券业务场景下调度系统的挑战
该券商近年来数据中台发展迅速,接到需求时,其已建成数据仓库、数据交换、数据湖、数据管控等关系紧密的中台系统。但是由于这些系统各自有着独立的调度系统,执行相应的跑批作业,这会造成调度系统功能资源重复、任务管理不方便、运维监控分散、系统间调度联系不紧密等问题,所以,客户最迫切的需求,是一个可以有助于快速构建数据中台并实施基础数据平台的工具,以实现调度管理统一化、监控可视化、预警智能化等功能。
01 需求场景
具体来说,该券商对于这个统一调度平台的需求包括:
•迁移数据平台、数据湖平台
任务脚本迁移到统一的调度系统中。
•需要关联的平台
要求使用统一调度系统调度第三方平台的任务离线开发平台,包括其自有的数据交换平台。
02 各业务线挑战和需求
从各个业务线层面来说,客户面临的挑战和需求包括:
•对信创环境的需求。
•安全部门的需求,对于漏洞扫描以及安全漏洞修复的时效性有较高的要求。
•数仓、数据湖、离线开发平台、数据交换平台等各个业务线各自有自己的调度系统,不能集中统一管理和监控,运维成本巨大。
•金融证券行业业务特性,有个性化节假日日历以及动态更改日历等强场景需求。
•业务日期需要和节假日以及日历紧密关联。
•任务在交易时间和非交易时间执行的业务不一致。
•对于事件触发(文件、数据库、消息等)的场景需求。
•业务部门的任务总数量比较大,达到50W/天,对于任务的并发量需求比较大。
而高效的管理体系、统一的数据标准、良好的数据质量是数据价值实现的基础,针对当前客户数据能力建设存在的问题,决定采用白鲸调度系统,以价值最大化为目标,协同数据开发、运营和管理全链路过程的数据平台,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化,以实现持续精益数据开发、持续交付合规可信数据、数据服务更加完善的目标:
•数据开发运维一体化、敏捷化:通过关联数据开发运营各项活动,构建数据流水线,提升响应和处理的敏捷性;
•数据管理运营协同:数据管理成果通过被业务分析人员、数据科学家等角色自助使用,支撑业务运营,同时,运营结果反向指导数据管理工作,实现管理与运营的协同;
•打造端到端业务价值链:倡导由数据价值驱动的数据开发运营,打破传统的“数据管理是成本工作”的观念,保证了数据开发运营服务于企业整体战略发展,减少各业务线数据的割裂。
白鲸开源DataOps平台助力客户建设DataOps底座
白鲸调度系统是以自主研发的分布式调度引擎为核心,一站式、一体化的数据开发管理运营平台,致力于在线集成环境下,统一完成数据的开发、编排、测试、调度、发布、服务和运维、监控等工作。
该券商DataOps整体规划分为三步进行,其中第一步解决数据底层操作调度系统问题,统一内部数据仓库、大数据集群、数据集市和科学计算平台中运算资源和任务调度已经完成,新一代国产信创的DataOps平台的第一期项目——统一调度系统于2022年11月全栈信创化部署运行,为公司实现数据开发和数据服务的统一管理提供了高效、完善的解决方案,具有全栈化信创技术支持、全面云、湖、仓一体化架构、高性能、高可靠性、简单易用、完整的数据运营能力等特点。
•全局数据治理、数据安全管理、数据资产管理:客户是一个数据密集型企业,数据来源纷繁庞杂,针对数据隐私、数据安全、数据主权、数据标准等问题,白鲸开源 DataOps 平台全面适配信创技术,支持基础环境、服务器、数据库、中间件、客户端、应用软件等信创适配,兼容国内主流软硬件厂商的产品,以专业的底层基础能力推动上层业务的扩展和创新。
•开发IDE/CICD管理:任务脚本可直接引用本地和远程仓库文件,无需重复工作;支持自动化的CI/CD流程,同时支持本地文件上传与跨环境打包部署,帮助客户快速适配DataOps流程,实现开发、测试、部署的整体流程提效。
•批流一体数据集成:支持公有云、私有云和混合云,支持云原生,支持传统数据仓库,支持开源的数据湖,同时支持批流任务同时管理,让企业用户实现数据湖、数据仓库、云的一体化调度。
•数据服务 API:白鲸开源 DataOps 以RESTful API 的形式提供数据服务API,可以让开发人员通过编写代码来访问和操作数据服务中的数据,而无需了解数据服务的底层实现细节。
•数据编排调度:丰富的事件管理功能,支持自定义多种业务日历与切日时间管理,满足企业多部门间的协同使用场景。
•管理和监控:白鲸开源 DataOps 平台配置中心提供监控与配置看板,为客户提供数据源管理、日历时间管理、资源管理、并行度管理、告警监控和多租户管理。
白鲸调度系统推进信贷业务场景落地
针对客户的业务线挑战,白鲸开源DataOps平台下的大数据任务调度组件——白鲸调度系统都能全面契合证券业务特点和功能需求:
•统一数据调度平台:指标数据通过白鲸调度系统和 Shell 任务编排实现风控离线数仓各分层数据的调度与流通、统一管理,支持不同的业务线之间的任务互相依赖,解决了各个业务线不能互相打通,各自为战的问题。
•通过自研技术,支持了全信创环境要求。
•完善的商业服务,专业级漏洞扫描,确保安全漏洞修复的时效性。
•完善的权限系统,支持对接客户的权限系统,解决了单点登录、统一用户权限、项目和资源统一管理的强需求。
•支持金融证券行业的业务特性,提供调度日历、业务数据日历分开,并支持不同时区、日历导入等功能,针对企业调度当中的业务数据日期/时间单独进行设计,更好满足行业需求,比如
•支持多种日历管理,多地区多市场的交易日、工作日、自然日等
•支持日历Excel模板导入
•支持调度日历与业务日历分开
•支持多时区、多偏移量设置
•支持业务日期单独管理,单独切日
•支持金融证券行业的业务特性,提供牌管理功能,支持业务时间单独计算的需求。
•支持金融证券行业的业务特性,提供了每日日切功能,解决交易时间业务特性的需求。
•新增触发器任务,支持事件监控和事件触发功能,满足客户传统多系统之间数据传输触发的需要。
•高性能高并发的特性也很好地解决了多个业务线的大数据量任务调度需求。
此外,白鲸调度系统为客户提供的整个集群环境由多个服务集群组成,解决了服务单点问题。此外,由于采用2 Master x N Worker的分布式去中心化架构,任务容量会随着集群增长线性增长,在保证服务稳定可用的前提下,成功支持了客户各个业务的不同调度需求和任务量可扩展的需求。
用户收益
•数百万任务同时在线,秒级任务高达10万并发,去中心化的多Master多Worker机制,保证了极高的稳定性和性能,可对调用的资源进行控制和分配,利用多租户机制,实现任务之间的并行度控制、资源控制、用户资源限制等诸多功能。
•第一期项目——统一调度系统于2022年11月已经全栈信创化部署运行,为公司提供了完整的数据运营能力,包括完整的数据编排调度、批流一体数据集成、数据开发IDE、统一数据服务和数据治理功能,配合多样化的技术套件,可以在实现统一的数据开发平台、统一的编排调度、统一的数据资产运营的同时,更好地完成离线批处理、实时流处理等任务,有效降低用户数据加工处理的成本,提升数据服务能力,真正实现精益、敏捷的数据运营。
•基于有效的数据开发能力,数据富能力和数据资产化能力,结合智能营销、智能资讯、数据可视化、账户分析等场景,客户的DataOps平台可为各管理部门提供有效、及时的数据服务,其数据成果通过被业务分析人员、数据科学家、模型设计人员、开发人员等角色自助使用,可以高效支撑业务运营、科技开发,同时运营结果和科技开发反向指导数据管理工作,实现数据运营与管理的协同。
•实现了客户各业务部门任务处理,每天完成约8千个工作流作业,在后续不断接入新系统后,目标是完成日工作流10万,任务量50W。
•对接公司统一权限管理、审计、监控、告警等系统,极大提升了公司运营效率。
客户简介
该券商是经中国证监会批准设立的全国性大型综合证券公司,公司在全国30个省、自治区和直辖市设有数百家分支机构,拥有数家全资子公司。自成立以来,客户各项业务快速发展,在企业融资、收购兼并、证券经纪、证券金融、固定收益、资产管理、股票及衍生品交易等领域形成了自身特色和核心业务优势,并搭建了研究咨询、信息技术、运营管理、风险管理、合规管理等专业高效的业务支持体系。
关于白鲸开源
白鲸开源科技是一家由多名 Apache Software Foundation Member, Apache DolphinScheduler 和 Apache SeaTunnel 核心成员组建的公司。我们致力于打造下一代云原生 DataOps 平台,助力企业在大数据和云时代,智能化地完成海量数据的处理、调度和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。目前,白鲸开源已获得数千万融资。