科杰科技实时计算平台研发与建设实践

2023-05-25

1.产品概述

科杰科技实时计算平台是基于Apache Flink构建的高性能、一站式实时数据处理平台,通过标准化的Flink SQL和定制化的Flink Jar实现实时数据的分析、监控,帮助企业构建实时数仓和实时指标,从而支撑业务实时数据的应用。

2.系统架构图

科杰科技实时计算平台的架构设计分为配置层、存储层、开发层、运维层和应用层,其中配置层提供平台的开发资源配置、项目管理以及数据源管理;存储层提供不同类型的数据存储及日志存储;开发层提供Flink SQL任务和Flink Jar任务的创建和调试;运维层提供实时计算任务的运维与监控,以及多环境的级联发布;应用层提供实时数据的展示及应用,呈现实时指标和数据资产。

3.系统特点

3.1支持故障自动恢复,数据计算不重不丢

1)支持各类错误场景的自动恢复,保证故障情况下数据处理的准确性;

2)提供完善的消息追踪框架和复杂的事务性处理,数据计算不重复不丢失,保证数据的正确性;

3)提供代码版本回滚和作业本地数据调试功能,避免影响线上数据;

4)提供完备作业上线机制,调试完成后提交的作业不会立即替代已运行的作业,支持用户手动停止已运行的作业,充分保障正在运行数据的安全性。

3.2高吞吐、低延时、高扩展性

1)基于Apache Flink分布式计算引擎构建,任务作业支持百万级吞吐,秒级延迟;

2)系统会自动处理容错,调度并且管理资源,不影响应用可用性。

3.3灵活性和易用性

1)灵活的进行作业开发;对非原生的SQL语法进行优化,大大提升SQL的易用性;

2)提供自定义UDF函数功能,且支持常规的COUNT、SUM、AVG、MAX、MIN等以及个性化的统计分析函数;

3)提供了一套完整在线IDE开发工具,一站式集成数据存储、数据开发、任务调试、任务运维。

4.功能介绍

科杰科技实时计算平台适用于实时数据流的加工处理,通过可视化的任务开发、沙箱调试、任务运维与监控、多级联任务发布,实现一站式实时大数据处理,高效地提炼时效性数据,满足企业低延时的业务需求。

4.1可视化任务开发

任务开发

提供基于Flink原生的实时数据处理能力,通过可视化SQL编辑的方式实现对数据的处理,支持模版引用,可快速引用源表、维表和结果表,支持查看表结构和样例数据,同时提供标准的Flink SQL语法检查和任务上线检查,帮助用户在任务开发和提交过程中定位代码问题。

代码结构与UDF

平台提供自动解析SQL脚本能力,将业务逻辑动态生成代码结构拓扑图,辅助用户检查代码逻辑,同时支持自定义函数引用,可将函数直接引用到SQL代码中,方便进行数据处理,支持自定义函数的上传和管理。

4.2沙箱调试

平台提供沙箱环境进行作业在线调试,支持对Flink SQL任务使用线上数据或上传样例数据进行调试,校验开发逻辑的准确性,可查看调试日志和调试结果,并支持调试任务的参数配置,可设置调试程序的运行时长及调试结果的保留时长,当运行时长等于设置的值时,调试程序自动终止,不占用集群资源。

4.3任务运维与监控

任务运维

实时计算任务会提交到运维中心进行启动运行,支持根据不同的位点进行启动,保证数据不重不丢,支持记录每次提交的任务版本信息,可将任意两个历史任务进行对比,查看任务的变更信息,对于发生变更的部分会进行高亮显示,便于进行回溯,支持任务的版本回滚。

任务监控与告警

平台提供对运行中的任务进行实时监控,包括任务执行的task DAG图、任务的Exceptions信息以及任务运行Timeline信息,同时支持设置多样化告警条件,可对失败、检查位点异常、异常停止的任务进行告警,保障异常信息不漏,信息及时获取。

4.4多级联任务发布

平台提供一键式发布和导出导入式发布的能力,当开发环境和生产环境的网络打通时可一键发布,即将完成的任务及任务运行依赖的对象统一发布到目标环境中,实现一键式多环境级联的发布;当开发环境和生产环境网络物理隔离时,支持将任务及依赖的对象从当前环境导出并导入到目标环境,完成任务的发布。

在任务发布的过程中,支持事前任务校验,事中可撤销发布、事后可回滚任务、销毁发布,实现任务发布的全生命周期管理,并支持自定义任务发布的审批流程,保障任务发布安全性。

加入合作生态,实现业务创新

公司介绍


回到顶部
联系我们(09:00-18:00) 010-64703560
产品咨询

专属产品咨询服务

一站式、全链路、全可视化数据中台

众多企业选择我们,我们用实力完成客户托付

获取数据中台白皮书
极速体验开启业务智能化
×
  • 请选择服务需求类型

感谢咨询,我们会在1个工作日内联系您

×
×
×