近期,TOP100全球案例研究峰会于北京国际会议中心召开。作业帮参与工具链建设分会场向与会嘉宾展示了作业帮百万级QPS常态化链路压测诊断平台。

此次作业帮成功入选TOP100全球案例,是权威机构对作业帮作为领先在线教育平台技术实力的肯定。王俊星表示,一直以来作业帮以全链路压测模型的迭代升级赋能多样化场景,保证线上千万级并发直播上课的稳定性。未来,作业帮将继续融通各项技术及团队能力,深耕压测平台架构优化等基础建设,保证作业帮线上服务稳定性达到99.99%,实现稳定的优质教育资源供给,以辐射千万孩子的学习征程,践行教育使命和愿景。

今年年初,在“停课不停学”的号召下,教育部鼓励老师和学生“在家上学”。随之而来的是通过互联网音视频与知识建立连接的方式在全国范围内迅速普及,在线教育用户规模呈井喷式增长,2020年被称为“在线教育爆发之年”。

在调研业界各大公司的稳定性方案和开源压测框架后,作业帮基于自身业务场景,选择了自研全链路压测模型的解决方案。据了解,该模型必须与作业帮业务场景高度契合才能有效保证系统的正常运行,既涵盖双师角色、学生交互复杂场景的复用、切换,同时必须将服务架构、私有协议的特殊性纳入考量范围。

不同于传统线下行业可以模拟出一个对等的生产环境,互联网行业的压测难以实现同级别的服务集群。数据构造不真实、场景臆想正是压测架构脆弱的关键所在。此外,压测工具缺乏安全性、人力投入成本大等问题亦亟待解决。因此,对于在市场赛道完美承受高压检验,作业帮还有更长的路要走。

对于作业帮人来说,压力测试不仅是关乎业绩和增长的技术命题,更是与跨城乡、跨地域的全中国中小学生相关的教育供给命题。为此,作业帮解锁了自研压测平台的进阶关卡。

首先,产研团队在压测的探索上达成了安全先行的共识,将“服务与数据隔离”设定为核心思想,研发、测试、运维共同建设将方案落地。具体而言,依托于日志服务,对数据进行清洗和脱敏,数据经过压测平台后产生压测标记,在业务网关分发到各业务集群,业务模块根据压测标记,进行基础业务服务和数据的隔离。

对于场景模拟和数据构造的真实性,团队目前已从最初的捉襟见肘转向能够游刃有余地发挥技术优势的阶段。随着平台投入使用后,对大家的衍生使用需求,如数据预热需求、高压下的持续稳定性测试等,进行了优化支持,以满足压测多样化需求。

而在模拟场景的塑造上,作业帮则分为两大板块,生成不同的设计思路。一方面,对大型售卖活动,采取了多场景链路压测叠加参数化的方式进行梯度发压,并基于漏斗型用户行为模型,达成预期的成果;另一方面,对复杂教学场景的支持,复杂性主要体现在技术复杂性(涉及到私有技术架构、长连接和流媒体协议),数据和交互的复杂性即双师教学的业务形态(每个学生都是一个独立的个体,有各自的行为序列;主讲与辅导老师各司其职并实时同步学生状态,使主讲及时调整教学内容,保证学生的课堂收获)。因此作业帮自研了学生节点、主讲节点、辅导老师节点模型,依托真实的日志将不同角色的行为序列化,最后注入模型,实现教学场景的仿真。

王俊星介绍道,作业帮对于发压侧进行了结构性调整优化,基于2PC思想和流水线形式处理链路,大大提升单节点发压能力,减少了设备投入和运维成本。发压的安全上也会进一步优化,很快我们就会与业务支撑系统打通,触发阈值熔断并与自动化平台联动以达到服务探活的目的,使压测风险进一步降低。同时,为了解决高并发数据结果统计瓶颈,作业帮还会对计算引擎进行优化,通过分级计算、分布式部署,解决数据汇总压力,提升集群水平扩展性。

效率的提高除了对源头进行管控,也离不开中间层面的调度程序优化。对此,作业帮丰富节点管理,增加节点属性,并针对特殊压测场景,独立申请压测节点,使节点分配更加高效合理,避免互相影响。

目前,集安全、拟真、效率于一体的百万级QPS常态化链路压测诊断平台已初步具备了抗风险能力,对千万孩子的教育资源流通产生强大的辐射作用。未来,作业帮还将聚焦系统薄弱环节预判板块,持续建设内置学习模型,全面打造自动化、领先行业的赋能平台。