当前位置: 首页 > 新闻动态 > 数据应用
独家复盘“双11”:你经历的“双11”,你不知道的旺季服务保障

来源: 中国邮政快递报

日期:2020-11-27 16:17:00

【字体:

每年“双11”,我国快递业务单日处理量峰值都会被刷新。在这个全民网购狂欢的不眠之夜,国家邮政局局长马军胜、副局长刘君总会到中国快递“最强大脑”前坐镇指挥,科学研判,精准调度,逐渐形成并完善“错峰发货、均衡推进”核心机制,确保圆满完成旺季服务保障工作。在运筹帷幄背后,日渐进化的中国快递大数据平台提供了强力支撑。历年“双11”平稳度峰的背后,是谁在为行业的尖峰时刻保驾护航?一年上一个百亿台阶的中国快递如何依靠大数据实现“全网不瘫痪、重要节点不爆仓”?且看独家复盘“双11”旺季服务保障,揭秘那些你不知道的背后的故事。

屡次有惊无险

确保系统平稳度峰

“最强大脑”保障团队从“双11”快递旺季服务的概念形成初始,就开启了每年一度的技术保障序幕,见证着行业的每一个重要时刻,转眼间已是十年。这个团队在茫然中摸索,在青涩中历练,在演进中蜕变,虽也曾不知所措,也曾经历惊险时刻,但他们承受住了考验,一路从被动走向主动,再走到如今的创新驱动。每年“双11”的保障周期虽然辛苦,但对于这个团队来说却充满仪式感,有种“春晚”的感觉,一年的辛苦准备都要在这一天集中接受检阅。 

 2014年中国快递年业务量首次突破百亿大关,超越美国成为世界第一。也是在这一年,“最强大脑”遭遇了一次差点“出师未捷身先死”的危机。

按照惯例,技术保障团队在每年“双11”前都要对数据传输网络进行临时升级。2014年“双11”恰逢APEC会议在京举行,网络运营商要优先保障外事活动。团队反复协调运营商,却一直没有得到肯定的答复。如果网络无法及时增加带宽,那将面临数据在入口处就发生拥堵,影响主要快递企业的数据传输甚至生产正常运行。

时间僵持到了11月10日23时30分许,团队每个人都处于焦灼状态,只能求助于上级领导,经过紧急协商,运营商最终同意在10日24时准时割接。真是有惊无险,流量在11日零时过后瞬时跃到预期峰值时,看着不断跳动的数据,团队所有人都松了一口气,一场保障事故得以避免,也为以后的保障积累了丰富的经验。

惊险时刻绝不止这一次。多年前,参与保障的系统还是一个集中处理的传统I0E架构,每年的保障都要不断增加存储和内存等核心资源配件。2015年11月10日20时许,硬件监测人员发出紧急告警,CPU使用率已经到99.9%,硬件处于极限状态,随时都有可能异常关机。

“能不能停机?”“能不能停一下任务?”“不能!不能!”团队里弥漫着紧张的气氛。此时,正是“双11”当天数据量最高峰来临的时刻,系统已经接近了极限。所有人都屏住呼吸,1分钟、2分钟、3分钟……前端人员监测到数据高峰开始有下降趋势,但是硬件显示还是99.9%的占有率。“坚持、再坚持!”5分钟后,屏幕上显示的CPU占用率开始有波动,不再满格跑了。“开始回落了!”濒临关机的小型机绑着整个团队在“悬崖”边上晃了一圈又回来了!大家盯着开始上下浮动的指标,长长舒了一口气。

2016年“双11”,午饭过后,保障团队静待数据洪峰来临。突然,大数据集群运转开始报警,出现异常!已经影响系统正常运行,团队立即响应,迅速查找原因并进行定位。原来是某台集群核心节点出现硬件故障需要现场处置,而机房在5公里之外。项目团队核心负责人不假思索立即驱车前往机房,不料天不遂人愿,在赶往机房途中发生被追尾的交通事故。此时,数据积压开始出现,项目组不断催问进展,项目团队核心负责人咬咬牙,放走了肇事司机,把故障标志一立,抄起电脑包就跑,一路狂奔到两公里外的机房把故障排除,成功处置了这场事故。

正是在一次次的危机中,技术保障团队在摸索、历练中一步步从青涩走向成熟,成长为一支来之能战、战之能胜的“威武之师”。 

见证每一个历史瞬间

都是最幸福的时刻

 “双11”技术保障的个中艰辛不言而喻。但挥洒的汗水和泪水,终有一天会收获幸福的喜悦。

每年“双11”,保障团队通常从10日的23时开始进入战备状态,一直到15日或16日,且每天都要保持24小时的战时状态。特别是11日当天,从零点开始,团队全员全部进入高度紧张的保障阶段,一直盯着后台系统的主要指标数据,丝毫不敢松懈。“双11”当晚,国家邮政局局长马军胜、副局长刘君坐镇指挥,主要保障团队和指挥小组也都聚集在大屏幕前,目不转睛盯着跳动的数字。

目前,行业已经进入日均亿件时代,这在2014年以前是不敢想象的。行业单日过亿的时刻出现在2014年的“双11”,那时团队还没有这种数据概念,当看到屏幕上实时的数据9990万的时候,所有人才意识到一个值得记录的重要历史时刻已经来临,现场所有人都屏住呼吸。“过亿了……”数字变成9位数的那一瞬间,每一名成员开始振臂欢呼,笑声中有淋漓的畅快,有见证的喜悦,也有更多的期待。

“过了2亿件!”“超过去年峰值数了!”“突破3亿件了!”……2014年后,坐上世界第一宝座的中国快递疾驰步伐更快、更稳了。每个“双11”,当时针指向23:59,技术保障团队整齐地读秒:“10、9、8、7……2、1!”每年11月11日24时被定格的数据都是新的日峰值纪录。对于团队来说,这是一个特殊的时刻,这意味着技术保障团队再一次见证了历史,也意味着当年“双11”“现场直播”式的保障取得了第一步的成功,为旺季服务保障打下了最坚实的基础。

定格的数据在下一秒就会被清零,然后重新计数。团队则开始分批吃夜宵,在这个特殊的“深夜食堂”,大家一边意犹未尽地谈论刚才的TPS峰值和技术参数,一边品尝这难得的一场大战后的宁静和轻松。

短暂的放松后,另一个考验马上就要到了,那就是刚刚接收进来的数据能不能及时清洗计算。因为第二天早上7时30分,全国都要等着看各种业务指标了。这是一个不小的考验,数十亿条的数据,要分区域分企业计算出复杂的业务指标,这中间只给了系统和技术保障团队4~5个小时的时间。每一名成员都丝毫不敢放松,一个任务执行完毕,马上有专门团队跟进确认,接着再盯着下一个任务执行,遇到有资源问题随时根据实际情况优化调整,耐心细致地调整每一个优化参数。清晨5时左右,当耗时最长的最后一个任务顺利执行完,没有出现报错中止,大家才可以长长舒一口气。

窗外天边已经有了微光,太阳要出来了,大家都还在兴奋中,没有丝毫睡意。团队不仅把数据接进来了,还把海量数据按既定程序计算了出来。这个时候,接力棒传到了数据报告团队,从凌晨4时开始准备抽数,马上处理数据,反复核对、打磨,早上8时30分就要把全部指标分析结果发全国,几十页的深度分析报告,分量极重,要求极高,不能有前后左右的数字偏差,还要有足够的深度。

晨间的央视新闻频道正在直播《朝闻天下》,电视里正在报道“双11”的新闻。“国家邮政局……”,央视直播画面中出现了前一天夜里采集的团队建设和系统运营的场景,大家纷纷拿出手机定格这个短暂的画面,疲倦的脸上洋溢着欣喜和骄傲,发朋友圈广而告之……

 

“千里眼”和“火眼金睛”

是这样炼成的

“回想2014年,当时只有少部分省市开展视频监控平台建设,涉及300个点位和4000多路摄像头;安全中心成立后大力推进视频联网项目,如今全国31个省、357个地市的转运中心和收寄场所,有数万个视频和联网摄像头……”说起这些年邮政业监管技术的变化,国家邮政局邮政业安全中心技术保障处处长邱培刚心中有“数”。

视频监控联网系统是行业监管的“千里眼”,今年实现了智能化改造。邱培刚介绍,今年接入了大量重点网点和仓储、无人机、航空货运、自动分拣机器人、高速分拣设备的视频信号;同时更引入智能分析系统,可通过AI识别暴力分拣、安检员不在岗、网点异常、跨越传送带和火灾等5种异常场景并及时预警,图像质量和丰富程度都提高了。这也意味着监管部门在不增加人手的情况,就能用技术手段实现安全生产情况的监管

被称为监管部门“火眼金睛”的安检机联网项目更是在今年取得了巨大突破:6省11市的安检机进行联网试点,把安检机和智能物联网设备结合,在不增加企业成本的前提下,提升监管效能。“大家把安全提到了前所未有的高度,安检机联网项目也为寄递安全‘三项制度’的技术监管奠定了基础。”邱培刚说。

今年还是省市邮政管理局基础硬件设施特别是监控大屏大规模建设的一年,邱培刚负责的监控中心项目,建设覆盖率从去年“双11”的22%增加到71%,实现了地市运行监测、远程监控、指挥调度、视频会商和系统展现等多功能为一体的综合平台,可以对绿盾工程建设的信息系统进行展现,在各地行业运行监测、重大活动服务保障等方面发挥了重要作用。

这个“双11”,邱培刚所在的数据资源项目组主要保障各企业数据传输稳定,负责网络带宽监控、服务器性能实时监控、接口运行状况监控、与企业对接实时数据、大数据性能监控等工作。为此,项目组提前进行了3轮压力测试,并对资源管理、性能测算、网络消耗、人员保障等做了预案。

今年“双11”还是合肥灾备中心的首秀。全行业克服疫情影响,合肥灾备中心正式投入使用,安全中心有关负责人带队现场保障,首次实现两地的“双重保障和调度”。为了保证“双11”数据资源传输稳定,邱培刚和项目组对企业接口侧的技术架构和接口管理形式进行改造,使系统从数据源到数据处理的过程都有优化和提升。

“11日当天,接口传输数据总量比去年同期增长31.7%,这是过去几年无法想象的数据量。”邱培刚感叹,得益于国家局党组的重视和全中心的努力,安全中心又一次顺利完成保障目标,“在海量数据的情况下实现平稳传输,也足以看出监管部门数据处理能力提高和技术手段的进步。”

 

软件硬件全面升级

平稳度过“双11”

11月10日深夜到12日凌晨,紧张守候在国家邮政局邮政业安全中心“最强大脑”大屏幕前的,还有邮政业安全监管信息系统项目组核心保障(以下简称“项目组”)的人员,其中包括高级项目经理张彬和运维负责人王必红。

看到系统全程运行平稳,没有出现任何意外,他们欣慰地松了一口气。关于今年“双11”期间的运行情况,他们都认为“比去年更加顺利了”。

“我们的技术越来越成熟,主要在接口层面和大数据层面进行了优化和提升。”张彬告诉《中国邮政快递报》记者,在接口层面,原来每家企业都是单独管理,今年所有企业统一接口、统一管理,这样可以快速有效地对资源进行动态分配。“数据变化极快是邮政快递业的特点,统一接口可以弹性处理邮政快递业大量的、时刻在变动的数据,提高了服务器的容错率,保障数据接入的快速稳定。”

在大数据层面,项目组提前在“双11”压力测试时找到较高的负载值,做到动态负载均衡。就像企业的资源调配一样,对服务器资源在短时间内进行优化和调配。

张彬介绍说,项目组从8月份开始就与每家企业进行对接,根据企业各自的实际情况对系统进行调整,保持传输标准的统一,从数据源到数据处理过程都进行了优化,扩展性和容错率都进一步增强了。如果个别服务器或者个别环节出现问题,都能马上进行及时补救,确保整个系统平稳运行。

“双11”对于项目组来说是一个大事件,他们把人手加派到数十人,比平时多了近50%,还制定了全方位的运维方案,在资源、管理、服务、测算、网络等方面都有风险应对预案。“双11”当晚,张彬在安全中心现场全程紧盯,项目组按不同工种细分,在前方汇报和后方大数据、分析记录等方面提供保障。

“今年‘双11’期间总体来说很平稳,11日当天没有出现任何问题。”王必红认为今年能够顺利度过“双11”主要有两大原因:一是11月1日~3日的第一波网购高峰分流了一部分压力,二是系统在硬件和软件上进行了全面升级。

王必红介绍说,服务器规模相较去年增加了20%。网络也从一条1.2G的带宽升级为2条线,其中电信带宽2G,移动带宽1G。这使得数据传输明显提速,确保从前端接口到数据传输不中断。

“即使偶尔有短暂的数据积压,都是在可控的正常范围内,我一直在现场,但是没有出现任何需要我紧急处理的情况。”王必红笑着说。

 

为保障旺季

准备了三十多套预案

11月11日,国家邮政局邮政业安全中心(以下简称“安全中心”),一块长16米、高近2米的巨型曲面屏上滚动着全行业的实时数据,成为所有目光的焦点。中国快递大数据平台是全国邮政快递业的“大脑”,这块大屏幕是大数据平台最直观的“脑电图”。

“中心从3个月前就进入了筹备阶段,一共准备了30多套预案,就是要保证11月11日峰值期间系统安全、平稳运行,可视化内容清晰、直观。”任仰奇来自安全中心技术保障处,这个“双11”,他承担快递大数据平台大屏幕可视化展现内容的支撑和保障工作。

“大数据平台升级换代,今年屏幕上的内容更丰富。”任仰奇介绍,经过多年积累,安全中心所负责的相关信息化系统已经实现了从揽收、运输、分拣、安检、投递到投诉、申诉等各环节全生命周期的数据管控;通过对快递企业生产环节的视频摄像头的接入实时掌控快递企业分拨中心作业情况。依托数据挖掘,大屏幕可以展现全国快递业务量、农产品包裹地图、快递进村协同平台、快递员点亮中国等实时数据。大数据平台还能对全国寄递主干路、寄递用户行为轨迹、全国寄递商品流通、寄递业支持农产品流通等方面进行评估和分析。

尤其值得关注的是,今年受疫情影响,为了保证快递员的健康和安全,安全中心专门开发了特色的数字化战疫产品,可以统计快递员健康状况并进行动态跟踪管理。

这些内容,甚至从数据中挖掘出的深入信息,都能在这个大屏幕上展现出来。比如当鼠标停留在农特产品模块的时候,大屏幕上就能呈现出农特产品实时寄递情况、每月每季度乃至全年收寄量。

今年新增了主会场与合肥灾备中心通话的环节,合肥灾备中心是“绿盾”工程项目建设的重要内容之一,在今年“双11”期间承担了主机房的功能,中心分管领导赴现场指挥调度,主会场远程连线合肥,国家邮政局领导在连线过程中对合肥灾备中心提出了相关工作要求,实时跟踪掌握机房运行状况。

“主会场大屏幕的展示需要20多路信号源的配合,还要在多个系统之间进行切换。”任仰奇告诉记者,平台稳定运行背后是技术力量的支撑和后备力量的保障。为了做好快递旺季保障工作,他和团队准备了30多套预案,并且提前进行多次演练,保证系统切换时的稳定。

“我记得2015年我经历的第一个‘双11’,中心只需要500M带宽用来传输数据;5年过去了,今年为信息系统准备了3G带宽资源。”任仰奇感慨,随着行业业务量爆发式增长,信息系统更上一层楼,“我们的数据服务产品更多、分析角度更广、数据产品质量更高,对全行业的支撑保障能力也更强了,我为见证了行业数字化水平的提升而感到荣幸。”任仰奇说。