mg冰球突破

云领将来 智启新篇 丨 mg冰球突破网络"全校一朵云"线上钻研会
date
预约直播
铸数基 · 智运维 丨 mg冰球突破乐享3.0智能运维解决规划颁布会
date
预约直播
mg冰球突破(中国区)官方网站
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
mg冰球突破(中国区)官方网站

您订阅的产品有更新 ,请实时查阅

查看详情
mg冰球突破(中国区)官方网站 mg冰球突破(中国区)官方网站

若何通过网络遥测(Network Telemetry)技术实现精密化网络运维 ?

【网络运维】本文将通过介绍基于互换机硬件芯片的网络遥测(Network Telemetry)技术规划(INT+gRPC) ,实现整网的流量可视化 ,为实现真正的可视化运维提供新的思路。

  • mg冰球突破(中国区)官方网站

    颁布功夫:2018-04-03

  • mg冰球突破(中国区)官方网站

    点击量:

  • mg冰球突破(中国区)官方网站

    点赞:

分享至

mg冰球突破(中国区)官方网站
mg冰球突破(中国区)官方网站
mg冰球突破(中国区)官方网站

我想评论

基于AI、大数据的互联网利用推动了互联网数据中心产品、技术的急剧升级。

首先 ,接入带宽从传统的10Gbps升级到25Gbps/100Gbps ,必要基础网络提供高转发能力保险业务的高可用。

其次 ,基于RDMA(Remote Direct Memory Access ,远程直接内存接见)无损以太网技术的普遍利用 ,实现了推算节点到存储节点的微秒级延时 ,大大优化端到端的业务转发机能 ,而这也意味着对网络运维提出了更高的挑战——若何在大规模、复杂的HPC(High Performance Computing)网络中实现越发精密的流量可视、可控 ?若何面向业求实现端到端的秒级故障定位 ,并为网络的持续优化提供精准的数据支持 ?

本文将通过介绍基于互换机硬件芯片的Network Telemetry技术规划(INT+gRPC) ,实现整网的流量可视化 ,为实现真正的可视化运维提供新的思路。

 

网络运维新挑战

为了确保业务的高靠得住 ,基于Scale out方式实现的散布式推算和存储利用(Hadoop/ Map reduce/HDFS)得到了大规模使用 ,不仅脱节了单服务器的推算、存储机能的限度 ,同时可提供更矫捷的扩大性 ,可能急剧响应业务需要变动 ,提高系统的靠得住性、可用性和存取效能。

然而业务自身在网络平散布是不成控的 ,因而在现实网络流量模型中不成预防会出现多对一的通讯模式 ,即 Incast模型。下图即典型的Incast通讯模型:

 

mg冰球突破(中国区)官方网站

▲ TCP Incast通讯模型示意图

 

例如 ,当一台Master节点向一组Slave节点提议一个推算工作要求时 ,所有Slave节点险些会同时返回推算了局数据 ,对于Master节点来说就产生了一个“微突发流”。对于合理的“微突发流” ,能够依附接入互换机设备内部的报文缓存机造解决微突发丢包问题。

目前 ,主流互换芯片的片上缓存比力幼 ,通常以Mbyte为单元。下图是对应1G、10G和25G互换机常用芯片的缓存容量。

 

接口速度

缓存容量

1000Mbps

4MB

10Gbps

16MB

25Gbps

32MB

▲ 带宽提升与缓存提升对比注明

 

从表中不难看出 ,网络接口速度从1Gbps发展到25Gbps ,服务器的吞吐能力增长25倍 ,而互换机芯片的缓存容量同比仅增长8倍 ,同时可用缓存功夫反而降落65%(依照互换机全端口平正使用缓存为例)。

因而 ,25G网络架构的TCP Incast景象比10G网络越发显著 ,瞬时的多打一导致出接口报文拥塞 ,出接口缓存用完后会基于尾部抛弃机造进行丢包 ,利用监测到丢包后提议TCP沉传 ,造成数据端到端延时的进一步恶化 ,严沉影响业务履历。

针对网络丢包引起的业务故障 ,必要网络监控系统急剧定位网络中哪台互换机的哪个端口因缓存不及导致了丢包。同时 ,沉要业务端到端时延超出预期时 ,也必要定位流量转发蹊径上每个节点的转发时延。

总结起来 ,必要网络监控系统实现如下能力:

●急剧定位哪台互换机的哪个端口产生丢包;

●实时监控每台互换机的Buffer使用情况;

●端到端时延能够定位到具体设备和链路。

 

运维可视化技术实现

凭借传统的网络监控伎俩无法解决“看不见”的问题 ,如时延、转发蹊径、缓存和丢包。例如 ,由表部利用提议的要求获取网络状态信息的SNMP和谈 ,就无法实时反映网络的状态。

为相识决此类难题 ,业界宽泛引入Network Telemetry(网络遥测)这一理想 ,相迸宗SNMP ,Telemetry实现了网络设备自动推送状态信息的能力 ,拥有更强的时效性。

事实上 ,Telemetry并不是新发现 ,NetFlow和sFlow早已实现了网络流量的采样和推送 ,但NetFlow、sFlow推送的是原始的数据采样信息 ,数据以IP报文体式出现给分析工具 ,而非用户进展的规范化数据模型 ,再优异的分析工具其扩大机能也难以承担整个数据中心网络的监控分析 ,只能在某一分析工作中阐扬作用。

另一方面 ,数据流量并非网络状态的全数 ,网络设备的 CPU、内存、网络拥塞信息、网络事务的日志信息等也无法通过NetFlow或者sFlow实时传递出来。

 

gRPC(Google Remote Procedure Calls  ,谷歌远程过程挪用)是Google公司开源的一个高机能、跨说话的RPC框架 ,使用HTTP/2和谈并使用Proto Buffer作为序列化和反序列化的工具。通过在互换机中集成gRPC利用 ,界说矫捷的数据体式以及数据推送的阈致反实现互换机自身状态的自动推送能力 ,能够实现周期性推送互换机Buffer Usage、CPU、Memory等信息给监控服务器。当产生Buffer不及导致丢包 ,也会实时通知给监控服务器 ,实现网络运行数据的可视化。

 

mg冰球突破(中国区)官方网站

▲ gRPC交互机造

 

上图展示了其中一种gRPC的交互机造:

●在互换机开启gRPC职能后充任gRPC 客户端角色 ,监控服务器充任gRPC服务器角色;

●互换机自动向监控服务器提议gRPC通路建连;

●互换机自动上报Buffer Usage、CPU、内存等信息给监控服务器 ,当Buffer产生丢包 ,互换机遇也会实时上报丢包事务给监控服务器。

gRPC的出现很好的解决了实时数据无法有效传给监控服务器的问题。

INT(In-band Network Telemetry)也是一种新型Telemetry和谈 ,由Barefoot、Arista、Dell、Intel和VMware共同提出。INT的出现解决了转发蹊径和转发时延不私见的问题。

INT的整体处置流程如下图所示:

 

mg冰球突破(中国区)官方网站

▲  可视化网络

 

●报文达到首节点 ,通过在互换机上设置的采样方式匹配并镜像出该报文 ,并在四层头部后插入INT头 ,将报文入端口Port ID、出端口 Port ID、入端口功夫、出端口功夫、以及设备的DEVICE ID封装成MetaData ,将MD插入到INT头部之后;

●报文转发到中央节点 ,设备匹配到INT头部后 ,在INT头部后再插入一层MD;

●报文转发到最后一跳 ,设备匹配INT头部后 ,再插入一层MD ,并在报文表部封装一个IP头(ERSPAN) ,表层IP为监控服务器地址 ,这样INT报文便转发到监控服务器。

总结:针对面向HPC业务的下一代数据中心网络 ,基于INT和gRPC的Network Telemetry技术能够实现业务端到端的网络流量可视化 ,突破“网络黑盒” ,为精密化网络运维提供整体的解决规划和必要的技术支持。

mg冰球突破网络新一代25G/100G网络互换机产品均已实现Network Telemetry能力(gRPC和INT) ,若是您对网络遥测感兴致 ,欢迎留言互换。

 

本文作者:陈冬林

mg冰球突破网络互联网系统部行业征询

mg冰球突破(中国区)官方网站

 

往期杰出回首

【第一期】浅谈物联网技术之通讯和谈的纷争

 

有关推荐:

• 相识gRPC技术 ,这一篇就够了

更多技术博文

任何必要 ,请联系mg冰球突破

mg冰球突破(中国区)官方网站

返回顶部

收起
mg冰球突破(中国区)官方网站 文档AI副手
mg冰球突破(中国区)官方网站 文档评价
ev-close ev-close-m
该资料是否解决了您的问题 ?
ev-close ev-close-m
您对当前页面的中意度若何 ?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。 ?
您对文档是否还有其它的问题或建议 ?
为尽快解决问题 ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
mg冰球突破(中国区)官方网站
mg冰球突破(中国区)官方网站
mg冰球突破(中国区)官方网站
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】