目前我司无线设备市场故障时常遇到以下几种问题,导致故障往往无法及时解决,造成客户口碑不良影响。
故障现象偶发性:无线体验类问题通常是偶发性的,故障现象的出现与现场环境有强相关性,而具体关联的因素存在较大的不确定性,导致后续在相同环境、用相同步骤也难以复现故障现象。
故障现场难以抓到:一个市场故障的完整参与者大概有“客户 → 锐捷省区售后 → 锐捷TAC → 锐捷研发”,受限客户业务恢复时效、部分故障一段时间后会自动恢复等原因,往往是研发介入时故障现象已经恢复,研发并没有看到故障现场,无法明确和定位问题根因。
非我司问题难以自证:在市场支持中,有相当一部分是非我司问题,但我们经常无法自证清白,而需要持续地投入定位分析客户网络拓扑配置、上联设备情况、关联服务器状态。虽然最终问题得到解决和澄清,但这部分资源属于无效投入。
用户在加密的网络上线后,如果遇到体验类问题,比如DHCP获取不到,Ping延时丢包等,由于报文被加密,且我们无法知道当前的采用的解密PTK,就算有现场抓取的无线空口报文,也难以进行解密分析。
STA-TRACE(关键终端报文跟踪)是用于跟踪关键终端并捕获关键报文的工具。关键终端报文跟踪可使用户方便快捷地收集终端上线故障信息,快速定位上线过程中终端故障边界,跟踪终端关键报文的工具。关键终端报文跟踪是识别关键报文、解析报文关键字段、分析具体含义来判断协议的交互过程是否正常,可使用户方便快捷地收集故障信息,及时排查终端故障,提高用户体验和快速定位故障。
关键终端报文跟踪是通过AC控制AP对关键终端的关键报文进行捕获。该功能充分利用了网络环境中的AP设备,能够一次性收集完整的故障现场信息,故障的处理不需要依赖于复现。能够自动识别网络异常,并自动收集故障现场关键信息,以便于故障的分析、定位,提升故障处理效率。
关键报文涉及的步骤流程如下:
关键报文涉及的具体报文类型如下:
关键报文跟踪的实现流程就是抓取特定点位的关键报文信息,以达到快速定位的效果。抓取点位如图:
1、配置命令
在AC上的con模式下配置:
配置项
|
配置建议 & 相关命令
|
|
配置关键报文跟踪服务使能 |
注意:二者必须配置其一。配置AC控制下的AP上跟踪关键报文服务开启。 | |
sta-trace enable all-trace |
使能关键报文跟踪服务过滤所有关键报文。 |
|
sta-trace enable wireless |
使能关键报文跟踪服务过滤无线端报文 |
|
配置关键终端信息 |
注意:必须配置。配置设备监听STA终端信息 | |
sta-trace sta |
配置STA的MAC信息 |
|
配置报文捕捉最大条数 |
注意:可选配置。配置抓包的条数 | |
sta-trace pkt-count |
配置redsi数据库存储的条数 |
|
配置报文存储文件大小 |
注意:可选配置。配置存储的文件大小 | |
sta-trace file-size |
配置文件存储的大小 |
|
| 显示sta当前信息 | show sta-trace sta_info | 显示sta当前信息 |
各命令使用指导如下:
2、配置举例
关键报文跟踪最小配置:
关键报文跟踪附加配置:
3、查看配置
AC上查看配置详情
AP上查看配置详情
WEB上只支持配置关键报文跟踪的开关以及跟踪的终端MAC。
如下图所示, 采集完报文信息后, 边上的↑点击可以进行下载关键报文。
关键报文下载后,需要下载报文解析工具(WEB界面上绿色小字点击),并且电脑上需要安装Wireshark才能进行解析。
下载lua,按照如下进行操作:
1、找到Wireshark的安装目录,把该文件拷贝到该目录下,如:C:\Program Files\Wireshark,查看该路径下是否有init.lua文件
2、修改init.lua文件,在其末尾添加'dofile(DATA_DIR.."test_statrace.lua")'
3、重启Wireshark或者在Wireshark界面按'ctrl+shift+l'也可以重新加载lua文件
报文打开后的效果,可以自己先进行排查,也可以采集完信息后交给研发排查。