主要有以下两个观点:
1 ,panic 直接服务直接挂掉,优点是不会产生扩散性错误,可以回档十几秒内的数据,代价是服务可能会停止一段时间
2 ,panic recover 住,然后确定问题改好之后再起服,修复相关错误数据,优点是停服时间更短,可以先修复了再部署,缺点是可能会产生扩散性错误,后面修复数据比较难。
我个人是倾向于要 recover 的,因为经过 qa 、压测之后,上线的情况 panic 的情况首先已经比较少了,我觉得保证服务器的健壮性是更好的,我们是游戏服务器,单个玩家的小概率错误不应该影响所有玩家的体验,后续进行数据修复和补偿就 ok 了。我们组内也讨论了很久这个问题。是采用的 recover 的方案,但是最近来了个资深又提起了这个问题,他属于是持有第一种观点的。不知道大家怎么看这个问题。