语雀这路子太野了

查看 316|回复 29
作者:nekoharuya   
https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw
他们的公告的链接
考虑到 v 友的水平,我抛砖引玉分析一下
这帖子的意思大概是说,由于临时工在升级维护工具的时候,工具没有严格测试,直接上生产环境,工具的 bug 导致数据库服务器下线,联系硬件团队,硬件团队说上不了线,摆烂不玩了,你们自己恢复备份吧,然后花了四个小时恢复,俩小时验证数据,成功上线
我和几个朋友讨论了下,觉得非常的,不可思议
这是 2023 年的,语雀这个体量的公司,做出来的事情
正常的架构思维里,所有的服务,就不应该跑在同一台机器上,包括数据库,最次也该是个主从集群,集群下面的机器单例再考虑 raid 之类的东西
在这个设计下,不存在上不了线开不了机这种事情,机房被修卡军团占领了都没事
至于网上传的什么之前的技术负责人跑路了,新人不会操作
就正常的 devops ,后台管理面板里,全自动维护,包括版本控制,回滚,备份,集群,镜像,机器冗余,全部自动化管理
这不该是现在的标配吗
技术负责人跑路,新人不会操作,这句话假定的前提是,这一切都是手工完成的
语雀这么大公司,表现得跟路边三五个人创业的草台班子一样

语雀, 跑路, 机器, 备份

cherbim   
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作
这么大的公司竟然选择下午升级,语雀正常用户大部分都是程序员吧,这些人一般上午开开早会,然后下午干活,正好用户使用高峰期,这个升级时间选择,就 tm 的离谱,
s7964926   
别侮辱路边三五个人创业的草台班子,他们做的会更好。
minami   
人类组织的本质都是草台班子,那些看起来不草台的无非是里面有一小部分很牛逼的人顶着没出问题
yyzh   
很正常啊,支付宝当年不也一铲子下去之后就全国都挂了.所以那些扯什么异地双活啊异地灾备啊听听就算了.
porjac233   
阿里现在真是太拉了,每年都能出个 P0 的大故障,阿里云香港机房 C 区全面故障还记得吧。
xingdaorong   
听说外包团队已经开了,不知道真假
yhxx   
盲猜是很久之前上线的服务用了阿里云的旧型号的 ECS ,不小心删掉了,就没办法再买一个原样的出来了
然后一堆服务在新型号的机器上不兼容,只能手工处理
nekoharuya
OP
  
@cherbim 正常更新时间应该是周四,这是阿里标配,我在 b 站看极海 Channel 说的,所以这个是典型的,没有走版本控制,代码审计,连自动化测试都没有,“临时工“闭着眼睛直接上生产环境的案例
4kingRAS   
很明显,是裁员了,新接手的大学生不熟练
您需要登录后才可以回帖 登录 | 立即注册

返回顶部