事故现象 线上服务不定点的不能使用, 查日志发现resin服务正在重启。 由于resin所在的服务有web监控,如果web服务没有相应,则会重启resin服务。 那到底是什么导致了无法请求到web服务呢(60秒没有相应) 故障定位
1, 首先查看相应的日志:
/data/logs/chewenwww/stdout.log 正常信息日志
/data/log
转载
2023-12-08 16:02:03
85阅读
# 如何处理 Java 线上事故
## 引言
作为一名经验丰富的开发者,处理线上事故是我们工作中常常遇到的问题。在本文中,我将向刚入行的小白开发者介绍如何处理 Java 线上事故。我将讲解整个事故处理的流程,并提供每个步骤所需要的代码示例和解释。
## 事故处理流程
下面是处理 Java 线上事故的基本步骤的表格形式:
| 步骤 | 描述
原创
2023-11-04 13:17:31
90阅读
最近遇到了一起依赖升级 + 异常数据引发的线上事故,教训惨痛,本文对此进行回故和总结。背景起因是我们使用的服务框架版本比较老,GC 次数的 metrics 打点一直为 0,咨询了相关同学后,决定升级框架。升级的过程中,出现了 useofinternalpackagexxxnotallowed 的报错,又咨询了一下相关同学后,尝试使用 go mod 解决。从 go vendor 到 go mod 的
原创
2021-02-25 09:57:43
172阅读
的add方法报错,由于线上存在问题,则先修改为以下代码上线,也就是修改为我们平时正常的写法, 上线后,观察了下日志,群里回复已
原创
2024-04-30 12:00:13
36阅读
近年来,随着云计算市场风生水起,各家云计算企业不仅纷纷发布自己的战略,并且不约而同地将联手合作伙伴提上日程。日前,以“云腾无界 智赢未来”为主题的浪潮云服务合作伙伴战略发布暨云智联盟大会在济南召开。会上浪潮发布“云腾计划”,将在3年内发展1000+云拓展合作伙伴、1000+云渠道合作伙伴、1000+云方案合作伙伴,以开放、共享、平等、共赢为原则,打造云服务生态圈,推进我国云计算、大数据产业发展。“
今天给大家分享个生产事故,一个由于 MySQL 分页导致的线上事故,事情是这样的~背景一天晚上 10 点半,下班后愉快的坐在在回家的地铁上,心里想着周末的生活怎么安排。突然电话响了起来,一看是我们的一个运维同学,顿时紧张了起来,本周的版本已经发布过了,这时候打电话一般来说是
转载
2022-05-19 09:52:46
126阅读
我们线上有个系统是有若干个服务组成,服务之间通过thrift rpc进行通信,在调用rpc服务的时候加了一层hystrix,目的是防止“雪崩”。
原创
2022-06-19 21:53:24
408阅读
最近和不少技术团队的朋友交流,大家都在为线上事故频发而头疼。吭哧吭哧跟踪了半年,各种复盘、优化,结果呢?事故依
起因:最近上线了一版关于敏感内容过滤的一个需求,半夜上线时,一切正常,but....在第二天中午时段,突然报警并有线上反馈相关功能有问题,查elk日志显示相关接口耗时很大,并且有部分连接都超时了(包括redis mysql 以及部分调用外部的http请求也是,系统响应巨慢,平常几毫秒十几毫秒的接口,突然变的无比的慢)本来是午饭午休时间,但是看到这些问题,瞬间我就清醒了,吓得我浑身哆嗦。排查说清这次
原创
2022-12-30 09:06:57
194阅读
线上事故回顾前段时间新增一个特别简单的功能,晚上上线前 Review 代码时想到公司拼搏进取的价值观临时加一行 log 日志,觉得就一行简单的日志基本上没啥问题,结果刚上完线后一堆报警,赶紧回滚了代码,找到问题删除了添加日志的代码,重新上线完毕。情景还原定义了一个 CountryDTO:public class CountryDTO {
private String country;
目录背景分析数据模拟测试解决方案小结今天给大家分享个生产事故,一个由于 MySQL 分页导致的线上事故,事情
原创
2022-07-21 16:36:25
128阅读
这篇文章将通过一个真实的线上事故,系统性地介绍:在微服务架构下,该如何正确理解并设置 RPC 接口的超时时间,让大家在开发服务端接口时有更全局的视野。图片来自 Pexels上面这张监控图,对于服务端的研发同学来说再熟悉不过了。在日常的系统维护中,“服务超时”应该属于监控报警最多的一类问题。尤其在微服务架构下,一次请求可能要经过一条很长的链路,跨多个服务调用后才能返回结果。当服务超时发生时,研发同学
原创
2020-11-02 20:14:39
757阅读
今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。第一个问题:为什么会频繁GC有过JVM经验的开发者都应该知道,GC是在内存不够时,JVM自动进行的自我救赎(删除不用的数据,释放内存空间)。那么NameNode在什么情况下会进行GC呢?在解释这个问题之前,需要明白GC的
转载
2018-05-24 20:24:00
190阅读
2评论
去年在项目当中引入了Lombok插件,着实解放了双手,代替了一些重复的简单工作(Getter,Setter,toString等方法的编写),但是,在使用的过程当中,也发现了一些坑,开始的时候并没有察觉到是Lombok的问题,后来跟踪了对应的其他组件的源码,才发现是Lombok的问题!
转载
2021-07-13 15:49:31
78阅读
作者:liuxuzxx
序言
去年在项目当中引入了Lombok插件,着实解放了双手,代替了一些重复的简单工作(Getter,Setter,toString等方法的编写),但是,在使用的过程当中,也发现了一些坑,开始的时候并没有察觉到是Lombok的问题,后来跟踪了对应的其他组件的源码,才发现是Lombok的问题!
Setter-Getter方法的坑
问题发现
我们在项目当中主要使用Lo
转载
2021-07-21 09:45:41
166阅读
优质文章,第一时间送达
作者:liuxuzxx
序言
去年在项目当中引入了Lombok插件,着实解放了双手,代替了一些重复的简单工作(Getter,Setter,toString等方法的编写),但是,在使用的过程当中,也发现了一些坑,开始的时候并没有察觉到是Lombok的问题,后来跟踪了对应的其他组件的源码,才发现是Lombok的问题!
Setter-Getter方法的坑
问题发现
我们
转载
2021-07-21 09:45:43
174阅读
多线程共享全局变量引发线上问题
原创
2023-10-14 07:19:51
125阅读
我们基础架构是用的springcloudalibaba的微服务。有一个域名原来是直接跳转到服务的ip:port,没走微服务的gateway,因此导致了一些安全问题。为了修复安全问题,把域名指向了nginx,在nginx里指向gateway,通过鉴权后再到服务。配置如下:
upstream gateway{
server 192.168.9.xxx:xxxx;
server 192.168.9.
Redis实战系列,打造精品专栏。
推荐
原创
2023-03-23 22:13:12
449阅读
线程池使用不是信手拈来,而是三思而后行,记一次线程池运用不当的线上事故
转载
2022-10-14 09:24:59
70阅读