事故_51CTO博客
  事故现象 线上服务不定点的不能使用, 查日志发现resin服务正在重启。 由于resin所在的服务有web监控,如果web服务没有相应,则会重启resin服务。 那到底是什么导致了无法请求到web服务呢(60秒没有相应) 故障定位 1, 首先查看相应的日志: /data/logs/chewenwww/stdout.log 正常信息日志 /data/log
转载 2023-12-08 16:02:03
85阅读
做为企业的信息核心,机房的重要性非常突出,一旦发生影响正常使用的问题,那么在解决问题之后,写一份详细的事故报告就是非常重要。通过这份报告,一方面会追究责任,找出是如何造成的原因,另一方面引以为戒,避免日后再发生类似的问题。事故报告相当于生产企业的安全通报,大家都详细了解问题发生的原因,以后才能避免,大家也能够引起重视。<?xml:namespace prefix = o ns = "urn:
转载 2024-01-17 16:01:22
96阅读
   线上有正常运营的项目文件XXXX 文件夹   研发需求将测试上的XXXXX项目部署到正式的线上服务器,成为另外一个单独项目(做了很多改动的版本)     文件夹较大打包压缩以后都有5.7G,由我直接后台打包传送过去   tar -zcvf king.XXXX.com.tar.gz xxxx.com/  
tar
原创 2013-03-18 09:35:20
583阅读
(此文记录运维事故,为类似问题提供参考。)    大约下午4点,发现一台主机web应用无法访问,迅速启动远程桌面管理,结果是无法响应,此时ping主机地址不通。    此时去机房查看问题,刀箱显示面板报8errors,点击面板选择键,异常缓慢。与hp客服沟通后初步判断为刀箱OA故障,等待备件到达。    等待期间,发现与故障主机同段地址中
原创 2014-02-25 09:16:40
951阅读
2点赞
1 resttemplate与close_wait 背景,植入resttemplate请求对外数据,发现每次请求会新建一个连接,而且完了也不关,显示close_wait,显然,在1分钟establish状态后,对方发起fin,我方ack,然后没有发fin,到这四次挥手就中断了 在以前的tcp实际中也
转载 2021-04-28 17:50:00
384阅读
2评论
# MySQL生产事故 在大规模的软件开发和运维项目中,MySQL数据库是常用的关系型数据库管理系统。然而,由于人为失误、硬件故障、网络问题等原因,MySQL生产环境中的事故时有发生。本文将介绍一些常见的MySQL生产事故,以及如何预防和解决这些问题。 ## 常见的MySQL生产事故 ### 1. 数据库性能问题 当用户量增大或者业务逻辑复杂时,数据库性能问题可能会导致响应时间延长、系统崩
原创 2023-08-16 09:37:58
59阅读
      在上一篇文章中,跟大家介绍了队列的使用,在基于数据库的队列的是实现中,提到了可以使用事件处理机制类进行队列数据的处理。今天就来简单看看事件处理机制是怎么使用的。      首先我们需要一个事件的实体类:Eventimport java.util.concurrent.atomic.Ato
 HDFS作为Hadoop两大构成部分之一,是Hadoop自带的分布式文件系统,以流式数据访问形式来存储大文件。以下是HDFS的架构图 这个架构图,我认为完全可以将它看作一个间谍特工组织。可以讲一个美剧中常有的故事来说,美国CIA拥有强大的间谍情报网络,并且在不同的国家都有隐蔽的情报组织。CIA在不同国家的情报组织名字均为NameNode,也就是的很多NameNode情报组织共同构成了
--
原创 2022-08-18 17:39:40
520阅读
#####
原创 2022-08-02 17:33:51
58阅读
# 如何处理 Java 线上事故 ## 引言 作为一名经验丰富的开发者,处理线上事故是我们工作中常常遇到的问题。在本文中,我将向刚入行的小白开发者介绍如何处理 Java 线上事故。我将讲解整个事故处理的流程,并提供每个步骤所需要的代码示例和解释。 ## 事故处理流程 下面是处理 Java 线上事故的基本步骤的表格形式: | 步骤 | 描述
原创 2023-11-04 13:17:31
90阅读
算法同学想自己提升下主机的glibc版本,区别运维同学使用container的方式来解决环境问题。他们直接做以下操作 wget http://ftp.gnu.org/gnu/glibc/glibc-2.28.tar.gz tar zxvf glibc-2.28.tar.gz cd glibc-2.2 ...
转载 2021-09-16 10:57:00
675阅读
2评论
ITIL学习-知识管理和服务级别管理ITIL学习-变更管理和配置管理ITIL学习-问题管理和访问管理ITIL学习-事故管理ITIL学习-运营、技术、应用管理和技术管理ITIL学习-作用、原则、生命周期事故管理视频链接事故:it服务无计划中断或者it服务质量下降目标:尽快恢复正常服务运营(asap)来源:告警,用户通告,技术人员价值:检测和解决事故的能力,减少业务停机时间,支持服务期的高可用性事故
原创 2020-06-28 15:13:13
1611阅读
1. 【强制】关于 hashCode 和 equals 的处理,遵循如下规则: 1) 只要重写 equals,就必须重写 hashCode。 2) 因为 Set 存储的是不重复的对象,依据 hashCode 和 equals 进行判断,所以 Set 存储的对象必须重写 这两个方法。 3) 如果自定义对象作为 Map 的键,那么必须覆写 hashCode 和 equals。说明:String 因为重
十字路口发生交通事故,很多人在围观。一晚到的人想看个究竟,但挤不进去。便急中生智,大声嚷到:“快闪开,让我进去,我是伤者的父亲。”人们闪开了路,此人走近一看,原来是一头受伤的驴躺在地上,众人哄堂大笑。
转载 2007-11-11 23:33:42
497阅读
为加强和规范紧急事故/故障的处理和报告流程,保证事故/故障的快速恢复,使事故损失降低到最低程度,特制定本制度。 一、适用范围 本流程适用于XXX所有产品线,所有线上的事故处理。 线上事故是指在线上服务中出现的功能故障或中断、数据错误等现象,对用户体检、流量、收入、品牌产生严重影响的现象。 除通常意义
最近遇到了一起依赖升级 + 异常数据引发的线上事故,教训惨痛,本文对此进行回故和总结。背景起因是我们使用的服务框架版本比较老,GC 次数的 metrics 打点一直为 0,咨询了相关同学后,决定升级框架。升级的过程中,出现了 useofinternalpackagexxxnotallowed 的报错,又咨询了一下相关同学后,尝试使用 go mod 解决。从 go vendor 到 go mod 的
原创 2021-02-25 09:57:43
167阅读
前言这是帅丙真实事件,大家都知道很多公司都是有故障等级这么一说的,这就是敖丙在公司背的P0级故障,敖丙差点因此被解雇,事情经过十分惊心动魄,我的心脏病都差点复发。事故等级主要针对生产环境,划分依据类似于bug等级。P0属于最高级别事故,比如崩溃,页面无法访问,主流程不通,主功能未实现,或者在影响面上影响很大(即使bug本身不严重)。P1事故属于高级别事故,一般属于主功能上的分支,支线流程,核心次功
语雀10.23事故分析语雀公告:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw事故原因:领会员欢迎关注公-众-号【TaonyDaily】、留言、评论,一起学习。Don’t reinvent the wheel, library code is there to help.文章来源:刘俊涛的博客若有帮助到您,欢迎点赞、转发、支持,您的支持是对我坚持
原创 2023-10-25 12:59:04
148阅读
【现象】:EJF调用PLM的接口,短时间内出现大量下单请求,导致网络阻塞,数据库连接池达到上限,接口崩溃; 【环境】:服务器使用的是阿里云,centos7 + docker + redis + netcore,网络带宽5M,数据库最大连接数设置了3000; 【分析】:接口出现崩溃现象后—— 1、检查
转载 2019-10-25 16:02:00
85阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5