十三起惨痛宕机案例,如何在服务器在线模式诊断硬件故障

多多痛的会心:十三起惨恻宕机案例,驾驭十三起案例

社区有繁多弟兄共享悲戚宕机案例,提醒大家需警惕,以下介绍几起,满满都以血的训诫……

(以下案例来自社区多位会员分享,首要由社区专家孙伟光、崔增顺编辑整理)

**

01

AIX 下 NTP 设置不当产生的多少个集群宕机

政工作时间有爆发在一段时间从前,接到朋友电话,客户有三套 oracle rac 集群运转在
aix
小机上,本地两套,同城机房两套,做完设备搬迁后的一天夜里,个中本地和同城的两套
rac 骤然就全数重启了,并且发生在平等时间点。

网络、小机、存款和储蓄、数据库分属不一致的维保商家,那就开端了口角。各家就起来从自身的矛头自证无过错。笔者去从前内心也正如帮忙于
oracle 的网络心跳出了难点,crs 抢 vote disk
的时候接触了重启。但鉴于是小机方的表示,仅从 aix
层面做了排查,未察觉明显原因。对各主机宕机的时光做了叁个梳理,去和
oracle 的风浪日志去比对。临时没查到何以事物。

宕机发生的 dump 发到了 IBM 原厂,IBM 后来出了个报告,依据 dump
内容牢固触发宕机的进度为 cssd。oracle dba
重视看了老大进程的日记,开掘宕机时间前后,时间忽地改造,提前了40多秒。dba
确认,时间转移过多,cssd 进度会导致系统重启,质疑和时间共同有关。

经济检察查,3套 aix 的 rac 集群使用了同贰个 ntp
server,但有一套没发生难题。相比检查差距,开采没难点的那套主机集群使用
xntpd 格局安顿了光阴共同。出题指标主机则直接行使了 ntpdate
命令做时间更新,并写入了 crontab 定时施行。检查 /var/adm/cron/log
日志,开掘定期职务的奉行时间和 cssd
故障时间同一。检查时间服务器,开掘搬迁后,时间服务器的时光发出了异常的大偏差,xntpd
格局的年华一齐在时刻不是大时不会去强制同步,ntpdate
命令的艺术未有那些限制,会一向开展同步。最终形成了 cssd
进程检查实验到过大时间不是后触发了宕机。

**经验分享:配置时间共同不经常间,提出使用 xntpd
服务的艺术,**不用直接在定期任务里写 ntpdate,因为 ntpdate
比较野蛮,爆发故障时极大的时日不是会促成应用出现难点,触发不能预感的结局。

由社区会员王巧雷分享

02

运用爱数备份一体机导致宕机

二〇一八年我们正好入手了一台爱数备份一体机,在测量试验阶段境遇了三个小例子和豪门大快朵颐一下:

当下测量检验各样数码的备份和效应,就在一台系统上设置了爱数备份的代理顾客端,客商端安装选项中有一项安装
CDP 驱动。
那时并不曾放在心上,后来晋升顾客端版本,其余做了一些别的测验,就把代理客商端卸载了,可是并不曾先去卸载
CDP
驱动,重启后系统就平昔起不来了,和爱数的本领援救交换后了然,急需先卸载CDP驱动,再卸载客户端,否则CDP 驱动存在的时候,就能够导致系统运行战败。

由社区会员“pysx0503”分享

03

经文双机双存款和储蓄,某晚主存款和储蓄极度故障,业务立时脚刹踏板

客商精彩的双机双仓库储存高可用建设方案。IBM 2*P570 PowerHA6.1
两台南端存储通过 lvm mirror
完毕的多寡镜像,下边跑着顾客信用贷款系统,报表系统,存款和储蓄压力比较繁忙。客商每年都会成功二回HA
切换练习保险工作高可用。某晚叁次存款和储蓄电源故障,电源还没展现急更改,此外一个电源也坏了。那样主存款和储蓄宕机了。恰巧那一年专业也随即终止了,客商电话里说刚做完的
Powerha 的排戏,很顺畅。可前些天发出的那件事却百思不得其解。

后来透过大批量的日记和与客户调换得知,客户从前的一个操作给本次的事体暂停埋下了四个大大的”地雷”。

毕竟顾客本人做的什么样操作造成的此番风浪吧?

客户业务系统有一个文件系统存款和储蓄空间相当不足了,须要扩大容积,可是当前分享 vg
里的上空无法满了,须要重新加新的磁盘到 vg
里,存款和储蓄管理员分配新的磁盘给两台主机,然后客户通过 Powerha cspoc
去加盘,扩大容积 FS。就是这么二个操作导致的标题发出。

经历分享:lvm mirror 双存款和储蓄的气象下,我们扩 fs 须求潜心先扩 LV,再扩
fs,那样能有限协助数据正确分布在2个存储上,
假使在客户这种情景新加磁盘后直接扩fs,那就能够形成数据拷贝是2份,可是不可能正确地保管分布在四个存款和储蓄上,有比非常的大希望存款和储蓄A布满百分之八十存款和储蓄B布满1一成。那样一台存款和储蓄故障,就能够一贯导致数据的不完全。

由社区会员孙伟光分享

04

HACMP NODE ID 一致导致故障宕机

故障描述:

前天在论坛闲逛,开采一兄弟的帖子“Power HA
在这之中一台至极宕机”(发布者:yangming27),点走入一看,发掘故障描述和报错新闻和自己在此以前境遇的一丝一毫等同,依赖提醒和血的训诫,特将该难点编写成案例,希望我们殷鉴不远!

我们生产意况有 PowerVM 虚构化后的 AIX 设想机2台,灾备意况有 PowerVM
虚构化后 AIX 设想机1台,三台虚构机通过 PowerHA XD(基于 SVC PPRC
远程复制)搭建了跨中央高可用景况,操作系统版本为7.1.2.3,HA
版本为7.1.2.6,搭建该条件在此之前,生产条件的两台 AIX 是透过 HAMCP
搭建了地面包车型客车高可用情形,为了灾备建设急需,将地面包车型大巴1台主机通过
alt_disk_copy 的不二等秘书籍复制了一份 rootvg 至外置存款和储蓄,并将该外置存款和储蓄通过
SVC PPRC
复制至灾备存储卷在那之中,灾备的虚拟机再挂载该卷,并通过该卷运营操作系统。这样三台
AIX 设想机再重新搭建了PowerHA XD,达成跨主旨 HA 热备。

由此这种办法,我们搭建了三套系统,均通过了 HA
切换测量检验,可是运维了一段时间后,当中一套系统的主机故障宕机(关机),财富组切向了备机,开采标题后,第不经常间查看
errpt 日志,如下(这里借用 yangming27帖子中的日志截图)

故障剖析:

鉴于操作系统没有开 always allow dump,所以并未发出 dump
文件,那时解析了比较久日志,相当纳闷不解,最后只得交给给 IBM
后台进行剖释,后台也是不菲天都并未有答复。过了一个星期后,第二套系统也油然则生了同样的场景,同样的故障,形成主备
HA 切换,我开头匪夷所思是 HACMP XD
实践难点,立马翻阅了眨眼间间实践文书档案,开掘在做 alt_disk_copy 时只用了
alt_disk_copy -d hdiskx,前面并不曾用-O -B
-C参数,这一个参数主假诺用来复制rootvg时,删除原操作系统的安顿消息和 ODM
库的片段音信,那样一来或然就能够招致生产主机和灾备备机的操作系统某个新闻一样。基于这种疑神疑鬼,作者复看了
errpt 报错记录,宕机的根本原因应该是以下多少个点:

IBM.StorageRM daemon has been stopped

Group Services daemon stopped

Group Services detected a failure

QUORUM LOST,VOLUME GROUP GROUP CLOSING

质疑是不是是 QUORUM 中保存的两个主备节点消息一致,导致 QUORUM 关闭。

继之在生育主机械运输维命令

odmget -q “attribute=’node_uuid'” CuAt

输出:CuAt: name = “cluster0” attribute = “node_uuid” value =
“673018b0-7a70-11e5-91fa-f9fe9b9bc3c6” type = “R” generic = “DU” rep =
“s” nls_index = 3

在灾备主机运转命令 odmget -q “attribute=’node_uuid'” CuAt

输出:CuAt: name = “cluster0” attribute = “node_uuid” value =
“67301842-7a70-11e5-91fa-f9fe9b9bc3c6” type = “R” generic = “DU” rep =
“s” nls_index = 3

生产主机械运输转命令

/usr/sbin/rsct/bin/lsnodeid

灾备主机械运输转命令

/usr/sbin/rsct/bin/lsnodeid

上述开掘多少个节点的 EnclaveSCT NODE ID 完全一致

那正是促成音信争辨的点,形成了主服务结束和 QUORUM 仲裁关闭的罪魁。

故障消除:

1.将 PowerHA XD 的 HA 服务整个关门,禁绝 HA 组服务的掩护,并运维命令

/usr/sbin/rsct/bin/hags_stopdms -s cthags

/usr/sbin/rsct/bin/hags_disable_client_kill -s cthags

2.停止 HA 的 ConfigRM 服务和 cthags 服务

stopsrc -s IBM.ConfigRM stopsrc -s cthags

3.重新配置 ENCORESCT 节点

/usr/sbin/rsct/install/bin/recfgct

4.重启全体3台操作系统

shutdown -Fr

5.起动 HACMP 服务和财富组,并检讨 冠道SCT NODE ID

经历分享:透过上述措施,深透化解了三套系统的 HACMP
主机宕机难题,建议之后做类似 alt_disk_copy 时,一定要带上-B -C
-O参数,保持新操作系统的洁净,
幸免际遇类似的莫明其妙的标题。

由社区会员“jxnxsdengyu”分享

05

Power 570/595 宕机

业务起因:

鉴于机械宕机是在星期六,是顾客的主干应用,但周天客商未有人上班,当周二上班的时候发现具备的办公,邮件系统等十分之五的中坚应用无法访谈,经超过实际地机房管理职员的临时排查,开掘小机
Power595 后边全部的 I/O 柜掉电,Power570 黄灯亮起,绿灯慢闪。

程序员达到现场,依据与客商联系好结果,大家起始工作,差非常少折腾了6个钟头,Power595
依然尚未运行起来,但 power570
能够符合规律访谈了。为了尽早让顾客生产数据,大家近来决定,用 power570
有时做个 lpar
让存款和储蓄链接过来,先拉起应用,再又煎熬了3个多小时之后,全部应用都足以健康访问。大家后续排查Power595,我们转移了
CEC DCA 内存板,CPU 都并未有减轻难点,最终改动了 pubook
难点化解了,花费时间3天。

主题材料原因:

电工资制度改善造线路,产生了机房断电,UPS
有的时候接管,由于电瓶放了太久,机器功率太大,造成低电压运维,形成设备不可能健康专门的职业,更为首要的是电工出现难点现在未有即时检查电路,根据师傅的陈述差十分的少过了1分钟又把调换电送出去,那几个电压冲击是十分的屌的,经排查此电工无证施工,顾客已经说投诉讼。

由社区会员“shizhe1030”分享

06

ERP 备份导致的一同宕机案例

气象回想:

某日上午,在那之中一台 ERP 数据库主机宕机。AIX.5.3 HACMP RAC 数据库情形。

故障剖判:

宕机时间点是在备份时期。通过分析数据库日志、系统日志、开采变成数据库停库的首要性缘由是由于
HACMP 的三个守护进程 haemd 产生自动重启,由于 oracle 数据库和 haemd
进度之间关于联,因而数据库在发现 haemd 重新开动后也自动结束。

经 IBM 程序员及实验室分析,Haemd
自动重新开动的原因是由于在早末尾时代间内(参数为2秒钟)未有给 HACMP
系统响应,其缘由之一是由于系统过于繁忙,未有响应 Haemd。

进而分析结果发掘在备份时期,从存款和储蓄看系统不是很辛劳;但 ERP
数据库服务器主机品质极度:一时见面世阶段性的不响应现象,同有的时候候系统 I/O
高。截至备份后,这种场地不复存在。

经 IBM 实验室协理,发轫经过分析:

1)AIX
系统内部存储器分为总括类和非总计类内存。非计算类内部存款和储蓄器首要用于文书操作CACHE,以便进步公文再次读写的习性。近来ERP 生产数据库占用了近20G内部存款和储蓄器作为文件系统 CACHE。

2)当文件系统 CACHE 有空中时,写文件操作将不会时有爆发鸿沟,当文件系统 CACHE
无空间时,系统将会依据个中政策,挤出一些 CACHE。当不能找到空闲的 CACHE
时,会等待系统调动出空闲的
CACHE。当出现大批量守候时,系统可能出现无响应的情景。

焚林而猎方案:

虚构到后天数据量的增添,假设无法解决非常大 I/O
对系统的影响过大的标题,这些隐患将直接存在。

调动该备份文件系统的品质,在该文件系统的 I/O
乞请达到一定值的动静下,阻塞对该文件系统的读写
I/O,进而确认保障预留足够的财富给系统。具体参数为 马克斯pout、Minpout。

经验分享:马克斯pout、Minpout
参数的挑选,是和求实条件相关的,未有三个合併的建议值。若该参数设置不客观,只怕会耳熏目染到文件系统的读写操作。而适当的参数必要通过设置、观看来鲜明。

由社区会员孙伟光分享

07

weblogic 宕机难题排查

标题现象:

系统不断运维2-3天,中间件出现宕机

系统运维期间假诺访谈 weblogic 调节台,操作五次后中间件宕机

报错日志:

分析:

因此报错日志剖析,为内部存款和储蓄器溢出,且为非堆内部存款和储蓄器溢出,这种情景平时必要调节:PermSize
的轻重缓急。

消除进程:

调动 weblogic 配置参数:setDomainEnv.sh 设置 setDomainEnv.sh 为512。

调治后重启系统,发掘标题依然,并不曾化解宕机难点。

确认修改参数是或不是见效:生成 javacore 来分析(kill -3 进度ID)截图如下:

大家开掘参数并未收效。继续分析参数为何一直不卓有功能。

Weblogic 中的 commEnv.sh ,发现 JAVA_VENDOR 为 N/A

而 setDomainEnv.sh 中 PermSize 的安装为:

此间的参数并未 设置大家需求的 Open JDK的 JAVA_VENDOXC90 的 N/A
的赋值,所以非堆内部存款和储蓄器的装置未有生效。

注意:正常 open jdk 的 JAVA_VENDOKuga 为 Oracle
的,可是配置文件却为:N/A,只怕是 weblogic
的宽容性难题,可能人工资制度改善变导致,找到原因了,这一个题目就从未有过细究。

技术方案:

修改 commEnv.sh , JAVA_VENDO中华V 为 Oracle、HP、IBM、Apple 中的任何三个

在 startWeblogic 中,单独定义:MEM_ARGS=”-Xms2048m -Xmx2048m
-XX:PermSize=1024m”

证实方案:

应用第三种方案:

1)在原有私下认可情况,举办拾三个钟头的轮回操作,并不仅访谈 weblogic 调整台。

2)在退换后的条件,持续访谈 weblogic 调整台,生成 javacore
文件看参数是或不是见效。并拓宽58人高强度的面世测验18个小时,看是还是不是会再现宕机难点。

在方案的首先步,系统运行2钟头,访谈调控台,中间件宕机,系统不能够访谈。

在方案的第二步,系统在51人高强度的出现测验20小时的场所下,响应经常。频仍拜候调控台并未有察觉其余至极。通过变化
javacore 开掘非堆内部存款和储蓄器寻常生效。

由社区会员“gu y 011”分享

08

P550/P570 宕机案例

某星期天,客商致电,说基本职业不可能访谈。程序员到达现场,发掘顾客境遇(P550/P570–HACMP)P550
两台小机均关机。发掘顾客现场有一对服务器也已处在关机掉电状态。此时客商才察觉,市电星期一中午断电过,然而顾客机房配备有2台
UPS,机房设备一半四分之二分别接受2台 UPS上。排查发掘里头一台
UPS无法供电。而两台小机均有一同电源接到该
UPS,导致市电断电后,直接宕机。

后将小机通电开机,开采P550不能够开机,CPU VRM
稳压模块报错,由于客户专门的学业较为重大,将 P570 已经拉起来,筹划将 HA 集群在
IBM P570 单节点运转。却开采 HA 不能将 Oracle
数据库拉起。由于时日当劳之急,手动在 P570 网卡上增添 IP 小名后,手动挂载
VG,复苏工作。

继续,将 P550
稳压模块进行改换后,开掘依旧不能够开机,又出新新的报错:11002630,再次转移
CPU 板后,P550
小机正常开机。布置停机窗口进行排查恢复生机。在处理进程中,集群出现意外,在
HA
拉起来后,经业务测验,开掘/orafile错失一部分数量,此时备份数据最新的为前一天晚间23点,单天的数量未做备份,只好选取数据苏醒,最终成功将数据苏醒回来。重新配置
HA,模拟故障切换,测量试验职业,验证数据完整性,业务苏醒平常!

由社区会员“AC丹特”分享

09

AIX6100-06-06系统 bug 引起 down 机

某机器操作系统版本6100-06-06,系统 down 机,生成 dump 文件。

Problem:

System crash with following stack

CRASH INFORMATION:

CPU 3 CSA F00000002FF47600 at time of crash, error code

for

LEDs: 30000000

pvthread+02BD00 STACK:

[00009500].simple_lock+000000 ()

[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,

??, ??)

[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)

[004504DC]netinfo+0000FC (??, ??, ??, ??)

[00003850]ovlya_addr_sc_flih_main+000130 ()

[kdb_get_virtual_memory] no real storage @

FFFFFFFFFFFEF20

[100002640]0000000100002640 ()

[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30

bug原因:

File lock is taken before checking whether the file type is socket.

该故障因 netstat -f unix 命令引起系统 crash, 是 IBM bug 引起

建议单独进步 bos.mp64包补丁包或然完全升高到6100-06-12-1339(SP12)

官方网站解释:

IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06

File lock is taken before checking whether the file type is socket.

由社区会员“qb306”分享

10

P570 宕机案例

IBM 570 意外宕机,管理进程如下:

1、首先查看 asmi
日志,电源轻电扇故障,改换了2个电源和1个电风扇后,能够运行到 standby
格局。可是这些多的 firmware 报错。

2、晋级微码到 sf240-417后,微码报错消失。

3、激活分区退步,hmc 终端会晤世几秒的”ide inited
failed“提示,然后消失。接着卡死,报找不到硬盘。

4、观看外观,开掘后端的光导纤维卡灯非常弱,有时会不亮。

5、查了下570的红皮书结构图,发掘 ide controller(红线圈住部分)同一时候处理pci 设备和硬盘背板设备过来的 io,依据现成故障现象,剖断 ide controller
有故障。

6、通过 ibm system information center,定位到 ide controller 的 location
code 为p1-15,不是一个可替换的 FRU,必须会同 IO
backbone(正是主板)一同改变。

7、改动 io backbone 后,系统符合规律启动,走入系统微调后,一切寻常。

由社区会员王巧雷分享

11

某商厦 HACMP 软件,在互连网调换机更改时引起 down 机

某商厦 HA cluster log, IP switch down 时引起双节点
halt,系统版本7100-03-03,HA 版本6.1sp13

Error description

In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all

IP networks are lost and at least one non-IP network is

functioning, the Group Services subsystem will core dump when

trying to send packets to be routed through Topology Services

(across the non-IP connection). This will cause a node halt.

Customers with PowerHA 7, or HACMP 6 customers with no non-IP

networks (such as rs232 or disk) are not in danger. Also this

will not happen if only one node is still running, since there

will be no other cluster members to send messages to.

日志如下:

原因是补丁 IV55293: HAGSD CORE DUMP WHEN IP NETWOENCOREKS LOST, 要求进级rsct 文件集。

官方网址解释:

由社区会员“qb306”分享

12

巡检不细致 Power595 宕机

事件缘起,本来巡检已经开掘在那之中的八个 I/O
柜电源故障,在线退换走脚步的时候,脚步实行到百分之五十挑起该 I/O
柜突然掉电,重启了该 I/O 柜。

原因:一线工程师巡检时候相当不够细致,因为该同八个 I/O
其实坏了2个电源,只然则另外一个从未报出来具体的岗位,但曾经报出来该 I/O
的构件号,但也证实了 IBM 小机没有完全报错具体槽位,只报错了大约的职位。

减轻情势:配备下电,改造多个 I/O DCA,然后设备开机,难点一举成功。

由社区会员“shizhe1030”分享

13

X86 史上最不可相信的宕机事件

硬件: IBM的X3650 操作系统: suse 9

linux 系统无法远程登录,用 KVM 登入上去看开掘定在操作系统页面不能够动。

重启操作系统后,在操作系统 message 日志里面查见到如下错误:

通过咨询 novell 和 IBM 程序猿,结论是 IBM 那类服务器在装 linux
系统的时候,如若光驱有标题确实是会促成宕机。

经硬件程序猿检查,是光驱坏了……坏了……

编者按:宕机原因千万种,那个宕机有一点点冤

由社区会员“hp_hp”分享

正文转发自大伙儿号: talkwithtrend

越来越多相关小说阅读

二个运维怎么着从底层走上人生巅峰

运作无间:阿里Baba(Alibaba)运行保障类别的一种极品执行

芳华永在!三个老运行的20年奋斗史

饿了么异地双活数据库实战

Python 编制程序中常用的12种基础知识总括

青铜到王者,神速提高你 MySQL 数据库的段位!

有赞数据库自动化运行施行之路

运行版《蒙Trey》,听哭了某人…

一模一样会 Python,他的工薪比你高级中学一年级倍

Ali万亿交易量级下的秒级监察和控制

IT 运营的救赎——顺丰运转的好好践行

学好 Python、拿高薪、竟是如此总结

快到场高维高校直通车成为评释运行开荒程序猿

只需要5天!

在5天内集中向你传授面向 DevOps 的运营开辟程序员所须求调节的有所卓绝。

更有含金量的是,学习截止你还将富有一张【运转开垦程序员认证证书】

那份含金量超高的表明:

如能被推荐走入上述大厂,您的培养磨炼费将被退后六分之三!!

越来越多公司直通车,正在途中。

也应接公司和我们联系:

刘琳,微信/电话:13910952502

参与注脚运行开采程序猿学科报名、详细情况请点击阅读原作链接

服务器工夫已经前进几十年,但随着互连网音讯技巧的升华。云技巧和移动平台成为新的本事标准。为了使终端更轻松,顾客端会采取手持式移动设备和浏览器,并需要有关的数量和次序须保留在“云”端。随着云本事和活动平台的前进,服务器的多少和范围一定成几何级数的滋长。故障和主题材料也会成倍增进。但和在私有使用的情景不一,互连网化的服务器由于同有的时候候协理广大的操小编。运转不一样的互连网应用程序。管理众多的本土和长距离设备。其器具的故障检查判断就相对复杂。

UNIX自己是为复杂性互联网化情况设计的操作系统,而AIX操作系统是最大的系统集成商IBM开采的第二代UNIX,具备品质完善,使用方便,扩大性强,相符集团关键作业等天性,所以本文实例均在AIX情形下完成。

1、故障概述

服务器的在线情势故障是指服务器发生了普通错误。这个不当固然不一定系统崩溃。但耳濡目染系统的正规运作,影响多少的健壮性,并有更进一竿扩展风险的可能。系统的难题和故障应该尽早开采。并当即开展拍卖和缓慢解决,防止进一步的损伤,引起严重后果。及早的预判。及早的意识。及早的排查是故障会诊的主要。

2、系统故障分析和决断

系统硬件故障深入分析能够接纳diag命令举行解析和决断。

在系统管理员状态下运营命令#diag举办硬件检查判断程序。检查评定主机内硬件存在的主题素材。

图片 1

1)基本类别

2)I/O设备

3)异步设备

4)图形设备

5)SCSI设备

6)存款和储蓄设备

7)通信器材

8)多媒体设备

#diag —S

在具备能源上运转检查判断。

3、查看系统的一无所能日志

在系统运维时,一些系统错误会记录在errlog中,当中有个别错误还或者会在极限上突显。检查错误日志可用以下命令

图片 2

4、DUMP

当系统发生软硬件故障产生宕机时,系统将募集故障爆发时系统的内部存款和储蓄器和Computer状态等音信,发生DUMP文件,何况在液晶屏上海展览中心示888起先的代码。记录第二段起首的故障码,并分析DUMP状态码有利于深入分析故障原因,找到难题所在。

5、平常检查服务器状态的品类及其相关命令

用作补助。定期运营物检疫查服务器性能的连锁工具和指令,有助于控克服务器状态,预测故障点,相关命令富含:

Iostat

翻开系统I/O状态。深入分析CPU对各端口的服务占比,领悟硬盘swap空间和内部存款和储蓄器的数量比例关系。

Vmstat

翻开系统虚构内部存款和储蓄器状态新闻。

Sar

Sat查看系统活动状态音讯。

Topas

Topas能够监察和控制种类内部存款和储蓄器,CPU,I/O端口,swap空间的景况

no 命令用来修改内核参数。调治系统品质。

Svmon

svm on 命令用来查阅系统当下的内部存款和储蓄器的切实可行行使。

6、结论

别的完好的系统它都不容许一点荒谬或故障都未有,互联网服务器系统在运维时连连会或多或少的主题素材应运而生,尽管AIX系统有着电动会诊错误和故障的技能,但客商熟谙系统,并定时监视检查判断系统的运生势况,方可制止不须要故障的爆发。本文相关保险方法在IBMP520服务器,AIX 6.1操作系统下促成通过。

发表评论

电子邮件地址不会被公开。 必填项已用*标注