k8凯发

当前位置 > k8凯发 > 服务 > 服务器 > KunTai R722服务器硬盘IO异常问题分析

KunTai R722服务器硬盘IO异常问题分析

发布时间:2025-12-29

一、现网描述

1.1 环境描述

产品型号:KunTai R722

硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333

软件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02

 

二、故障描述

5月22日凌晨4点57分NCE-Fabric控制器上报OVSDB链路断链、JsonRpc链路断链、设备状态Down等告警,几秒后自动清除,业务无影响

image.png

 

三、问题分析

3.1   硬件日志分析

1. 查看current_event日志文件,当前设备无告警,健康状态良好。

image.png

2. 分析sel事件记录日志,该设备在近期无问题相关异常事件打印。

image.png

3. 分析RAID_Controller_Info日志,当前raid卡9560-8i状态正常。

image.png

4. 分析Raid组状态,发现设备仅配置一个RAID10,当前状态正常。

image.png

5. 分析物理磁盘状态,发现Disk0有部分Other Error错误计数,说明该磁盘内部可能存在故障。

image.png

6. 分析LSI_RAID_Controller_Log日志,故障发生时raid控制器记录到Disk0出现Unexpected sense2/04/00报错。image.png

7. 深入分析Raid卡日志,发现Disk0在2/04/00持续20s后触发reset复位。image.png

8. 当前raid卡固件(5.200.02.3681)异常处理流程。

image.png

3.2   分析结论

综上,故障发生是由于Disk0 磁盘异常并处于not ready状态,Raid卡在诊断磁盘状态时,会导致IO阻塞,使IO冲高到100%。

 

四、问题解决

4.1  解决办法

更换问题硬盘Disk0;

新版raid卡固件52.27.0-5172,已修复not ready导致IO长时间hang问题,升级Raid卡固件版本解决。

DCSG01489595 Fix Ses device not ready handling path

image.png

检测到磁盘状态not ready之后,会做五次重试并且设备被标记为故障进行踢盘。整个重试过程会产生两秒延迟。当处理not ready情形,对于存储设备将交由上层(raid卡)处理重试。

 

400-810-9119
7天*24小时全天候接听客户的任何需求。是接入最快捷、响应最及时的全真人服务窗口,节假日无休;并为VIP客户设置专属坐席,让最分析您的服务代表时刻为您服务。
除了常规技术问题的服务请求,客户对于服务有任何建议和意见,可顺利获得服务邮箱发送邮件,邮件将直达服务经理,为您给出满意的答复。
官方微信
  • k8凯发

微信搜索【k8凯发】公众号,点击对话窗口发送信息,和k8凯发进行沟通,解决您随时想到的任何咨询。