KVM直通Tesla T4 GPU安装windows虚拟机出现PCIE报错指向GPU

2020-12-06 1040

问题描述

多个客户在使用kvm虚拟机搭配T4 GPU创建windows虚拟机时，物理机出现PCIE报错，且报错指向具体的GPU。

测试发现只有在安装GPU驱动时会引发物理机PCIE报错，具体由以下两种情况触发：

kvm使用包含T4 GPU 驱动的windows镜像创建虚拟机时
kvm使用纯净的windows镜像创建虚拟机正常，在windows虚拟机下安装GPU驱动时

详细报错示例：

#服务器事件日志出现PCIE报错
14b | 06/02/2020 | 16:57:59 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted
14c | 06/02/2020 | 16:58:14 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted
#服务器黑盒日志给出了PCIE的报错busno
[Jun 02 2020 16:57:59] : PCIE Error: locate:NPSENTBusNo 62 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.
[Jun 02 2020 16:57:59] : Current BIOS Code(Port80): 0x00.                         
[Jun 02 2020 16:58:14] : PCIE Error: locate:NPSENTBusNo 181 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.
[Jun 02 2020 16:58:14] : Current BIOS Code(Port80): 0x00.

其中黑盒日志BusNo 62和BusNo 181分别指向3E:00和B5:00两个GPU。

解决办法

linux宿主机每次开机进系统后，执行命令清除root port SERR信息，可将以下命令添加进开机自启动配置中，需要注意root port的device_id 不要搞错。

setpci -s 3a:00.0 3e.w=0:2
setpci -s ae:00.0 3e.w=0:2

问题根因

直通连接的T4 GPU卡，在Windows 虚拟机下触发GPU MSI-X表的访问，这将导致来自T4不支持的请求（UR）响应，该错误由PCIe root port触发系统处理器上的不可屏蔽中断（NMI），从而导致不可恢复的系统错误。

NVIDA提交BUG给RedHat KVM团队建议修复方案：在禁用相应的MMIO访问时，使PCIe root的端口映射无效。并将尝试对设备的MMIO访问仅向用户生成SIGBUS响应，并且将避免导致KVM虚拟机管理程序上的NMI的系统错误。

根据：https://access.redhat.com/errata/RHSA-2020:2664 June 30 之后的kernel 包含了这个bug fix ： 1820632
大家可以尝试验证下。

微信关注我们

原文链接：https://blog.51cto.com/zaa47/2560478

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

作用一名合格的程序员，这些kafka原理你都知道？

如果只是为了开发 Kafka 应用程序，或者只是在生产环境使用 Kafka，那么了解 Kafka 的内部工作原理不是必须的。不过，了解 Kafka 的内部工作原理有助于理解 Kafka 的行为，也利用快速诊断问题。下面我们来探讨一下这三个问题 Kafka 是如何进行复制的Kafka 是如何处理来自生产者和消费者的请求的Kafka 的存储细节是怎样的如果感兴趣的话，就请花费你一些时间，耐心看完这篇文章。集群成员间的关系我们知道，Kafka 是运行在 ZooKeeper 之上的，因为 ZooKeeper 是以集群形式出现的，所以 Kafka 也可以以集群形式出现。这也就涉及到多个生产者和多个消费者如何协调的问题，这个维护集群间的关系也是由 ZooKeeper 来完成的。如果你看过我之前的文章(真的，关于 Kafka 入门看这一篇就够了)，你应该会知道，Kafka 集群间会有多个主机(broker)，每个 broker 都会有一个 broker.id，每个 broker.id 都有一个唯一的标识符用来区分，这个标识符可以在配置文件里手动指定，也可以自动生成。Kafka 可以通过 br...

2020-12-04

539

前言如果你想深入研究Java并发的话，那么AQS一定是绕不开的一块知识点，Java并发包很多的同步工具类底层都是基于AQS来实现的，比如我们工作中经常用的Lock工具ReentrantLock、栅栏CountDownLatch、信号量Semaphore等，而且关于AQS的知识点也是面试中经常考察的内容，所以，无论是为了更好的使用还是为了应付面试，深入学习AQS都很有必要。 CAS是乐观锁的一种思想，它假设线程对资源的访问是没有冲突的，同时所有的线程执行都不需要等待，可以持续执行。如果有冲突的话，就用比较+交换的方式来检测冲突，有冲突就不断重试。CAS的全称是Compare-and-Swap，也就是比较并交换，它包含了三个参数：V，A，B，V表示要读写的内存位置，A表示旧的预期值，B表示新值，当执行CAS时，只有当V的值等于预期值A时，才会把V的值改为B，这样的方式可以让多个线程同时去修改，但也会因为线程操作失败而不断重试，对CPU有一定程序上的开销。AQS简介本文主角正式登场。AQS，全名AbstractQueuedSynchronizer，是一个抽象类的队列式同步器，它的内部通过维...

2020-12-07

498

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。