如何修復“運行時錯誤：CUDA 錯誤：設備端斷言已觸發”

已發表: 2025-10-14

如果您在 PyTorch 中使用深度學習模型，您很可能會偶然發現令人費解的錯誤消息，例如：

 RuntimeError: CUDA error: device-side assert triggered

這個錯誤可能會非常令人沮喪，尤其是當您不確定是什麼原因導致它時。與許多為您提供指向問題的有用堆棧跟踪的編程錯誤不同，這個錯誤更像是您的 GPU 揚起眉毛並悄悄走開。但不用擔心 - 在本指南結束時，您不僅會理解為什麼會發生這種情況，還會了解如何有條不紊地解決它。

這個錯誤實際上意味著什麼？

當 GPU 上運行的 CUDA 內核遇到斷言失敗時，會出現此錯誤。這通常是由於無效輸入或您在 CPU 模式下可能無法捕獲的意外行為造成的。因為這是 GPU 級別的問題，所以如果沒有我們習慣從 Python 異常中看到的詳細調試消息，它往往會崩潰。

常見原因包括：

幸運的是，通過正確的方法，您可以追踪並解決這個問題——讓我們來看看如何解決。

第一個診斷步驟是禁用 CUDA 並在 CPU 上運行所有內容。通常，當在 CPU 上運行時，PyTorch 會提供更清晰的錯誤消息，因為設備端斷言現在作為具有完整上下文的 Python 異常拋出。

要切換到 CPU 模式，請修改代碼如下：

 device = torch.device("cpu") model.to(device)

如果斷言失敗，您現在應該獲得信息更豐富的堆棧跟踪。

導致此錯誤的最常見原因之一是類標籤不正確——尤其是在使用nn.CrossEntropyLoss時。此損失函數期望您的目標張量包含0和num_classes - 1之間的類索引。因此，如果您的模型輸出 10 個類，則目標必須是 0 到 9 之間的整數。

常見錯誤：

 # Target contains 10 instead of 0–9 range target = torch.tensor([10])

如果這些索引超出範圍，您將在 GPU 上遇到斷言。要驗證這一點，請使用：

 assert target.max().item() < num_classes

如果您正在進行圖像分類，還要確保目標的形狀合適。對於CrossEntropyLoss它的形狀應該是[batch_size] ，而不是 one-hot 編碼！

 # Incorrect (for CrossEntropyLoss) target = torch.tensor([[0, 0, 1], [1, 0, 0]]) # Correct target = torch.tensor([2, 0])

有時錯誤來自您的數據集或 DataLoader，尤其是在批量訓練中使用時。如果某些標籤損壞或不一致，它們可能會破壞 GPU 上的模型。

仔細檢查您的數據集，如下所示：

 for i, (x, y) in enumerate(loader): assert y.dtype == torch.long assert y.max().item() < num_classes assert x.shape[0] == y.shape[0]

如果您的數據集是從 CSV 文件或自定義處理邏輯構建的，可能會默默地引入無效標籤，那麼這尤其有用。

內省的開發人員，檢查代碼，筆記本電腦，調試

有時，模型或損失函數期望輸入具有特定的形狀。不匹配可能會導致微妙的問題。確保輸入和目標中的批量大小保持一致：

 # torchvision models usually expect [N, 3, 224, 224] assert inputs.shape[1:] == (3, 224, 224)

當使用帶有drop_last=False的 DataLoader 時，這一點尤其重要——最後一批可能會更小，具體取決於數據集的大小。您的模型或 BatchNorm 等操作必須正確處理它或顯式檢查較小的批次。

確保您的輸入功能和模型位於同一設備上。如果您將模型發送到 CUDA，但將輸入保留在 CPU 上，則事情會意外失敗，通常不會出現有用的錯誤。

務必仔細檢查：

 assert inputs.device == model.device

如果在 CPU 上運行沒有幫助，或者您在混合 CPU/GPU 設置中工作但仍然沒有收到有用的錯誤 - 嘗試設置：

 CUDA_LAUNCH_BLOCKING=1 python my_script.py

這告訴 PyTorch 同步運行 GPU 代碼，因此它將在確切的故障點崩潰。它可能會稍微減慢執行速度，但它提供了更清晰的回溯。

僅在 Python 中，不修改 shell：

 import os os.environ["CUDA_LAUNCH_BLOCKING"] = "1"

現在，運行時應該提供有關 CUDA 斷言發生位置的更多具體信息。

讓我們看一個實際的例子。假設您正在 MNIST 上構建數字分類模型，並按如下方式定義最終模型層：

 self.fc = nn.Linear(128, 10)

在訓練循環中，您有：

 criterion = nn.CrossEntropyLoss() output = model(images) # Output shape: [batch_size, 10] loss = criterion(output, labels)

但你的標籤是這樣的：

 labels = torch.tensor([[0], [1], [2]])

這個形狀是不正確的。 CrossEntropyLoss期望標籤作為類索引的一維向量：

 labels = torch.tensor([0, 1, 2])

僅修復此形狀就可以解決問題。

pytorch模型，損失函數，GPU錯誤，修復

在開始拔頭髮之前，請遵循以下清單：

雖然設備端斷言觸發的錯誤一開始可能感覺模糊且不透明，但它最終是您的模型或數據向您揮舞紅旗的方式。通過系統地檢查標籤、數據形狀並利用 CPU 模式和啟動阻止，您幾乎總能隔離問題。

下次，您將擁有知識和診斷工具包，而不是困惑地做出反應。調試愉快！