Bộ Phân Phối Công Việc Tính Toán (Compute Work Distributor) sẽ lên lịch cho một khối luồng (thread block – CTA) trên một SM (Streaming Multiprocessor) chỉ khi SM đó có đủ tài nguyên cho khối luồng (bộ nhớ dùng chung, warps, thanh ghi, rào cản,…). Tài nguyên cấp khối luồng như bộ nhớ dùng chung được phân bổ. Việc phân bổ tạo ra đủ warps cho tất cả các luồng trong khối luồng. Trình quản lý tài nguyên phân bổ warps theo vòng tròn đến các phân vùng con của SM. Mỗi phân vùng con SM chứa một bộ lập lịch warp, tệp thanh ghi và các đơn vị thực thi.
Khi một warp được phân bổ cho một phân vùng con, nó sẽ nằm trên phân vùng con đó cho đến khi hoàn thành hoặc bị gián đoạn bởi một chuyển đổi ngữ cảnh (kiến trúc Pascal). Khi khôi phục chuyển đổi ngữ cảnh, warp sẽ được khôi phục về cùng một SM và cùng warp-id. Khi tất cả các luồng trong warp đã hoàn thành, bộ lập lịch warp sẽ đợi tất cả các lệnh nổi bật do warp phát hành hoàn thành và sau đó trình quản lý tài nguyên sẽ giải phóng các tài nguyên cấp warp bao gồm warp-id và tệp thanh ghi.
Khi tất cả các warp trong một khối luồng hoàn thành, các tài nguyên cấp khối sẽ được giải phóng và SM sẽ thông báo cho Bộ Phân Phối Công Việc Tính Toán rằng khối đã hoàn thành.
Một khi warp được phân bổ cho một phân vùng con và tất cả tài nguyên được phân bổ, warp được coi là hoạt động, nghĩa là bộ lập lịch warp đang chủ động theo dõi trạng thái của warp. Trong mỗi chu kỳ, bộ lập lịch warp xác định warp nào đang bị dừng và warp nào đủ điều kiện để phát hành lệnh. Bộ lập lịch warp chọn warp đủ điều kiện có mức ưu tiên cao nhất và phát hành 1-2 lệnh liên tiếp từ warp.
Các quy tắc cho việc phát hành kép là cụ thể cho từng kiến trúc. Nếu một warp phát hành một lệnh tải bộ nhớ, nó có thể tiếp tục thực thi các lệnh độc lập cho đến khi nó đạt đến một lệnh phụ thuộc. Sau đó, warp sẽ báo cáo bị dừng cho đến khi quá trình tải hoàn tất. Điều này cũng đúng với các lệnh toán học phụ thuộc. Kiến trúc SM được thiết kế để che giấu độ trễ của ALU và bộ nhớ bằng cách chuyển đổi giữa các warp theo mỗi chu kỳ.
Câu trả lời này không sử dụng thuật ngữ lõi CUDA vì điều này đưa ra một mô hình tư duy không chính xác. Lõi CUDA là các đơn vị thực thi dấu phẩy động/số nguyên đơn độ chính xác được pipeline. Tốc độ phát hành và độ trễ phụ thuộc là cụ thể cho từng kiến trúc. Mỗi phân vùng con SM và SM có các đơn vị thực thi khác bao gồm các đơn vị tải/lưu trữ, các đơn vị dấu phẩy động độ chính xác kép, các đơn vị dấu phẩy động độ chính xác một nửa, các đơn vị phân nhánh, v.v.