模型量化优化技术文档

量化基础实现

在边缘设备部署深度学习模型时，量化是一种重要的模型优化技术。本项目实现了三种不同的量化策略：基础8位量化、层间均衡量化和混合精度量化。

数据准备

所有量化策略都需要校准数据集来确定量化参数。以下是通用的数据加载实现：

class CalibrationDataset(Dataset):
    def __init__(self, X):
        self.X = torch.FloatTensor(X).unsqueeze(1)
        
    def __len__(self):
        return len(self.X)
    
    def __getitem__(self, idx):
        return self.X[idx]

# 加载校准数据
with open('cal.pkl', 'rb') as f:
    X_cal, _ = pickle.load(f)

cal_dataset = CalibrationDataset(X_cal)
cal_loader = DataLoader(cal_dataset, batch_size=32, shuffle=False)

这个实现的关键点在于：

使用校准集而不是训练集进行量化参数确定
保持数据格式与训练时一致（添加通道维度）
使用固定的batch size以确保量化结果的稳定性

量化策略实现

基础8位量化

最简单的量化策略，将模型参数和激活值量化为8位定点数：

graph = espdl_quantize_onnx(
    onnx_import_file=ONNX_MODEL_PATH,
    espdl_export_file=EXPORT_PATH,
    calib_dataloader=cal_loader,
    calib_steps=50,
    input_shape=[input_shape],
    target="esp32s3",
    num_of_bits=8,
    device="cpu",
    error_report=True,
    verbose=1
)

这种方法的特点：

实现简单，整体压缩率固定在4倍左右
所有层使用相同的量化位宽
可能在某些关键层造成较大精度损失

层间均衡量化

通过调整相邻层的数值范围来减小量化误差：

# 创建量化设置
quant_setting = QuantizationSettingFactory.espdl_setting()

# 启用层间均衡
quant_setting.equalization = True
quant_setting.equalization_setting.iterations = 4
quant_setting.equalization_setting.value_threshold = 0.4
quant_setting.equalization_setting.opt_level = 2

# 由于均衡优化，需要将ReLU6转换为ReLU
def convert_relu6_to_relu(model):
    for node in model.graph.node:
        if node.op_type == 'Relu6':
            node.op_type = 'Relu'
    return model

model = convert_relu6_to_relu(model)

这种方法的优势：

通过层间权重重平衡减小量化误差
不增加模型大小的情况下提升精度
特别适合相邻层数值范围差异大的网络

混合精度量化

对不同层使用不同的量化位宽，平衡精度和效率：

# 设置混合精度量化配置
setting = QuantizationSettingFactory.espdl_setting()

# 对高误差层使用16位量化
high_error_layers = [
    "/layers/layers.3/conv/conv.3/Conv",
    "/layers/layers.3/conv/conv.6/Conv",
    "/layers/layers.3/conv/conv.0/Conv",
    "/layers/layers.3/conv/conv.3/Conv"
]

for layer in high_error_layers:
    setting.dispatching_table.append(
        layer, 
        get_target_platform("esp32s3", 16)
    )

这种方法的特点：

精度敏感层保持高精度
其他层进行8位量化压缩
在模型大小和精度间取得更好的平衡

量化模型评估

所有量化策略使用相同的评估方法：

def evaluate_quantized_model(graph, test_loader, y_test):
    executor = TorchExecutor(graph=graph, device='cpu')
    total_time = 0
    correct = 0
    total = 0
    
    with torch.no_grad():
        for batch in tqdm(test_loader):
            start = time.time()
            outputs = executor.forward(inputs=batch)
            total_time += (time.time() - start)
            
            _, predicted = torch.max(outputs[0], 1)
            total += batch.size(0)
            correct += (predicted == y_test[total-batch.size(0):total]).sum().item()

    avg_time = (total_time / len(test_loader)) * 1000
    accuracy = (correct / total) * 100
    return avg_time, accuracy

评估指标包含两个关键维度：

推理时间：反映量化后模型的实际执行效率
模型精度：验证量化对模型性能的影响

实际部署验证

为验证量化效果，实现了单张图片的推理测试：

def predict_image(graph, image_tensor):
    executor = TorchExecutor(graph=graph, device='cpu')
    with torch.no_grad():
        outputs = executor.forward(inputs=[image_tensor])
        confidences = torch.softmax(outputs[0], dim=1).numpy()
    return confidences

图像预处理保持与训练时一致：

def preprocess_image(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    resized = cv2.resize(gray, TARGET_SIZE)
    normalized = resized.astype('float32') / 255.0
    image_tensor = torch.FloatTensor(normalized).unsqueeze(0).unsqueeze(0)
    return image_tensor, img

量化策略对比

基础8位量化

优点：实现简单，压缩率固定
缺点：某些层可能精度损失较大
适用场景：模型结构简单，精度要求不高的场景

层间均衡量化

优点：不增加模型大小的情况下提升精度
缺点：需要修改激活函数，可能影响模型表达能力
适用场景：相邻层数值分布差异大的网络

混合精度量化

优点：精度和压缩率的最佳平衡
缺点：需要针对网络结构进行层的量化位宽选择
适用场景：对某些层的精度有特殊要求的场景

实施建议

量化策略选择
- 首先尝试基础8位量化
- 如果精度下降明显，考虑层间均衡
- 如果仍不满足要求，使用混合精度量化
校准数据选择
- 使用能代表实际应用场景的数据
- 数据量不需要太大，但要覆盖各种情况
- 标注数据需要准确
评估验证
- 在实际部署硬件上进行测试
- 关注模型大小和推理延迟
- 验证不同输入下的模型表现
优化改进
- 记录精度损失较大的层
- 针对性调整量化策略
- 在精度和效率间寻找平衡点

fyp

模型量化优化技术文档

https://blakehansen130.github.io/2024/11/29/model-quantization-docs/

发布于

2024年11月29日

许可协议

ESP32手势识别部署实现文档上一篇

手势识别数据集处理和模型训练文档下一篇