3D物体分割实战：用PyTorch和ShapeNet Part Dataset训练你的第一个点云分割模型

张

张建站

2026/5/31 5:11:28

10分钟阅读

3D物体分割实战用PyTorch和ShapeNet Part Dataset训练你的第一个点云分割模型在计算机视觉领域3D点云分割正成为越来越重要的研究方向。与传统的2D图像分割不同点云分割需要处理无序、不规则的三维空间数据这为深度学习模型带来了独特的挑战。本文将带您从零开始使用PyTorch框架和ShapeNet Part Dataset数据集构建一个实用的点云分割模型。1. 环境准备与数据加载在开始构建模型前我们需要准备好开发环境和数据集。推荐使用Python 3.8和PyTorch 1.10版本这些版本在点云处理方面有较好的支持。首先安装必要的依赖库pip install torch torchvision torchaudio pip install numpy matplotlib tqdmShapeNet Part Dataset包含16个类别的物体部件分割数据总计约17,000个点云样本。每个样本包含两部分数据.pts文件存储点云的XYZ坐标.seg文件存储每个点的分割标签我们可以通过以下代码实现数据集的下载和解压import os import zipfile import requests def download_shapenet(target_dir): url https://shapenet.cs.stanford.edu/ericyi/shapenetcore_partanno_segmentation_benchmark_v0.zip os.makedirs(target_dir, exist_okTrue) zip_path os.path.join(target_dir, shapenet.zip) # 下载数据集 response requests.get(url, streamTrue) with open(zip_path, wb) as f: for chunk in response.iter_content(chunk_size1024): if chunk: f.write(chunk) # 解压数据集 with zipfile.ZipFile(zip_path, r) as zip_ref: zip_ref.extractall(target_dir) os.remove(zip_path) print(数据集下载并解压完成) # 使用示例 download_shapenet(./data/shapenet)2. 构建点云数据加载器为了高效地加载和处理点云数据我们需要自定义一个PyTorch的Dataset类。这个类将负责读取.pts和.seg文件并进行必要的数据预处理。import torch from torch.utils.data import Dataset import numpy as np import os class ShapeNetPartDataset(Dataset): def __init__(self, root_dir, splittrain, num_points2048): self.root_dir root_dir self.split split self.num_points num_points self.classes self._load_class_mapping() self.file_list self._load_file_list() def _load_class_mapping(self): class_file os.path.join(self.root_dir, synsetoffset2category.txt) class_mapping {} with open(class_file, r) as f: for line in f: name, idx line.strip().split() class_mapping[name] idx return class_mapping def _load_file_list(self): split_file os.path.join(self.root_dir, train_test_split, fshuffled_{self.split}_file_list.json) with open(split_file, r) as f: file_list [line.strip().strip() for line in f] return file_list def __len__(self): return len(self.file_list) def __getitem__(self, idx): file_path self.file_list[idx] class_id file_path.split(/)[1] sample_id file_path.split(/)[-1] # 加载点云数据 pts_path os.path.join(self.root_dir, class_id, points, f{sample_id}.pts) seg_path os.path.join(self.root_dir, class_id, points_label, f{sample_id}.seg) points np.loadtxt(pts_path).astype(np.float32) labels np.loadtxt(seg_path).astype(np.int64) # 随机采样固定数量的点 if points.shape[0] self.num_points: choice np.random.choice(points.shape[0], self.num_points, replaceFalse) points points[choice, :] labels labels[choice] else: # 如果点数不足进行填充 choice np.random.choice(points.shape[0], self.num_points - points.shape[0], replaceTrue) points np.concatenate([points, points[choice, :]], axis0) labels np.concatenate([labels, labels[choice]], axis0) # 归一化处理 points points - np.expand_dims(np.mean(points, axis0), 0) # 中心化 dist np.max(np.sqrt(np.sum(points**2, axis1)), 0) points points / dist # 缩放 return torch.from_numpy(points), torch.from_numpy(labels)3. 构建点云分割模型我们将实现一个简化版的PointNet模型这是点云处理领域的经典架构。PointNet的核心思想是使用共享权重的MLP处理每个点然后通过最大池化获取全局特征。import torch.nn as nn import torch.nn.functional as F class PointNetPartSeg(nn.Module): def __init__(self, num_classes50, num_parts16): super(PointNetPartSeg, self).__init__() # 共享MLP部分 self.conv1 nn.Conv1d(3, 64, 1) self.conv2 nn.Conv1d(64, 128, 1) self.conv3 nn.Conv1d(128, 128, 1) self.conv4 nn.Conv1d(128, 512, 1) self.conv5 nn.Conv1d(512, 2048, 1) self.bn1 nn.BatchNorm1d(64) self.bn2 nn.BatchNorm1d(128) self.bn3 nn.BatchNorm1d(128) self.bn4 nn.BatchNorm1d(512) self.bn5 nn.BatchNorm1d(2048) # 分割头部分 self.conv6 nn.Conv1d(2048 128, 256, 1) self.conv7 nn.Conv1d(256, 256, 1) self.conv8 nn.Conv1d(256, 128, 1) self.conv9 nn.Conv1d(128, num_parts, 1) self.bn6 nn.BatchNorm1d(256) self.bn7 nn.BatchNorm1d(256) self.bn8 nn.BatchNorm1d(128) def forward(self, x): batch_size, num_points, _ x.size() x x.transpose(2, 1) # 转换为[B, 3, N] # 提取局部特征 local_feat F.relu(self.bn1(self.conv1(x))) local_feat F.relu(self.bn2(self.conv2(local_feat))) local_feat F.relu(self.bn3(self.conv3(local_feat))) # 提取全局特征 global_feat F.relu(self.bn4(self.conv4(local_feat))) global_feat F.relu(self.bn5(self.conv5(global_feat))) global_feat torch.max(global_feat, 2, keepdimTrue)[0] global_feat global_feat.repeat(1, 1, num_points) # 合并特征并进行分割 x torch.cat([local_feat, global_feat], dim1) x F.relu(self.bn6(self.conv6(x))) x F.relu(self.bn7(self.conv7(x))) x F.relu(self.bn8(self.conv8(x))) x self.conv9(x) x x.transpose(2, 1).contiguous() # 转换回[B, N, C] return x4. 训练与评估有了数据集和模型我们现在可以定义训练流程。点云分割通常使用交叉熵损失函数并采用Adam优化器。import torch.optim as optim from torch.utils.data import DataLoader def train_model(): # 初始化数据集和数据加载器 train_dataset ShapeNetPartDataset(./data/shapenet, splittrain) val_dataset ShapeNetPartDataset(./data/shapenet, splitval) train_loader DataLoader(train_dataset, batch_size32, shuffleTrue, num_workers4) val_loader DataLoader(val_dataset, batch_size32, shuffleFalse, num_workers4) # 初始化模型和优化器 device torch.device(cuda if torch.cuda.is_available() else cpu) model PointNetPartSeg(num_parts50).to(device) optimizer optim.Adam(model.parameters(), lr0.001) criterion nn.CrossEntropyLoss() # 训练循环 best_val_loss float(inf) for epoch in range(100): model.train() train_loss 0.0 for points, labels in train_loader: points, labels points.to(device), labels.to(device) optimizer.zero_grad() outputs model(points) loss criterion(outputs.view(-1, 50), labels.view(-1)) loss.backward() optimizer.step() train_loss loss.item() * points.size(0) train_loss / len(train_loader.dataset) # 验证阶段 model.eval() val_loss 0.0 correct 0 total 0 with torch.no_grad(): for points, labels in val_loader: points, labels points.to(device), labels.to(device) outputs model(points) loss criterion(outputs.view(-1, 50), labels.view(-1)) val_loss loss.item() * points.size(0) _, predicted torch.max(outputs.data, 2) correct (predicted labels).sum().item() total labels.numel() val_loss / len(val_loader.dataset) val_acc correct / total print(fEpoch {epoch1}: Train Loss{train_loss:.4f}, Val Loss{val_loss:.4f}, Val Acc{val_acc:.4f}) # 保存最佳模型 if val_loss best_val_loss: best_val_loss val_loss torch.save(model.state_dict(), best_model.pth) return model5. 结果可视化训练完成后我们可以可视化模型的分割结果直观地评估模型性能。import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D def visualize_results(model, dataset, num_samples3): device next(model.parameters()).device model.eval() fig plt.figure(figsize(15, 5*num_samples)) for i in range(num_samples): idx np.random.randint(len(dataset)) points, labels dataset[idx] with torch.no_grad(): pred model(points.unsqueeze(0).to(device)) _, pred_labels torch.max(pred, 2) pred_labels pred_labels.squeeze(0).cpu().numpy() # 绘制真实分割 ax fig.add_subplot(num_samples, 2, 2*i1, projection3d) ax.scatter(points[:, 0], points[:, 1], points[:, 2], clabels, s10) ax.set_title(fSample {i1} - Ground Truth) # 绘制预测分割 ax fig.add_subplot(num_samples, 2, 2*i2, projection3d) ax.scatter(points[:, 0], points[:, 1], points[:, 2], cpred_labels, s10) ax.set_title(fSample {i1} - Prediction) plt.tight_layout() plt.show() # 使用示例 model PointNetPartSeg(num_parts50) model.load_state_dict(torch.load(best_model.pth)) model model.to(device) val_dataset ShapeNetPartDataset(./data/shapenet, splitval) visualize_results(model, val_dataset)6. 性能优化技巧在实际应用中我们可以采用多种技术来提升模型的性能和训练效率数据增强增加训练数据的多样性随机旋转点云添加高斯噪声随机缩放点云随机丢弃部分点class PointCloudAugmentation: def __init__(self): pass def __call__(self, points): # 随机旋转 if np.random.rand() 0.5: theta np.random.uniform(0, 2*np.pi) rot_matrix np.array([ [np.cos(theta), -np.sin(theta), 0], [np.sin(theta), np.cos(theta), 0], [0, 0, 1] ]) points np.dot(points, rot_matrix) # 添加噪声 if np.random.rand() 0.5: noise np.random.normal(0, 0.02, points.shape) points noise # 随机缩放 if np.random.rand() 0.5: scale np.random.uniform(0.8, 1.2) points * scale return points模型改进尝试更先进的网络架构DGCNN动态图卷积网络考虑局部几何结构PointNet分层特征提取处理多尺度特征PointCNN使用X变换处理点云排列不变性训练技巧使用学习率调度器实现早停机制防止过拟合尝试不同的优化器如AdamW使用标签平滑技术# 改进的训练循环示例 def improved_train_loop(): # 初始化 model PointNetPartSeg(num_parts50).to(device) optimizer optim.AdamW(model.parameters(), lr0.001, weight_decay1e-4) scheduler optim.lr_scheduler.ReduceLROnPlateau(optimizer, min, patience5) criterion nn.CrossEntropyLoss(label_smoothing0.1) best_val_loss float(inf) early_stop_counter 0 max_early_stop 10 for epoch in range(100): # 训练和验证代码... scheduler.step(val_loss) if val_loss best_val_loss: best_val_loss val_loss early_stop_counter 0 torch.save(model.state_dict(), best_model.pth) else: early_stop_counter 1 if early_stop_counter max_early_stop: print(Early stopping triggered) break在实际项目中我发现数据预处理的质量对最终性能影响很大。特别是点云归一化和数据增强策略的选择往往能带来明显的性能提升。另外对于ShapeNet Part Dataset这样类别不平衡的数据集可以考虑使用加权交叉熵损失函数给少数类别更高的权重。

OBS实时字幕插件：如何为直播内容构建无障碍体验的技术实践 [特殊字符]

OBS实时字幕插件：如何为直播内容构建无障碍体验的技术实践 🎤 【免费下载链接】OBS-captions-plugin Closed Captioning OBS plugin using Google Speech Recognition 项目地址: https://gitcode.com/gh_mirrors/ob/OBS-captions-plugin 在直播内…...

2026/5/29 12:19:55 阅读更多 →