[ACM MM 2025]WetCat: Enabling Automated Skill Assessment in Wet-Lab Cataract Surgery Videos
论文网址WetCat: Enabling Automated Skill Assessment in Wet-Lab Cataract Surgery Videos代码网址https://github.com/Negin-Ghamsarian/WetCat数据集网址https://www.synapse.org/Synapse:syn66401174/files/目录1. 心得2. 论文逐段精读2.1. Abstract2.2. Introduction2.3. Methods2.3.1. Capsulorhexis Assessment Metrics2.3.2. Phacoemulsification Assessment Metrics2.4. Dataset2.5. Technical Validation2.5.1. Experimental Settings for Phase Recognition2.5.2. Experimental Settings for Semantic Segmentation2.5.3. Training Settings2.5.4. Experimental Results2.6. Conclusion1. 心得1可2. 论文逐段精读2.1. Abstract①针对手术训练的需求wet lab开始变得不可或缺实验室模拟环境手术②作者提出的WetCat数据集是第一个用于wet lab白内障手术视频操作技能评估的数据集indispensable adj.不可或缺的必不可少的 n.不可缺少的人或物2.2. Introduction①wet lab环境没有风险②每个帧都按照标准评估流程GRASIS和OSCAR来标注2.3. Methods①作者为两个关键手术环节撕囊和超声乳化阶段进行评估②需要结合阶段识别和语义分割来进行技能评估2.3.1. Capsulorhexis Assessment Metrics①撕囊阶段评估圆度 (Roundness)通过圆形度比率进行测量即物体的面积与周长平方的比值。数值越接近 1表示越接近完美的圆形。居中性 (Centration)使用居中度指标评估对齐精度定义为撕囊口中心与角膜缘Limbus中心之间的欧几里得距离再除以角膜缘半径进行归一化。直径 (Diameter)由撕囊口的最大延伸范围确定并与临床理想范围4.5–5.5 毫米进行对比。平滑度 (Smoothness)使用基于曲率或傅里叶描述符的方法评估撕囊边缘的连续性和规则性以量化局部的不规则性。2.3.2. Phacoemulsification Assessment Metrics①超声乳化技能评估眼部稳定性 (Eye Stability)通过追踪整个阶段角膜缘的中心来评估。相对于初始位置的偏移量以角膜缘直径的百分比表示偏移在±10%以内被视为可接受。较大的位移可能表明固定不足或器械施力过大。超声乳化时长 (Phacoemulsification Duration)测量该阶段的总耗时以秒为单位并与既定的临床基准进行对比。非主导手器械分析 (Non-Dominant Hand Instrument Analysis)侧重于追踪通常由非主导手操作的较细器械如辅助器械。该分析通过评估运动的频率、幅度以及检测不规则轨迹来评估切口操作的难度这些不规则轨迹可能暗示操作者在操控时遇到困难。2.4. Dataset①在2024-202期间收集了60个白内障手术视频由初级至中级外科医生使用Haag-Streit OSTC显微镜系统完成②视频市场749±509 s③四种阶段分布和比例其中idle是器械在组织里但没操作rest是器械不在屏幕里④四种阶段标签分布binocular adj. 双眼的双目并用的 n. 双筒望远镜双目显微镜⑤像素级语义标注帧1469帧⑥标注分布⑦真实视频帧样例⑧和其他数据集的阶段识别和分割标注对比⑨作者通过OKULO-ONE DIMS人工眼模型的标准解剖测量来校准和比例归一化角膜缘直径11.9 mm瞳孔直径8.5 mm晶体直径10 mm前房深度3.75 mm晶体厚度3.87 mm2.5. Technical Validation2.5.1. Experimental Settings for Phase Recognition①首先使用CNN-RNN模型其中CNN是VGG16RNN是 GRU, LSTM, BiGRU,和 BiLSTM然后使用主干是VGG16的ViT最后使用ResNet3D-18。前两步的模型都在ImageNet上预训练过②作者合并idle和rest这两个阶段类③阶段识别是通过从每个切片的90帧中随机抽取10帧来预测2.5.2. Experimental Settings for Semantic Segmentation①测试的模型细节对SAM进行微调冻结了视觉编码器和提示编码器并研究了两种训练配置1仅训练掩码解码器产生4,058,340个可训练参数;2应用LoRA映射到视觉编码器的线性层和Conv2D层秩为16r16缩放因子α32且中途dropout率为0.1使可训练参数提升至6,647,012。2.5.3. Training Settings①所有神经网络都初始化了ImageNet预训练权重分别用于各自的骨干除了ResNet3D和SAM之外。②批量和尺寸对于相位识别模型使用16的批次大小和输入帧尺寸224×224像素。 对于语义切割模型使用批量规模为四并将所有输入图像调整为512×512像素。③学习率ResNet3D的初始学习率为 0.05CNN-RNN 和基于变压器的初始学习率为 0.005。 对于语义分割卷积网络的初始学习率设置为0.001SAM为0.0001。 对于拥有预训练骨干的网络骨干的学习率设置为主学习率的十分之一。 学习率在训练过程中根据多项式衰减计划逐步降低。④数据增强为了增强模型的稳健性和促进泛化在训练过程中对这两个任务应用了多种数据增强包括随机调整尺寸裁剪尺度变化在0.8到1.2之间、随机旋转最高可达±30∘、色彩抖动亮度、对比度和饱和度调整可达20%、高斯模糊、随机锐化以及随机转换为灰度的概率为0.2。⑤损失相位识别模型通过交叉熵损失函数进行优化语义分割模型通过交叉熵对数骰损失进行训练2.5.4. Experimental Results①四折交叉验证的阶段识别结果对应的混淆矩阵②分割结果②最具挑战的撕囊口rhexis分割2.6. Conclusion~