[ACM MM 2025]WetCat: Enabling Automated Skill Assessment in Wet-Lab Cataract Surgery Videos

张

张建站

2026/6/23 12:49:16

10分钟阅读

[ACM MM 2025]WetCat: Enabling Automated Skill Assessment in Wet-Lab Cataract Surgery Videos

论文网址WetCat: Enabling Automated Skill Assessment in Wet-Lab Cataract Surgery Videos代码网址https://github.com/Negin-Ghamsarian/WetCat数据集网址https://www.synapse.org/Synapse:syn66401174/files/目录1. 心得2. 论文逐段精读2.1. Abstract2.2. Introduction2.3. Methods2.3.1. Capsulorhexis Assessment Metrics2.3.2. Phacoemulsification Assessment Metrics2.4. Dataset2.5. Technical Validation2.5.1. Experimental Settings for Phase Recognition2.5.2. Experimental Settings for Semantic Segmentation2.5.3. Training Settings2.5.4. Experimental Results2.6. Conclusion1. 心得1可2. 论文逐段精读2.1. Abstract①针对手术训练的需求wet lab开始变得不可或缺实验室模拟环境手术②作者提出的WetCat数据集是第一个用于wet lab白内障手术视频操作技能评估的数据集indispensable adj.不可或缺的必不可少的 n.不可缺少的人或物2.2. Introduction①wet lab环境没有风险②每个帧都按照标准评估流程GRASIS和OSCAR来标注2.3. Methods①作者为两个关键手术环节撕囊和超声乳化阶段进行评估②需要结合阶段识别和语义分割来进行技能评估2.3.1. Capsulorhexis Assessment Metrics①撕囊阶段评估圆度 (Roundness)通过圆形度比率进行测量即物体的面积与周长平方的比值。数值越接近 1表示越接近完美的圆形。居中性 (Centration)使用居中度指标评估对齐精度定义为撕囊口中心与角膜缘Limbus中心之间的欧几里得距离再除以角膜缘半径进行归一化。直径 (Diameter)由撕囊口的最大延伸范围确定并与临床理想范围4.5–5.5 毫米进行对比。平滑度 (Smoothness)使用基于曲率或傅里叶描述符的方法评估撕囊边缘的连续性和规则性以量化局部的不规则性。2.3.2. Phacoemulsification Assessment Metrics①超声乳化技能评估眼部稳定性 (Eye Stability)通过追踪整个阶段角膜缘的中心来评估。相对于初始位置的偏移量以角膜缘直径的百分比表示偏移在±10%以内被视为可接受。较大的位移可能表明固定不足或器械施力过大。超声乳化时长 (Phacoemulsification Duration)测量该阶段的总耗时以秒为单位并与既定的临床基准进行对比。非主导手器械分析 (Non-Dominant Hand Instrument Analysis)侧重于追踪通常由非主导手操作的较细器械如辅助器械。该分析通过评估运动的频率、幅度以及检测不规则轨迹来评估切口操作的难度这些不规则轨迹可能暗示操作者在操控时遇到困难。2.4. Dataset①在2024-202期间收集了60个白内障手术视频由初级至中级外科医生使用Haag-Streit OSTC显微镜系统完成②视频市场749±509 s③四种阶段分布和比例其中idle是器械在组织里但没操作rest是器械不在屏幕里④四种阶段标签分布binocular adj. 双眼的双目并用的 n. 双筒望远镜双目显微镜⑤像素级语义标注帧1469帧⑥标注分布⑦真实视频帧样例⑧和其他数据集的阶段识别和分割标注对比⑨作者通过OKULO-ONE DIMS人工眼模型的标准解剖测量来校准和比例归一化角膜缘直径11.9 mm瞳孔直径8.5 mm晶体直径10 mm前房深度3.75 mm晶体厚度3.87 mm2.5. Technical Validation2.5.1. Experimental Settings for Phase Recognition①首先使用CNN-RNN模型其中CNN是VGG16RNN是 GRU, LSTM, BiGRU,和 BiLSTM然后使用主干是VGG16的ViT最后使用ResNet3D-18。前两步的模型都在ImageNet上预训练过②作者合并idle和rest这两个阶段类③阶段识别是通过从每个切片的90帧中随机抽取10帧来预测2.5.2. Experimental Settings for Semantic Segmentation①测试的模型细节对SAM进行微调冻结了视觉编码器和提示编码器并研究了两种训练配置1仅训练掩码解码器产生4,058,340个可训练参数;2应用LoRA映射到视觉编码器的线性层和Conv2D层秩为16r16缩放因子α32且中途dropout率为0.1使可训练参数提升至6,647,012。2.5.3. Training Settings①所有神经网络都初始化了ImageNet预训练权重分别用于各自的骨干除了ResNet3D和SAM之外。②批量和尺寸对于相位识别模型使用16的批次大小和输入帧尺寸224×224像素。对于语义切割模型使用批量规模为四并将所有输入图像调整为512×512像素。③学习率ResNet3D的初始学习率为 0.05CNN-RNN 和基于变压器的初始学习率为 0.005。对于语义分割卷积网络的初始学习率设置为0.001SAM为0.0001。对于拥有预训练骨干的网络骨干的学习率设置为主学习率的十分之一。学习率在训练过程中根据多项式衰减计划逐步降低。④数据增强为了增强模型的稳健性和促进泛化在训练过程中对这两个任务应用了多种数据增强包括随机调整尺寸裁剪尺度变化在0.8到1.2之间、随机旋转最高可达±30∘、色彩抖动亮度、对比度和饱和度调整可达20%、高斯模糊、随机锐化以及随机转换为灰度的概率为0.2。⑤损失相位识别模型通过交叉熵损失函数进行优化语义分割模型通过交叉熵对数骰损失进行训练2.5.4. Experimental Results①四折交叉验证的阶段识别结果对应的混淆矩阵②分割结果②最具挑战的撕囊口rhexis分割2.6. Conclusion~

企业级web网上摄影工作室开发与实现管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

💡实话实说：有自己的项目库存，不需要找别人拿货再加价，所以能给到超低价格。摘要随着数字技术的快速发展，摄影行业逐渐向线上转型，传统的线下摄影工作室面临客户管理效率低、服务流程繁琐等问题。企业级网…...

2026/6/23 12:39:41 阅读更多 →

AI用得越多越高效？我的时间追踪数据戳破的生产力幻觉

大多数创业者和知识工作者都默认一个共识：AI工具用得越多，产出就越大。我曾经也是这样想的——六个月前，我把几乎所有工作都塞进了ChatGPT和Claude。从写邮件到研究报告，从内容规划到日常回复，只要有输入框&#xff0c…...

2026/6/7 1:37:01 阅读更多 →

Pixel Mind Decoder 与Node.js后端集成：构建实时情绪反馈API服务

Pixel Mind Decoder 与Node.js后端集成：构建实时情绪反馈API服务 1. 为什么需要情绪分析API 想象一下，你运营着一个在线社区平台，每天有成千上万的用户发表评论。如果能实时了解用户情绪变化，及时发现问题并改进服务&#xff0c…...

2026/6/7 7:32:14 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/22 11:26:33 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/23 4:09:51 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/22 16:15:36 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/23 4:09:31 阅读更多 →