1.项目目标研发一款以通用大模型DeepSeek/千问为核心智能体集成音频伪造检测、视频换脸检测工具的反诈骗系统。用户上传可疑音视频或输入文本系统通过调用专用模型获取检测结果再由大模型综合分析并输出通俗易懂的风险报告与建议同时提供模拟诈骗流程体验提升公众防范意识。2.技术要点通用大模型智能体DeepSeek/千问 API负责多模态结果理解、话术分析、风险决策与自然语言交互音频伪造检测工具Wav2Vec2-Base微调识别AI合成语音视频换脸检测工具XceptionNet微调识别AI换脸视频多模态工具调用Java后端封装专用模型为Flask服务供大模型调用微信小程序用户上传入口、结果展示、模拟诈骗交互界面3.成员及任务进展王家和1完成了伪造检测技术调研最终选择 XceptionNet 作为主干网络。选型依据深度可分离卷积适合提取人脸纹理/边缘细节 二分类任务适配性好real/fake架构成熟、迁移学习友好相对轻量利于后续部署。2已搭建标准化项目结构data / models / utils / api / scripts / checkpoints / logs。建立了 config.yaml 的集中配置体系便于后续团队协同调参与版本迭代。3模型实现models/xception.py完成 XceptionNet 的关键组件实现SeparableConv2d、Block、Xception。支持预训练加载与二分类输出主干网络结构完整。4数据处理与加载utils早期已实现视频帧提取、人脸检测与预处理流程。当前根据实际分工进行了架构优化模型端聚焦帧级推理视频处理下沉后端提升整体响应效率。DeepFakeDataset 已适配 WildDeepfake 的嵌套目录结构数据读取逻辑可用。5训练流程train.py完成训练器封装训练/验证/保存。优化器、损失函数、学习率策略与命令行参数配置完整具备“一键训练”条件。彭宏缤第一阶段成果后端基础框架搭建完成1工程初始化与分层结构明确2统一响应与数据契约建立设计统一响应体 ResultT规范状态码、消息、数据字段。定义 AudioDetectionResult、VideoDetectionResult 标准 DTO明确与 Flask 检测服务的数据接口约定。3文件上传与联调接口可用4检测服务调用封装完成第二阶段成果大模型与多模态分析能力接入1LLM配置与服务层封装新增 LLMConfig 统一管理 API 地址、Key、模型名、温度、token 上限等参数。LLMService 完成“模板填充 - 模型调用 - 结果解析 - 接口返回”的完整链路。业务层与提示词解耦便于后续替换模型DeepSeek/千问/OpenAI兼容接口。2Prompt模板化管理将提示词沉淀到 resources/prompts/文本分析、多模态分析、诈骗模拟。通过 PromptLoader 动态读取与变量替换避免硬编码。可维护性明显提升规则迭代成本降低。3LLM接口体系完善POST /api/llm/analyze文本诈骗分析POST /api/llm/analyze/multi多模态综合分析POST /api/llm/scam/chat诈骗场景模拟对话已覆盖识别、研判、训练三类核心业务场景。刘志恒下载并可用Wav2Vec2-Base 预训练模型下载并整理ASVspoof2019 LA 数据集train/dev/eval CM protocol数据质量验证完成编写并运行 check_asvspoof_data.py协议解析正常、文件无缺失、抽样无空文件数据可直接用于训练训练链路打通编写训练脚本完成最小训练闭环数据读取→训练→评估→保存 best checkpoint训练脚本支持更全面指标输出双视角 混淆矩阵中规模训练已验证在中规模设置下拿到较好结果(目前训练cpu2~4小时下一步使用gpu)推理工具化完成单条推理脚本infer_audio.py输出对单条音频的测试指标批量推理脚本infer_audio_batch.py逐条 CSV 输出提供 protocol 时自动计算与训练同类型评估指标当前成果可展示/可联调1可复现实验脚本训练 推理 数据检查2)可复用模型 checkpointbest3)可量化评估体系spoof/bonafide 双视角 混淆矩阵4)可直接给后端联调的推理能力基础下一步封 Flask 即可接入朱乘雨一、基础建设成果开发环境与工程框架完成开发工具链搭建采用“微信开发者工具 VS Code”组合开发模式。完成小程序项目初始化fraud-killer并配置为非云开发模式。项目结构规范化明确小程序页面四件套结构wxml / wxss / js / json。完成全局配置体系搭建app.json、app.wxss、theme.json。二、页面与功能核心业务页面基本落地首页index完成 2x2 功能卡片入口音频/视频/文本/综合检测。增加 Logo 与风险提示区具备清晰的功能引导能力。检测页detection使用 t-tabs 实现四类检测模式切换。音频/视频上传能力已接入含文件大小限制。文本检测支持输入、字数统计和诈骗话术示例。结果页result完成风险等级可视化展示高/中/低。支持置信度与概率对比展示并输出 AI 分析、风险点与建议。三、特色交互成果反诈教育功能成型1模拟诈骗体验simulate完成“剧本选择 对话训练”的双阶段流程。已支持常见诈骗场景具备对话式训练能力。能基于用户应答输出“警觉指数”和总结建议教育价值突出。2知识库knowledge与文章详情article实现分类筛选、搜索、列表展示到详情阅读的完整内容链路。集成 96110 热线一键拨打入口提升实用性。