JJYB_AI 智剪 – 智能视频自动剪辑与AI解说工具（离线TTS、原创解说、混剪、AI配音）

352

JJYB_AI智剪 v2.0

智能视频剪辑工具 – 完整AI流程 + 精确同步机制
状态： ✅ 100%完成 |版本： v2.0 |发布： 2025-11-11

⚡ 快速开始（3步）

1️⃣ 检查环境

python check_system.py

2️⃣ 启动应用

# 双击运行
启动应用.bat

# 或命令行
python frontend/app.py

3️⃣ 访问应用

http://localhost:5000

🎉 完成！ 详细指南 → START_HERE.md

⭐ 三大核心功能

🎬 视频编辑器

🎯 完整播放控制 + 轨道管理
⚡ 音画/字画/字音三重同步 （<100ms）
✨ 特效、滤镜、转场完整支持
📍 网址：http://localhost:5000/

🎙️ AI配音

🔊 多引擎TTS （Edge-TTS/gTTS/voice_clone）
🎵 丰富音色库 + 声音克隆
🎛️ 实时参数调节
📍 网址：http://localhost:5000/voiceover

📝 原创解说

🤖 AI视觉理解 → LLM文案 → TTS配音 → 视频合成
🔗 完整自动化流程
🎯 精确同步机制
📍 网址：http://localhost:5000/commentary

🤖 AI模型支持

大语言模型（9种）

✅ 通义千问 （阿里巴巴） – 推荐
✅ 文心一言 （百度）
✅ ChatGLM（智谱AI）
✅ DeepSeek – 性价比高
✅ OpenAI GPT-4/GPT-3.5 – 专业版
✅ Claude 3（拟人版） – 高级推理
✅ Google Gemini – 多模态
✅ 月之暗面 Kimi – 长文本
✅ 讯飞星火 （科大讯飞）

视觉分析模型（6种）

✅ 通义千问VL – 推荐
✅ 百度视觉
✅ 腾讯云视觉
✅ GPT-4V（OpenAI 愿景）
✅ 双子视野（谷歌）
✅ 克劳德·幻视（拟人）

语音TTS模型（4种）

✅ Edge-TTS – 免费推荐（23+音色）
✅ 谷歌 TTS （gTTS） – 免费多语言
✅ Azure TTS – 专业级（付费）
✅ Voice Clone – 本地语音克隆

i️ 内置回退：已集成 pyttsx3（离线），在网络受限时会自动回退以保证配音可用。

🏗️ 技术架构

┌─────────────────────────────────────────┐
│          前端层 (Frontend)              │
│  Flask 3.0 + Socket.IO + 现代化UI       │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│          AI引擎层 (Backend)             │
│  • 视觉分析 (6种模型)                   │
│  • 文案生成 (9种大语言模型)             │
│  • 语音合成 (4种TTS引擎)                │
│  • 音频处理 (Whisper/Librosa)           │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│        视频处理层 (Processing)          │
│  FFmpeg + MoviePy + OpenCV              │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│         数据层 (Database)               │
│  SQLite + 项目管理 + 素材管理           │
└─────────────────────────────────────────┘

📁 项目结构

JJYB_AI智剪/
├── 启动应用.bat               # ⭐ 一键启动脚本（推荐入口）
├── check_system.py           # 🔍 系统检查与依赖检测
├── init_test_data.py         # 📊 初始化测试数据
├── requirements.txt          # 📋 Python 依赖清单
├── README.md                 # 📖 项目说明（本文件）
├── START_HERE.md             # 🚀 快速入口指南
├── frontend/                 # 🎨 前端 Web 与桌面界面
│   ├── app.py               # Flask 主应用入口（含 WebSocket）
│   ├── templates/           # HTML 模板（核心业务页面 + 公共模板）
│   │   ├── index.html       # 视频编辑器首页
│   │   ├── commentary.html  # 原创解说页面
│   │   ├── remix.html       # 混剪模式页面
│   │   ├── voiceover.html   # AI 配音页面
│   │   ├── settings.html    # 设置与 API 配置页面
│   │   ├── projects.html    # 项目管理页面
│   │   └── ...              # 其他页面（404/500/AI 功能等）
│   └── static/              # 静态资源（CSS/JS/图片/字体等）
├── backend/                 # 🤖 后端服务与 AI 引擎
│   ├── api/                 # API 路由与接口
│   ├── engine/              # AI 引擎与音视频处理核心
│   ├── services/            # 业务服务层（解说/混剪/配音等）
│   ├── config/              # 后端配置（AI/路径等）
│   ├── database/            # 数据库访问与会话管理
│   ├── prompts/             # 提示词模板与系统提示
│   ├── utils/               # 通用工具函数与日志
│   ├── core/                # 核心启动与调度逻辑
│   └── assets/              # 资源与示例文件
├── config/                  # ⚙️ 全局配置（INI/路径等）
├── database/                # 💾 数据库文件
├── logs/                    # 📁 运行日志
├── resource/                # 📦 AI 模型与模板资源
├── uploads/                 # 📥 用户上传文件
├── output/                  # 📤 导出结果文件
├── tests/                   # ✅ 自动化测试
├── 开发文档/                # 📚 完整开发文档
│   ├── README.md           # 开发文档说明
│   ├── 文档索引.md
│   ├── JJYB_AI智剪_完整开发文档.md
│   ├── JJYB_AI智剪_完整开发文档_Part2.md
│   └── JJYB_AI智剪_完整开发文档_Part3.md
└── yolov8n.pt               # 🎯 YOLOv8 模型权重（目标检测）

🔧 技术栈

Web框架

后端框架： Flask 3.0+
实时通信： Flask-SocketIO 5.3+
数据库： SQLite
桌面应用： PyWebView 4.4+

AI/深度学习

深度学习框架：PyTorch 2.0+
目标检测：Ultralytics （YOLOv8）
音频处理： Librosa， SoundFile， Pydub
语音识别：Whisper / faster-whisper（当前实现）
语音合成： Edge-TTS， gTTS， Azure TTS
语音克隆： Voice Clone （本地部署）

大语言模型（9种）

通义千问、文心一言、ChatGLM、DeepSeek
OpenAI GPT-4、Claude 3、Google Gemini
月之暗面 Kimi、讯飞星火

视觉模型（6种）

通义千问VL、百度视觉、腾讯云视觉
GPT-4V、双子视野、克劳德视界

视频处理

核心引擎：FFmpeg
Python封装： MoviePy 1.0+， OpenCV 4.8+
图像处理： Pillow 10.0+， ImageIO
字幕处理： pysrt

📖 详细使用说明

第一步：配置API（首次使用必须）

访问API配置页面：http://localhost:5000/api_settings

必须配置（至少一个）：

大语言模型API（用于AI文案生成）
- 推荐：通义千问（免费额度）
- 性价比：DeepSeek
- 专业版：OpenAI GPT-4、Claude 3

可选配置： 2. 视觉分析模型API（用于视频内容理解）

推荐：通义千问VL

TTS语音服务（已内置Edge-TTS免费服务）
- 专业级：Azure TTS（需付费）
- 本地克隆：Voice Clone

第二步：选择功能模块

🎙️ 原创解说剪辑

完整流程：

上传视频文件
选择大语言模型（自动生成文案）
选择视觉模型（分析画面内容）
AI自动生成解说文案
选择音色并配音
调整参数（可选）：
- 多模态特征提取（6个参数）
- 时间轴优化（4个参数）
- 技术性能优化（4个参数）
- 跨平台适配（6个参数）
一键导出成品视频

高级配置：52个配置项可精细调优

✂️ 混剪模式

两种模式：

大众混剪模式
- 批量导入视频素材
- AI智能识别精彩片段
- 选择混剪风格（燃向/治愈/搞笑等）
- 自动添加转场和特效
- 导出混剪视频
音乐卡点混剪
- 上传音乐文件
- 自动节奏检测（4种算法）
- 卡点匹配策略（4种）
- 智能片段选择与排序
- 自动对齐音乐节拍

高级配置：34个配置项

🔊 AI配音

使用流程：

输入文本内容
选择TTS引擎：
- Edge-TTS（推荐，免费，23+音色）
- Google TTS（免费，100+语言）
- Azure TTS（专业级，需付费）
- Voice Clone（本地语音克隆）
选择音色和语言
调整基础参数（语速/音调/音量）
高级配置（可选）：
- TTS声学模型（5种）
- 声码器配置（5种）
- 韵律预测（8个参数）
- 情感TTS（12个参数）
- 说话人嵌入（8个参数）
- 音频特征提取（8个参数）
实时预览效果
导出高质量音频

高级配置：38个配置项（30个AI配置）

⚠️常见问题

问题1：启动失败 – Python未安装

症状：提示“未找到Python”

解决方案：

访问：https://www.python.org/downloads/
下载Python 3.9-3.11版本
安装时勾选“Add Python to PATH”
重新运行启动文件

问题2：端口被占用

症状：提示“端口5000已被占用”

解决方案：

启动时选择[Y]自动释放端口

或手动关闭占用进程：

netstat -ano | findstr ":5000"
taskkill /F /PID [进程ID]

问题3：依赖包缺失

症状：启动失败，提示模块未找到

解决方案：

运行“安装AI依赖.bat”完整安装
或启动时选择[1]快速安装

手动安装：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

问题4：AI功能无法使用

症状：无法生成文案/无法配音

解决方案：

检查API配置：访问 http://localhost:5000/api_settings
确保至少配置了一个大语言模型API
点击“测试”按钮验证API是否有效
查看API密钥是否正确

问题5：启动后无法访问

症状：浏览器打开但无法加载页面

解决方案：

检查防火墙设置
确认端口5000未被其他程序占用
尝试手动访问：http://127.0.0.1:5000
查看启动窗口的错误信息

技术文档

详细文档请查看文件夹：开发文档/

核心技术文档：

JJYB_AI智剪_完整开发文档.md
JJYB_AI智剪_完整开发文档_Part2.md
JJYB_AI智剪_完整开发文档_Part3.md

索引与说明：

README.md
文档索引.md

系统要求

最低配置

作系统： Windows 10/11（64位）
Python版本： 3.9 – 3.11（必须）
内存：8GB RAM
硬盘： 10GB 可用空间
网络：需要互联网（安装依赖和API调用）
FFmpeg：自动安装（包含在依赖中）

依赖包大小

基础依赖：~500MB
PyTorch（CPU版）：~200MB
AI模型：~1GB
总计：约2GB磁盘空间

📊 项目统计

功能完成度

原创解说： 52个配置项 ✅
视频混剪： 34个配置项 ✅
AI配音： 38个配置项 ✅
API配置： 19个模型 ✅
总配置项： 143个

模型支持

大语言模型： 9种
视觉模型： 6种
TTS模型： 4种
声学模型： 5种
声码器： 5种
总计： 29种模型/算法

技术文档

核心技术文档：4个
配置说明文档：4个
完善总结文档：8个
总计： 16个完整文档

🔄 版本历史

v2.0（2025-11-10）- 当前版本

✅ 统一启动文件（智能检查）
✅ 完整API配置（19个模型）
✅ 原创解说功能（52配置项）
✅ 视频混剪功能（34配置项，2种模式）
✅ AI配音功能（38配置项）
✅ 完整技术文档（16个）

v1.0（2024）

基础视频编辑功能
简单AI配音
初始版本

此处内容已隐藏，请评论后刷新页面查看.

评分

欢迎为Ta评分

JJYB_AI 智剪 – 智能视频自动剪辑与AI解说工具（离线TTS、原创解说、混剪、AI配音）

JJYB_AI智剪 v2.0

⚡ 快速开始（3步）

1️⃣ 检查环境

2️⃣ 启动应用

3️⃣ 访问应用

⭐ 三大核心功能

🎬 视频编辑器

🎙️ AI配音

📝 原创解说

🤖 AI模型支持

大语言模型（9种）

视觉分析模型（6种）

语音TTS模型（4种）

🏗️ 技术架构

📁 项目结构

🔧 技术栈

Web框架

AI/深度学习

大语言模型（9种）

视觉模型（6种）

视频处理

📖 详细使用说明

第一步：配置API（首次使用必须）

第二步：选择功能模块

🎙️ 原创解说剪辑

✂️ 混剪模式

🔊 AI配音

⚠️常见问题

问题1：启动失败 – Python未安装

问题2：端口被占用

问题3：依赖包缺失

问题4：AI功能无法使用

问题5：启动后无法访问

技术文档

系统要求

最低配置

推荐配置

依赖包大小

📊 项目统计

功能完成度

模型支持

技术文档

🔄 版本历史

v2.0（2025-11-10）- 当前版本

v1.0（2024）