mxivideo/prompt.md

# 视频混剪软件
- 分层架构设计
* 前端层Tauri负责UI渲染和用户交互
* 桥接层Tauri Command实现前端与Python核心的通信
* 核心层Python 视频处理核心逻辑
* 服务层Python 后台服务和文件管理


- 命令行工具

### **方案2: 纯Typer实现**

#### **特点**
- 🎯 类型提示驱动
- ✨ 现代化Python风格
- 🤖 自动补全和验证

#### **代码示例**
```python
from typing import Optional
from enum import Enum

class DetectorType(str, Enum):
    content = "content"
    threshold = "threshold"
    adaptive = "adaptive"

@app.command()
def detect(
    video_path: Path = typer.Argument(..., help="视频文件路径"),
    detector: DetectorType = typer.Option(DetectorType.content, help="检测器类型"),
    threshold: float = typer.Option(30.0, help="检测阈值"),
    output: Optional[Path] = typer.Option(None, help="输出文件路径")
):
    """检测单个视频的场景"""
    # 类型安全的处理逻辑
    pass
```

## 多命令集成方案


- MoviePy‌

```
‌功能‌：支持剪辑拼接、字幕添加、特效调整（亮度/对比度/曝光）、音视频分离、格式转换等
‌优势‌：API简洁，可直接调用FFmpeg底层能力，适合复杂合成场景
```

- FFmpeg-Python

```
定位‌：FFmpeg的Python封装，处理底层编码/解码
适用场景‌：精准切割、格式转换、批量处理等高性能操作
```

- ‌PyAutoGUI

```
‌功能‌：模拟鼠标键盘操作，控制桌面软件（如剪映）
适用场景‌：无法直接调用API时的自动化流程（如导入素材、点击导出按钮）
```

- PySceneDetect‌

```
‌功能‌：自动检测镜头切换点，提取高光片段
典型应用‌：快速生成短视频精华版或预告片
```

- ‌OpenCV-Python

```
‌作用‌：帧级处理（人脸识别、动态追踪）
‌场景‌：需逐帧分析的自动化任务（如自动打码）‌
```

- Pydub‌

```
定位‌：音频处理（剪切、音量调整、混音）
‌协同使用‌：与MoviePy配合实现音视频分别处理‌
```

- TTS库（gTTS/pyttsx3）
```
功能‌：文本转语音，自动生成配音
‌扩展应用‌：结合百度API支持粤语/普通话‌
```


- Librosa‌

```
定位‌：专业音频分析库，提供完整的节奏识别流水线
‌核心功能‌：
1. 节拍跟踪 librosa.beat.beat_track() 自动检测BPM与节拍点‌23
2. 频谱特征提取（梅尔频谱、MFCC等）
3. 时序对齐与波形可视化
```

- PyAudio‌

```
使用 ‌PyAudio‌ 采集麦克风输入流
```


- Audiolazy‌

```
用途：实时信号处理
场景：流式音频节奏分析
```


- Madmom‌

```
用途：深度学习节拍检测
场景：高精度复杂音乐分析
```

- TempoCNN‌

```
用途：基于CNN的BPM预测
场景：EDM/摇滚等强节奏音乐
```


- Music21

```
‌功能‌：乐谱生成、和弦序列编排、转调处理
```


- PySynth

```
原理‌：通过正弦波/方波合成基础音色
‌特点‌：无需依赖外部音源，适合生成电子音效‌
```


- FluidSynth‌

```
用途：MIDI转音频
场景：结合SF2音色库生成高质量输出
```


- Magenta‌

```
用途：AI音乐生成
场景：Google开发的音乐机器学习框架
```


- Spleeter

```
Spleeter分离人声/伴奏
```

- Sonic Pi

```
用途：实时编码
场景：表演级电子音乐生成
```

- 分布式任务调度

```
使用Celery+Redis构建剪辑任务队列
```


- Elasticsearch

```
Elasticsearch建立素材标签索引（按场景/时长/主题分类）
```

```
本地SSD缓存高频素材 + 对象存储(OSS/S3)管理历史资源
```


- Video-Transformers

```
功能：视频内容理解
场景：自动打标与关键帧提取
```


- 易媒矩阵工具

```
功能：多平台适配模板
场景：一键生成横竖屏多版本
```

- OpenGL滤镜‌
- Magenta + NumPy视觉化‌
- LC3编码器 + 绿幕分层渲染‌
- MoviePy + PySceneDetect‌
- FFmpeg-python + OpenGL滤镜‌