技术架构
深入了解 MioSub 的核心技术实现
MioSub 的字幕生成引擎和编辑器均为自主研发,针对 AI 字幕场景深度优化。
字幕生成引擎
术语自动提取
传统机翻的痛点:专有名词翻译不一致,"東京" 一会儿是 "Tokyo" 一会儿是 "东京"。
MioSub 的方案:
- 从音频中智能提取专有名词(人名、地名、作品名等)
- 配合搜索引擎验证标准译法
- 生成术语表供后续翻译参考,确保全片译名一致
长上下文翻译
传统机翻逐句处理,前后文不通,容易断章取义。
MioSub 的方案:
- 按语义切分为 5-10 分钟片段
- 保留完整上下文进行翻译,理解说话人意图
- 支持场景预设(动漫、电影、新闻、科技),自动优化翻译风格
转录后处理
Whisper 原始输出存在断句不准、时间偏差等问题。
MioSub 的方案:
- 智能断句:根据语义和停顿自动分割字幕
- 时间轴校正:修复 Whisper 输出的时间偏差
- 术语替换:自动应用术语表,统一译名
CTC 强制对齐
基于 CTC (Connectionist Temporal Classification) 技术的高精度时间轴对齐。
- 支持毫秒级字符对齐
- v3.0 已内置对齐器,开箱即用
- 首次使用自动下载模型
说话人识别
多人对话场景下,自动识别并标注说话人身份。
- 基于 LLM 推理说话人身份
- 支持自定义说话人名称和颜色
- 支持合并相邻同说话人字幕
智能并发控制
根据不同模型动态调整并发数,避免限流的同时最大化速度:
| 模型 | 并发数 | 策略 |
|---|---|---|
| Gemini Flash | 5 | 速度优先 |
| Gemini Pro | 2 | 避免限流 |
效果:30 分钟视频约 8-10 分钟处理完成。
全自动流水线
粘贴视频链接(YouTube/Bilibili),自动完成全部流程:
- 自动下载 — 调用 yt-dlp 下载最佳画质视频
- 音频提取 — 自动提取音频并进行 VAD 分段
- 智能转写 — 使用 Whisper 进行语音转录
- AI 翻译润色 — Gemini 进行上下文感知的翻译和校对
- 自动压制 — FFmpeg 将双语字幕烧录到视频(支持 GPU 加速)
- 输出成品 — 直接生成带硬字幕的 MP4 文件
字幕编辑器
实时预览
- 内置 assjs 渲染引擎,精确渲染字体、颜色、位置
- 所见即所得,编辑即预览
- 源文/译文一键切换,快速校对
智能缓存
- 高效缓存转码预览,确保流畅播放
- 支持纯音频文件,播放器界面自动适配
批量操作
- 批量重新生成:选中片段一键重跑完整流程(转录→润色→对齐→翻译)
- 润色翻译:对选中片段进行翻译质量优化,保持上下文连贯
- 操作前自动保存版本快照,可随时回滚
版本管理
- 自动保存编辑历史
- 支持快照回滚
- 防止误操作丢失工作