技术架构

深入了解 MioSub 的核心技术实现

MioSub 的字幕生成引擎和编辑器均为自主研发，针对 AI 字幕场景深度优化。

字幕生成引擎

术语自动提取

传统机翻的痛点：专有名词翻译不一致，"東京" 一会儿是 "Tokyo" 一会儿是 "东京"。

MioSub 的方案：

从音频中智能提取专有名词（人名、地名、作品名等）
配合搜索引擎验证标准译法
生成术语表供后续翻译参考，确保全片译名一致

长上下文翻译

传统机翻逐句处理，前后文不通，容易断章取义。

MioSub 的方案：

按语义切分为 5-10 分钟片段
保留完整上下文进行翻译，理解说话人意图
支持场景预设（动漫、电影、新闻、科技），自动优化翻译风格

转录后处理

Whisper 原始输出存在断句不准、时间偏差等问题。

MioSub 的方案：

智能断句：根据语义和停顿自动分割字幕
时间轴校正：修复 Whisper 输出的时间偏差
术语替换：自动应用术语表，统一译名

CTC 强制对齐

基于 CTC (Connectionist Temporal Classification) 技术的高精度时间轴对齐。

支持毫秒级字符对齐
v3.0 已内置对齐器，开箱即用
首次使用自动下载模型

说话人识别

多人对话场景下，自动识别并标注说话人身份。

基于 LLM 推理说话人身份
支持自定义说话人名称和颜色
支持合并相邻同说话人字幕

智能并发控制

根据不同模型动态调整并发数，避免限流的同时最大化速度：

模型	并发数	策略
Gemini Flash	5	速度优先
Gemini Pro	2	避免限流

效果：30 分钟视频约 8-10 分钟处理完成。

全自动流水线

粘贴视频链接（YouTube/Bilibili），自动完成全部流程：

自动下载 — 调用 yt-dlp 下载最佳画质视频
音频提取 — 自动提取音频并进行 VAD 分段
智能转写 — 使用 Whisper 进行语音转录
AI 翻译润色 — Gemini 进行上下文感知的翻译和校对
自动压制 — FFmpeg 将双语字幕烧录到视频（支持 GPU 加速）
输出成品 — 直接生成带硬字幕的 MP4 文件

字幕编辑器

实时预览

内置 assjs 渲染引擎，精确渲染字体、颜色、位置
所见即所得，编辑即预览
源文/译文一键切换，快速校对

智能缓存

高效缓存转码预览，确保流畅播放
支持纯音频文件，播放器界面自动适配

批量操作

批量重新生成：选中片段一键重跑完整流程（转录→润色→对齐→翻译）
润色翻译：对选中片段进行翻译质量优化，保持上下文连贯
操作前自动保存版本快照，可随时回滚

版本管理

自动保存编辑历史
支持快照回滚
防止误操作丢失工作

On this page

字幕生成引擎术语自动提取长上下文翻译转录后处理 CTC 强制对齐说话人识别智能并发控制全自动流水线字幕编辑器实时预览智能缓存批量操作版本管理