MioSub Docs

技术架构

深入了解 MioSub 的核心技术实现

MioSub 的字幕生成引擎和编辑器均为自主研发,针对 AI 字幕场景深度优化。

字幕生成引擎

术语自动提取

传统机翻的痛点:专有名词翻译不一致,"東京" 一会儿是 "Tokyo" 一会儿是 "东京"。

MioSub 的方案:

  • 从音频中智能提取专有名词(人名、地名、作品名等)
  • 配合搜索引擎验证标准译法
  • 生成术语表供后续翻译参考,确保全片译名一致

长上下文翻译

传统机翻逐句处理,前后文不通,容易断章取义。

MioSub 的方案:

  • 按语义切分为 5-10 分钟片段
  • 保留完整上下文进行翻译,理解说话人意图
  • 支持场景预设(动漫、电影、新闻、科技),自动优化翻译风格

转录后处理

Whisper 原始输出存在断句不准、时间偏差等问题。

MioSub 的方案:

  • 智能断句:根据语义和停顿自动分割字幕
  • 时间轴校正:修复 Whisper 输出的时间偏差
  • 术语替换:自动应用术语表,统一译名

CTC 强制对齐

基于 CTC (Connectionist Temporal Classification) 技术的高精度时间轴对齐。

  • 支持毫秒级字符对齐
  • v3.0 已内置对齐器,开箱即用
  • 首次使用自动下载模型

说话人识别

多人对话场景下,自动识别并标注说话人身份。

  • 基于 LLM 推理说话人身份
  • 支持自定义说话人名称和颜色
  • 支持合并相邻同说话人字幕

智能并发控制

根据不同模型动态调整并发数,避免限流的同时最大化速度:

模型并发数策略
Gemini Flash5速度优先
Gemini Pro2避免限流

效果:30 分钟视频约 8-10 分钟处理完成。

全自动流水线

粘贴视频链接(YouTube/Bilibili),自动完成全部流程:

  1. 自动下载 — 调用 yt-dlp 下载最佳画质视频
  2. 音频提取 — 自动提取音频并进行 VAD 分段
  3. 智能转写 — 使用 Whisper 进行语音转录
  4. AI 翻译润色 — Gemini 进行上下文感知的翻译和校对
  5. 自动压制 — FFmpeg 将双语字幕烧录到视频(支持 GPU 加速)
  6. 输出成品 — 直接生成带硬字幕的 MP4 文件

字幕编辑器

实时预览

  • 内置 assjs 渲染引擎,精确渲染字体、颜色、位置
  • 所见即所得,编辑即预览
  • 源文/译文一键切换,快速校对

智能缓存

  • 高效缓存转码预览,确保流畅播放
  • 支持纯音频文件,播放器界面自动适配

批量操作

  • 批量重新生成:选中片段一键重跑完整流程(转录→润色→对齐→翻译)
  • 润色翻译:对选中片段进行翻译质量优化,保持上下文连贯
  • 操作前自动保存版本快照,可随时回滚

版本管理

  • 自动保存编辑历史
  • 支持快照回滚
  • 防止误操作丢失工作

On this page