TaleStreamAI ：AI 小说推文到视频的自动化工作流程

除夕

之前有AI工具支持写小说，现在的AI工具不仅可以写小说，还能提取小说片段生成视频。

软件介绍

TaleStreamAI，专注于自动化将 AI 生成的小说片段转化为引人入胜的视频内容以进行社交媒体分享的过程。工作流程无缝集成了最新的 AI 技术，以视觉上引人入胜的格式使虚构故事栩栩如生。推荐！

项目使用到的大模型

DeepSeek-V3
gemini-2.0-flash
硅基智能-FunAudioLLM/CosyVoice2-0.5B
秋葉 aaaki forge 整合包

项目截图

项目特征

全自动工作流程： TaleStreamAI 通过利用 AI 算法简化整个过程，消除了创建视频内容所涉及的体力劳动。

AI 小说推文提取：系统自动提取 AI 模型生成的小说推文，作为视频内容的基础。

视频创作：利用 AI 的力量，TaleStreamAI 将新颖的片段转换为具有视觉吸引力的视频，以便在各种社交媒体平台上分享。

效率和创新：通过将 AI 功能与讲故事相结合，TaleStreamAI 突破了内容创建和分发的界限。
项目流程

流程说明

文件名	功能	模型/库
main.py	获取书籍内容	无
board.py	生成章节分镜	gemini-2.0-flash
prompt.py	润色分镜提示词	deepseek-v3
image.py	生成图片	秋葉 aaaki forge 版
audio.py	生成音频	CosyVoice2-0.5B:benjamin
tts.py	生成字幕	本地运行 whisper
video.py	生成视频	ffmpeg-gpu 加速版
video_end.py	生成完整视频	ffmpeg-gpu 加速版

本地运行

本项目使用的是uv来管理依赖,建议 python 版本>=3.10

安装uv

pip install uv

创建虚拟环境

uv venv --python 3.12

    .\.venv\Scripts\activate

安装包

uv add -r requirements.txt

安装 torch 环境torch 环境请根据你系统的 cuda 版本来安装 torch 官网

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

可以通过nvidia-smi来查询你的显卡支持的最高cuda版本

nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.94                 Driver Version: 560.94         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 Ti   WDDM  |   00000000:01:00.0  On |                  N/A |
|  0%   28C    P8              4W /  285W |    2157MiB /  12282MiB |      2%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

通过 nvcc 来查询你电脑已安装的cuda版本

其实是你环境变量中配置的版本而已，一个电脑上可以安装多个 cuda

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

环境配置

复制 .env.example 文件，改名为 .env
配置其缺少的 APIKey
其中 AUDIO_API_KEY 是可以支持多 Key 轮询的，用,分割
(做到这一步我才意识到可以多 Key 支持高并发 ? 如果需 Gemini 需要高并发的话，可能需要手动去 copy 多 key 的处理的代码到board.py中了)
配置起点达人中心的 Cookie 用来抓取小说起点达人中心
安装ffmpeg最好安装GPU加速版，否则生成的很慢(好像新一点的版本都已经支持gpu加速了) Github
使用 ffmpeg -hwaccels 来列出硬件加速选项

Hardware acceleration methods:
cuda
vaapi
dxva2
qsv
d3d11va
opencl
vulkan

运行项目

我是直接按照项目流程来逐个运行文件的

uv run app/main.py     # 获取小说内容
uv run board.py    # 生成分镜
uv run prompt.py   # 优化提示词
uv run image.py    # 生成图片
uv run audio.py    # 合成音频
uv run tts.py      # 生成字幕
uv run video.py    # 制作分镜视频
uv run video_end.py # 最终合成

如果你想要直接运行也可以直接运行 main.py

uv run main.py

Whisper 模型规格概览

Whisper 模型规格

模型规格	参数量	最低显存要求
Tiny	39M	~1GB
Base	74M	~1GB
Small	244M	~2GB
Medium	769M	~5GB
Large	1550M	~10GB
Large-v2	1550M	~10GB
Large-v3	1550M	~10GB

运行示例代码 可以先写个测试，运行示例代码来下载 Whisper

import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# 选择适合您显存的模型大小，例如"medium"
model_id = "openai/whisper-medium"

# 启用半精度以节省显存
processor = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 确保模型在GPU上运行
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

下载地址

https://github.com/zqq-nuli/TaleStreamAI

成片演示：https://www.bilibili.com/video/BV1mmQvYEEwb/

免责声明：

本站提供的资源，都来自网络，版权争议与本站无关，所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，我们不保证内容的长久可用性，通过使用本站内容随之而来的风险与本站无关，您必须在下载后的24个小时之内，从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。侵删请致信E-mail：i@zcjun.com