-
Zerox OCR:开源AI OCR神器 高效转换文档为结构化数据
Zerox OCR介绍 Zerox OCR 是一款开源的 AI 文档智能工具,专为将 PDF、DOCX、图片等格式的文件高效转换为 Markdown 而设计。该工具利用先进的 AI 视觉模型(例如 GPT-4o-mini)实现 OCR 识别,先将文档拆分成一系列图片,再逐一传递给模型生成 Markdown,最后整合输出为结构化数据,从而应对复杂的文档布局、表格和图表等多样化内容。Zerox OCR…- 45
- 0
-
DiffRhythm – AI音乐生成器 扩散模型作曲神器 | 10秒创作人声伴奏完整歌曲
DiffRhythm介绍 DiffRhythm是一款基于扩散模型技术的AI音乐生成平台,让普通人也能秒变“音乐制作人”。只需输入歌词和风格提示(如流行、电子、古典),AI即可在10秒内生成带人声和伴奏的完整歌曲,最长支持4分45秒的专业级作品,覆盖中英文双语。无论是想为视频配乐、创作个人单曲,还是教学演示,它都能一键解决编曲难题。平台采用非自回归架构,免去复杂数据预处理,支持歌词与旋律精准同步,生…- 52
- 0
-
Ries:零压力学语言AI工具 在母语环境中自然地学习语言
Ries是什么 Ries是一款零压力学语言AI工具,让你在母语环境中自然地学习语言,旨在通过将新语言融入到用户的日常内容中,帮助他们自然地提高语言水平。通过在浏览新闻、社交媒体或博客等网站时,智能地将目标语言中的单词融入到母语内容中,Ries 使得学习新语言变得轻松且不费力。用户无需改变浏览习惯,就能在不额外花费时间的情况下,通过日常浏览逐步扩展词汇量。Ries 还根据用户的语言水平,个性化地调整…- 49
- 0
-
AniDoc:动画创作草图高保真着色工具
AniDoc是什么 AniDoc 是一款开源的动画创作草图高保真着色工具,旨在简化动画制作流程并减少劳动成本。它通过自动为草图序列上色,根据角色设计参考图为草图添加颜色,即使草图在姿势和比例上有所不同,也能保持高度准确的色彩匹配。AniDoc 能处理草图与角色设计之间的差异,如角度和比例不一致,确保上色效果的一致性和高保真度。该工具支持多种参考图的使用,生成多样化的上色效果,并能够在处理不同草图时…- 20
- 0
-
Gemini 英语口语助手:Gemini Teacher
Gemini Teacher Gemini Teacher是一款Gemini 英语口语助手,基于 Google Gemini AI 的英语口语练习助手,它能实时识别你的英语发音,提供即时反馈和纠正建议,旨在打造最强的英语口语学习软件。它利用 Gemini 的多模态能力,能够实时识别用户的英语发音,并提供即时反馈和纠正建议,有效解决了传统语音学习工具无法识别语调和发音等问题。Gemini Teach…- 91
- 0
-
微软开源图片到3D模型生成模型-TRELLIS
TRELLIS是什么 TRELLIS 是微软推出的开源图片到3D模型生成模型,基于统一的结构化潜在表示(SLAT)和整流流变换器构建,支持从文本或图像提示生成高质量、多格式的 3D 资产,如辐射场、3D 高斯和网格。该模型经过大规模预训练(参数达 20 亿),在细节丰富的几何形状、纹理生成和灵活编辑方面表现优异,支持输出格式选择与本地 3D 编辑,适用于 3D 艺术设计、游戏开发等场景。Trell…- 70
- 0
-
ClearerVoice-Studio:开源的 AI 语音处理工具包
ClearerVoice-Studio介绍 ClearerVoice-Studio 是一款开源 AI 语音处理工具包,专为研究人员、开发人员和最终用户设计,提供语音增强、语音分离、目标说话人提取等多项功能。其特点包括尖端的预训练模型、易用的接口、全面的语音处理算法,以及社区驱动的协作环境。ClearerVoice-Studio 是一个功能全面且灵活的平台,适合提升语音质量的应用场景,同时欢迎社区贡…- 74
- 0
-
Vave BG-高质量可商用AI图库 壁纸库
Vave BG是什么 Vave BG 是一个 AI 生成的图像项目,由 Gyoza 于 2023 年 10 月创建。它的功能类似于 Unsplash,为设计、壁纸和演示文稿提供了一系列免费、易于使用的背景。Vave BG 上的所有图像都是使用各种 AI 工具制作的,其中许多目前是通过 Midjourney 生成的。Vave BG 在 CC0 许可下运营,允许用户免费下载、修改、分发甚至商业化图像,…- 91
- 0
-
地址生成器-全球免费虚拟地址和身份信息生成工具
地址生成器 地址生成器是一款在线全球免费虚拟地址和身份信息生成工具,这种工具通常用于各种测试和模拟场景,如软件开发、数据分析和教育演示中。使用这种工具,用户可以快速生成包括姓名、地址、电话号码以及其他相关身份信息在内的完整虚拟身份等等,目前支持中国地址生成、台湾地址生成、美国地址生成、法国地址生成、日本地址生成和中国人名批量生产等等。 地址生成器网站 网站:https://ratenn.com/- 705
- 0
-
文多多 AiPPT:AI智能生成PPT演示文稿
文多多 AiPPT是什么 文多多 AiPPT是一款在线AI智能生成PPT演示文稿工具,一键搞定PPT,告别繁琐,仅需一分钟,文多多帮你制作出令人赞叹的专业PPT演示文稿。AI根据主题、文档、网址智能生成PPT文档,同时支持在线编辑、美化、排版、导出、一键动效、自动生成演讲稿等功能,告别工作烦恼,目前文多多 AiPPT支持AI 智能生成 PPT,PPT 解析为 JSON,JSON 反渲染为 PPT,…- 210
- 0
-
Live Portrait AI:AI照片转视频工具 将静态图像转换为动态视频
https://zcjun.com//wp-content/uploads/2024/07/Live-Portrait-AI:AI照片转视频工具-将静态图像转换为动态视频.mp4 Live Portrait AI是什么 Live Portrait AI是一款AI照片转视频工具,利用AI将静态图像转换为具有逼真面部表情和动作的动态视频,通过动画、匹配头部运动、面部表情、情绪甚至驾驶员视频的声音,使静…- 165
- 0
-
AnimateAnyone-静态图片到视频生成器 Novita AI 对 Animate Everyone 的非官方实现
AnimateAnyone是什么 AnimateAnyone-静态图片到视频生成器,让任何人都动起来,是一个Novita AI 对 Animate Everyone 的非官方实现项目,此存储库目前提供Animate Everyone的非官方预训练权重和推理代码,目前可以实现文字转图片、文字转视频、图片转视频、换背景、替换对象、移除水印等等操作。 AnimateAnyone演示 AnimateAny…- 93
- 0
-
Pic Smaller-开源在线图片压缩工具
Pic Smaller是什么 Pic Smaller是一个开源在线超好用的图片压缩工具,支持WebP、PNG、JPEG 和 Gif 图像在线压缩,用户界面简单直观,图片压缩在本地进行,没有数据经过任何服务器,所以比较安全,项目基于vite + React开发。 Pic Smaller如何使用 演示地址:https://txx.cssrefs.com/ GitHub:https://github.c…- 121
- 0
-
AniTalker-开源照片+音频视频生成器 脸部表情 嘴形同步
AniTalker是什么 AniTalker是一款开源照片+音频视频生成器框架 ,通过身份解耦面部运动编码制作生动且多样化的说话面孔,可将单个静态肖像照片和输入音频转换为具有自然流动动作的动画对话视频,生成的结果的每一列都使用具有相似姿势和表情的相同控制信号,但包含一些随机变化,展示了我们的多样性产生的结果。 AniTalker介绍 AniTalker,这是一个创新框架,旨在从单个肖…- 129
- 0
-
ConsolidatedID:具有多模式细粒度身份保护的肖像生成
ConsolidatedID是什么 ConsolidatedID:具有多模式细粒度身份保留的肖像生成,是一个面部一致性生成项目,给定一些输入 ID 的图像, ConsistentID 可以仅使用单个图像,根据文本提示生成各种个性化 ID 图像,人像生成具有极高的ID保真度,不牺牲多样性、文本可控性,几秒钟内快速定制,无需额外的 LoRA 培训。ConsolidatedID 包含两个关键组件:一个多…- 61
- 0
-
公众号流量主自动化爆文机器人,自动写作自动发布,解放双手
公众号可以自动化操作了,公众号流量主赛道日益拥挤,提高效率才是王道,目前自动化机器人的功能包括:自动写文章、自动插入图片、自动插入封面、自动写标题、自动点击发布或存草稿,而且功能会继续保持更新。 支持公众号、头条、知乎等大多数平台的文章链接导入。 目录: 1、部署准备和功能介绍 2、部署流程和演示 3、常见问题 资源下载地址- 45
- 0
-
Parler TTS-开源高质量文本转语音 (TTS) 模型
Parler TTS是什么 Parler TTS是一个轻量级的开源高质量文本转语音 (TTS) 模型,可以以给定说话者的风格(性别、音调、说话风格等)生成高质量、自然流畅的语音。它是根据Dan Lyth和Simon King在Stability AI和Edinburgh University发表的论文《Natural language guidance of high-fidelity text-…- 56
- 0
-
Douyin Vue-开源版抖音 模仿抖音TikTok
Douyin Vue是什么 Douyin Vue是一个基于Vue和Vite实现的移动端短视频项目,模仿了抖音|TikTok的界面和功能。它采用了最新的Vue全家桶技术栈,并将API数据保存在项目本地。视频来源于抖音|TikTok,图集来源于小红书|Xiaohongshu。通过axios-mock-adapter库拦截API请求并返回本地JSON数据,以模拟真实的后端请求。该项目需要在Node环境下…- 222
- 0
-
OpenUI-开源AI代码生成器 根据描述生成UI界面
OpenUI是什么 OpenUI是一款开源的AI代码生成器,根据描述生成UI界面,并能够输出HTML、CSS等前端代码,支持React、Svelte等框架,简化前端开发流程,通过生成式AI降低前端开发门槛,提高设计和编码效率,推动人机协作成为未来的常态。使用OpenUI非常简单,只需在文本框中输入对所需界面的描述,即可生成对应的UI效果图,并可通过指令进行实时修改和添加简单的动态效果。 开源AI代…- 56
- 0
-
Suno AI 音乐生成器-Suno API
Suno API是什么 Suno API是一个在线Suno AI 音乐生成器,只需要输入歌词、音乐风格和歌曲名字即可以创作独特的 AI MP3 歌曲,免费使用,Suno API基于Python和FastAPI的非官方Suno API,目前支持生成歌曲、歌词等,内置token维护和保活功能,不用担心token过期,体验需要注册登录,提供试用额度。 Suno AI 音乐生成器 演示地址:https:/…- 101
- 0
-
Clarity Upscaler-开源AI无损图片放大工具 提升分辨率
Clarity Upscaler是什么 Clarity Upscaler是一款开源AI无损图片放大工具,该工具能够将低分辨率图像通过AI算法转换为高清晰度图像,有效改善了图像的放大过程中可能出现的模糊和像素化问题,这是开发者对Magnific AI 程序进行逆向工程得到的,而且还提供了付费的版本。 开源AI无损图片放大工具 演示地址:https://replicate.com/philz1337x…- 78
- 0
-
GeoGebra-免费且功能强大的动态数学软件 可视化绘图计算器
GeoGebra是什么 GeoGebra是一款免费且功能强大的动态数学软件、可视化绘图计算器,于2001年由Markus Hohenwarter在奥地利萨尔茨堡大学制作。其名称是Geometry(几何)和Algebra(代数)的混成词。主要功能包含CAS计算机、科学计算机、3D计算机、计算与绘图。其特点为能创建几何对象,并保持它们之间的关系,可以用来快速的实验数学上的想法、观察图形变化或者制作简单…- 54
- 0
-
MeloTTS-高质量多语言文本转语音工具
MeloTTS是什么 MeloTTS是由MyShell.ai推出的开源高质量多语言文本转语音库、多语言文本转语音工具,目前支持英语、西班牙语、法语、中文、日语和韩语等等语言。其语音合成速度快,即使在普通CPU上也能实现实时合成,生成高质量、自然流畅的语音输出,提供在线演示的版本。 高质量多语言文本转语音工具 演示地址:https://huggingface.co/spaces/mrfakename…- 69
- 0
-
Just Mark-AI收藏夹工具 一键收藏网页 AI智能分类与搜索
Just Mark Just Mark是一款AI收藏夹工具,一键收藏网页,AI智能分类与搜索,即使模糊的记忆也能找到需要的网页。而且使用非常简单,使用Just Mark收藏网页时无需手动进行网页的分类管理,我们的AI会自动进行分类和关键词提取。当你想要查询收藏的网页时,无需使用精确的关键词进行查询, 只需要你记起的任意相关的词汇都能够找到你需要的网页,甚至使用任意语言进行查询都可以,目前支持Chr…- 90
- 0