四川大学图书馆人工智能专题

首页>>GenAI工具>>多模态应用

图像生成

Blog image

Midjourney

可以创建多样化的图像，对设备硬件无要求，运行需全程联网，数据存在服务器上。

Blog image

Dall-E 3

基于ChatGPT构建的图像生成模型，能够理解自然语言并生成高分辨率图像，支持多种图像尺寸和风格。

Blog image

Stable Diffusion

一个开源的图像生成模型，支持本地离线使用，对硬件要求较高，但允许用户在生成图像后进行图像元素调整，并以稳定和高质量图像输出而闻名，入门门槛较高。

Blog image

Leonardo

采用SD的方案，在线版生图质量高，有实时绘画、图片放大、图片视频生成等功能。

音乐生成

Blog image

Suno

能够根据文本实时生成自然、流畅且富有情感的语音，只需简单的Prompt,就可以生成完成度很高的音乐，支持多语言、不同语音风格和个性化定制，适用于语音助手、虚拟主播、播客和有声书等应用场景。目前提供中文版，但均需付费使用。

Blog image

Stable Audio

用户可以通过输入文本提示生成多种类型的背景音乐，音频长度可达3分钟。免费版每月可生成20个音乐，不能用于商业用途；每月收费11.99美元，可生成500个音乐，允许商业用途。

视频生成

Blog image

Runway

支持文本到视频（T2V）和图像到视频（I2V）的创作，用户可以通过输入文本或上传图像生成视频。Runway还提供视频抠像、慢动作效果等多种AI工具，且无需下载，直接在浏览器中使用。

Blog image

一帧视频

其功能包括秒创数字人、秒创AI帮写、秒创图文转视频、秒创AI视频、秒创AI语音、秒创AI作画等，提供网页版和App使用。

Blog image

即梦AI

支持AI配音、自动生成字幕、以及数字人物生成等，适用于iOS、Android、Windows和Mac OS多种操作系统。

Blog image

可灵AI

采用3D时空联合注意力机制和自研3D VAE网络，支持文本和图像生成高质量视频。其应用涵盖广告制作、社交媒体内容创作、在线教育、娱乐产业等。

Blog image

Pika

用户可通过文本或图像输入来生成多种风格（如3D动画、动漫）的视频，还可对视频或图像进行编辑。

Blog image

剪映

由字节跳动旗下的脸萌科技开发的一款视频编辑工具，适合需要丰富音乐素材和简便操作的用户，尤其是抖音等短视频平台的创作者。

数字人生成

Blog image

腾讯智影

一款云端智能视频创作工具，提供数字人播报、AI文本配音、自动字幕识别、智能去水印和文章转视频等特色功能，帮助用户高效便捷地制作高质量视频内容。

Blog image

万彩AI

一款数字人制作工具，提供多样化角色、智能面部识别、语音合成与配音、个性化定制和一键生成动画等功能。

Blog image

HeyGen

一个基于人工智能的视频生成平台，支持文本转语音、多语言翻译配音、AI数字人和语音克隆等功能。平台提供免费版本和多种付费方案，创作者版本每月29美元起，商业版本每月89美元起，分别提供不同的积分和功能支持。