乐胖代购免代理版

PAIR发布长视频生成模型StreamingT2V：2分钟超长AI视频生成，最强开源视频生成

前言随着人工智能技术的不断进步，AI生成内容（AIGC）已经成为了技术研究和应用开发的热点领域。特别是在视频生成领域，从短视频到长视频的生成，AI模型正不断突破限制，带来更加丰富和动态的内容创作可能。最近，Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出的StreamingT2V视频模型，无疑为长视频生成领域注入了新的活力。StreamingT2V模型简介Streamin

应用开发

人工智能

技术参考

原创 9月前 154 阅读

阿里Qwen1.5-32B开源，评测超Mixtral MoE，挑战SOTA性价比

多语言

模态

开发者

原创 9月前 233 阅读

VoiceCraft：开源语音编辑和零样本语音合成模型，性能超过VALL-E和XTTS v2

引言语音编辑和零样本语音合成是两个亟待解决的语音处理领域。前者能够帮助内容创作者更轻松地修改语音录音中的错误词或短语，使之更加流畅自然;后者则可以赋予语音合成模型处理未见过的目标说话人声音的能力，大幅提升应用场景的广泛性。然而，目前现有的方法在这些任务上仍存在诸多挑战，比如生成的语音缺乏自然性和连贯性，或者泛化性较差，难以应对复杂的真实世界数据。VoiceCraft，是一个基于神经编码语言模型的开

语音合成

数据集

相似度

原创 9月前 92 阅读

智源Bunny轻量级多模态模型：数据浓缩技术让3B小模型性能媲美13B大模型

前言近年来，基于Transformer架构的多模态大语言模型(MLLM)在视觉理解和推理任务中展现了出色的性能。然而，这些模型通常需要大量的计算资源和内存，这限制了它们在研究和用户社区中的普及应用。一种直接的解决方案是使用更小的预训练视觉和语言模型，但这往往会导致性能大幅下降。Bunny，这是一系列基于数据优化的轻量级多模态模型。Bunny提供了灵活的视觉编码器和语言模型组合，通过从更丰富的训练数

数据

模态

语言模型

原创 9月前 81 阅读

Databricks发布MoE大模型DBRX：1320亿参数开源模型，推理速度提升2倍，评测超越ChatGPT和LLama

前言在人工智能领域，大型语言模型（LLM）的研发一直是技术竞争的前沿。最近，Databricks公司推出的DBRX模型，以其1320亿参数的规模和创新的细粒度MoE（混合专家）架构，成为开源社区的焦点。本文将深入探讨DBRX模型的关键技术细节、性能评测、以及它在推理速度、成本效率和多模态处理能力上的显著优势。DBRX模型简介DBRX是一种基于Transformer架构的混合专家模型，总参数达到13

细粒度

处理速度

性能评测

原创 9月前 83 阅读

腾讯AniPortrait开源：音频合成逼真人脸动画，对标阿里EMO

前言在数字时代，人工智能技术的创新正以前所未有的速度推进着视觉艺术的边界。最近，腾讯公司宣布开源其最新的AI框架——AniPortrait，这一动作无疑为静态图像动态化技术注入了新的活力。AniPortrait旨在通过音频和参考图像生成高质量、逼真的动画肖像，这不仅展现了腾讯在人工智能领域的深厚实力，也为全球开发者和爱好者提供了一个强大的工具，以推动创新和探索。AniPortrait核心功能与技术

3D

人工智能

音频处理

原创 9月前 100 阅读

阿里首个MoE大模型Qwen1.5 MoE A2.7B：27亿参数MoE性能媲美70亿参数，推理速度提升74%

前言近期，阿里巴巴宣布开源其首个MoE（混合专家）技术大模型——Qwen1.5-MoE-A2.7B，这标志着阿里在人工智能领域的又一重大进展。Qwen1.5-MoE-A2.7B不仅在技术上有所创新，更在性能上实现了突破，其27亿参数的MoE模型在多个基准测试中的性能可以媲美传统的70亿参数模型，同时推理速度提升达到74%。技术背景与模型简介Qwen1.5-MoE-A2.7B模型采用混合专家技术，通

性能比较

性能分析

开发者

原创 10月前 288 阅读

HPT发布HyperGAI 多模态大模型：性能领先GPT-4V，全面胜过Gemini Pro

前言HyperGAI研究团队自豪地宣布推出HPT——新一代领先的多模态大型语言模型（Multimodal Large Language Model, Multimodal LLM）。作为人工通用智能（Artificial General Intelligence, AGI）构建的基石，HPT跨入多模态理解的新时代奠定了基础。与传统的仅文本LLM不同，多模态LLM旨在理解包括文本、图像、视频等在内的

模态

基准测试

可扩展

原创 10月前 66 阅读

字节跳动开源视频生成模型：AnimateDiff-Lightning视频生成加速十倍

前言在近日，字节跳动再次引领AI视频生成领域的革新，推出了其最新研究成果——AnimateDiff-Lightning模型。这款开源的文本到视频生成模型，以其令人惊叹的生成速度和卓越的生成质量，标志着视频生成技术的一个重大突破，其生成速度较原版AnimateDiff快达十倍以上，极大地提升了视频内容创造的效率。技术背景与创新AnimateDiff-Lightning模型是基于AnimateDiff

技术细节

生成模型

技术方面

原创 10月前 116 阅读

全新Mistral-7B v0.2基础模型开源：32K上下文，开源界的性能巨兽

前言在人工智能领域的发展历程中，开源大模型始终是推动技术进步与创新应用的关键力量。近日，Mistral AI再次引领开源潮流，发布了Mistral-7B v0.2基础模型，这不仅是对之前版本的升级，更是在性能与功能上的一次质的飞跃。Mistral-7B v0.2不仅将上下文长度由4K扩展至惊人的32K，还在多个维度上进行了优化与调整，证实了其作为开源界性能巨兽的地位。模型升级亮点上下文长度的扩展M

开发者

应用场景

滑动窗口

原创 10月前 64 阅读

Stable Video 3D震撼发布：3D生成引入视频扩散模型，4090可跑，权重全开放

3D

缩放

ide

原创 10月前 71 阅读

Cohere发布大模型Command-R：35B参数，128K上下文，高性能 RAG 功能，支持中文

引言随着人工智能技术的快速发展，大型语言模型（LLM）在各行各业的应用日益广泛。Cohere最新发布的Command-R模型，以其35B参数和128K的长上下文能力，为企业级应用带来了前所未有的可能性。本文将深入探讨Command-R的核心技术特性、性能表现以及其在实际应用中的潜力。Command-R是Cohere针对大规模生产负载设计的一款先进的生成模型。它采用了最新的机器学习技术，优化了长上下

人工智能

企业级应用

自定义

原创 10月前 144 阅读

国产Sora全面开源，Open-Sora公开所有训练细节和模型权重，开箱即用

前言在近期，国产技术团队Colossal-AI发布了引人注目的消息：他们全面开源了一个类似于OpenAI Sora的视频生成模型——Open-Sora 1.0。这一开源项目不仅包含了全部的训练细节和模型权重，而且其训练成本仅需1万美元，实现了64块GPU的高效复现。此举标志着在文生视频领域，国产技术已迈出了重要的一步，开启了视频创作新纪元的大门。模型概述Open-Sora 1.0继承并超越了Ope

数据

时间序列

服务器

原创 10月前 269 阅读

DeepSeekAI发布多模态大模型DeepSeek-VL：从13亿到70亿参数的多模态精确度，免费商用

前言随着人工智能技术的不断发展，多模态大模型在理解复杂世界方面的能力日益增强。DeepSeekAI，一家由幻方量化支持的创新型大模型公司，最近发布了其最新的多模态大模型系列——DeepSeek-VL。该系列包含从13亿到70亿参数的模型，旨在提高机器对图像和文本的理解能力，同时支持广泛的商业应用。DeepSeek-VL模型简介DeepSeek-VL系列代表了在多模态AI领域的一大突破，提供了两种不

数据集

模态

语言模型

原创 10月前 355 阅读

智谱&清华LongAlign发布：重塑NLP长文本处理

引言随着大型语言模型（LLMs）的不断进化，我们现在能够处理的文本长度已经达到了前所未有的规模——从最初的几百个tokens到现在的128k tokens，相当于一本300页的书。这一进步为语义信息的提供、错误率的减少以及用户体验的提升打开了新的可能性。智谱技术团队与清华大学的最新合作成果——LongAlign模型，专注于长文本的精准对齐，不仅突破了长上下文处理的技术瓶颈，而且在数据集构建、训

数据集

文本处理

自然语言处理

原创 10月前 264 阅读

零一万物开源并发布Yi-9B大模型，消费级显卡可用，代码数学能力历史最强

前言随着人工智能技术的快速发展，大型模型在多个领域展现出了惊人的能力和潜力。近日，李开复旗下AI公司零一万物宣布，他们的最新力作——Yi-9B大模型正式对外开源发布。这款具有90亿参数的大模型，在代码和数学能力上达到了前所未有的高度，同时保持了对消费级显卡的良好兼容性，为广大开发者和研究人员提供了前所未有的便利性和强大功能。Huggingface模型下载：://huggingface.c

开发者

人工智能

Math

原创 10月前 65 阅读

开源文生图大模型Playground v2.5发布：超越SD、DALL·E 3和 Midjourney

前言在AI技术迅速发展的今天，文生图模型成为了艺术创作、设计创新等领域的重要工具。Playground v2.5的发布，不仅在技术上取得了突破，更在开源文化的推广与实践上迈出了重要一步。Huggingface模型下载：://huggingface.co/playgroundaiAI快站模型免费加速下载：://aifasthub./models/playgroundai技术

宽高

数据

生成模型

原创 10月前 315 阅读

UC伯克利震撼推出“世界大模型”:一次性处理百万token，精准解读长视频

前言在人工智能领域，解读和理解视频内容一直是一个巨大挑战。传统的模型虽然能够处理文本和静态图像，但在理解长视频的动态过程中，往往力不从心。近期，UC伯克利研究团队推出的“世界大模型”（Large World Model，简称LWM）为语言模型理解物理世界铺平了新的道路，这一里程碑式的进展令人震撼。模型概述“世界大模型”通过采用先进的RingAttention技术，成功地对长序列进行了可扩展训练，从

模态

应用场景

解决方案

原创 10月前 124 阅读

北大多模态Video-LLaVA模型：秒懂视频笑点的视觉语言大模型

前言随着人工智能技术的持续进步，北京大学的研究者们最近提出了一种全新的视觉语言大模型——Video-LLaVA，它通过创新的技术手段，使得大型语言模型（LLM）能够同时处理和理解图片与视频内容。这一跨越性的进展不仅推动了多模态学习的边界，还在视频问答等下游任务中取得了卓越的性能表现。模型概述Video-LLaVA模型的核心在于其能够提前将图片和视频的特征绑定到统一的特征空间中，这一策略极大地促进了

ide

数据集

模态

原创 10月前 392 阅读

Stable Cascade发布：比SDXL更快、更强的图像生成模型

前言StabilityAI在春节期间发布了新的一代文生图模型Stable Cascade，Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型，为质量、灵活性、微调和效率设定了新的标准，着重于进一步消除硬件障碍。相比Stable Diffusion XL，它不仅更快而且效果更好。Huggingface模型下载：https://huggingface.co/stabi

模块化方法

协同工作

生成器

原创 11月前 157 阅读

Stable Video Diffusion（SVD）视频生成模型发布 1.1版

前言近日，随着人工智能技术的飞速发展，图像到视频生成技术也迎来了新的突破。特别是Stable Video Diffusion（SVD）模型的最新版本1.1，它为我们带来了从静态图像生成动态视频的全新能力。本文将深入解析SVD 1.1版本的核心特性、性能提升以及其在视频生成领域的应用前景。Huggingface模型下载：https://huggingface.co/stabilityai/stabl

ide

性能提升

Image

原创 11月前 611 阅读

谷歌最强轻量级开源大模型Gemma：小尺寸可商用，性能超越Llama-2，个人PC就能用

Google

基准测试

深度学习

原创 11月前 96 阅读

字节跳动发布SDXL-Lightning开源模型：秒级生成1024高清大图，效果超Turbo&LCM

前言在当前AI和机器学习的热潮中，生成式AI模型正成为技术前沿的热点。字节跳动最新发布的SDXL-Lightning模型，不仅在社区中引起了广泛的关注，更是在速度和质量上实现了新的突破。本文将详细介绍SDXL-Lightning模型的技术特点、性能表现以及其对开源社区的贡献。Huggingface模型下载：https://huggingface.co/ByteDance/SDXL-Lightnin

开源社区

生成式

图像质量

原创 11月前 238 阅读

Jina AI双语8K向量模型：跨越语言和长度的界限

前言随着自然语言处理（NLP）技术的飞速发展，向量模型在文本分析、信息检索和语义理解等方面发挥着至关重要的作用。传统的向量模型，如基于BERT架构的模型，通常面临着输入长度限制和语言局限性的挑战。Jina AI的最新研究成果，中英和英德双语8K向量模型，不仅打破了这些限制，而且开辟了NLP领域新的可能性。Huggingface模型下载：://huggingface.co/jinaai/j

词元

性能评估

文本分类

原创 11月前 67 阅读

多任务微调框架MFTCoder助力CodeFuse-DeepSeek-33B荣登Big Code榜首

前言近期CodeFuse新开源模型在Big Code Models Leaderboard代码大模型榜单上荣登榜首，成为代码大模型领域的新焦点。这一成就得益于多任务高效微调框架MFTCoder的强大支持，以及以DeepSeek-Coder-33b模型为基础进行微调的精细策略。Huggingface模型下载：://huggingface.co/codefuse-ai/AI快站模型免费加速下

多任务

代码能力

代码补全

原创 11月前 69 阅读

MoE-LLaVA: 实现高性能与低成本的多模态AI革新

前言在当今大数据和人工智能的时代，大型视觉语言模型（LVLM）已成为解锁复杂视觉和语言任务的关键。然而，随着这些模型能力的不断增强，其对计算资源的需求也水涨船高，导致训练和推理成本急剧上升。北京大学和中山大学的研究者针对这一挑战，提出了一种名为MoE-Tuning的创新训练策略，该策略通过实现模型的稀疏化来平衡性能提升与计算成本之间的矛盾。技术创新MoE-Tuning策略的核心思想是在模型中引入所

模态

语言模型

性能提升

原创 11月前 58 阅读

基于RWKV架构推理成本大降：Eagle 7B模型的十倍效能提升

前言在今天这个数据驱动的时代，大型语言模型（LLM）在处理自然语言处理（NLP）任务时的效能和效率成为了众多研究者和工程师关注的焦点。尤其是在推理成本日益攀升的背景下，如何在保持甚至提升模型性能的同时，大幅降低推理成本，成为了一个迫切需要解决的。最近，由RWKV团队推出的Eagle 7B模型，就在这方面展示了其惊人的潜力。Huggingface模型下载：://huggingface.

Eagle

多语言

Falcon

原创 11月前 90 阅读

中国电信星辰语义大模型-TeleChat：央企首家开源的7B级对话模型

引言在人工智能领域，大模型的发展速度令人瞩目。近日，中国电信人工智能科技有限公司发布了其开源的星辰语义大模型——TeleChat。这不仅是中国电信在AI领域的重要布局，也标志着央企在高科技领域的深入探索。模型简介TeleChat，这一由中国电信精心打造的7B级对话模型，利用了1.5万亿Tokens的中英文高质量语料进行训练。此次开源的TeleChat-7B-bot模型，集成了7B模型的int8和i

中国电信

人工智能

对话模型

原创 2024-02-18 13:15:50 213 阅读

LLaVA-1.6：多模态AI新标准，中文零样本能力与低成本训练革命，性能全面超越Gemini Pro

引言2023年10月，LLaVA-1.5凭借其简洁高效的设计和在12个数据集上的出色表现，为大规模多模态模型（LMM）的研究和应用奠定了基础。进入2024年，我们迎来了LLaVA-1.6，一个在理性推理、光学字符识别（OCR）和世界知识方面均有显著改进的版本，甚至在多个评测中超越了业界领先的Gemini Pro。技术创新动态高分辨率技术LLaVA-1.6将输入图像的分辨率提高了4倍，支持三种长宽比

模态

数据

数据集

原创 2024-02-08 09:43:36 400 阅读

阿里通义千问Qwen1.5开源震撼发布，6种参数小至0.5B，性能超越GPT3.5

引言在人工智能技术快速发展的今天，阿里巴巴再次引领潮流，推出了最新的大模型——通义千问Qwen1.5。此次更新不仅提供了覆盖从0.5B到72B不同规模的模型，而且还开源了包括Base和Chat模型在内的多种版本，为全球开发者带来了前所未有的便利和机遇。模型概览Qwen1.5系列模型包括0.5B、1.8B、4B、7B、14B和72B六种规模，涵盖了Base和Chat两种类型。此外，阿里巴巴还特别提供

开发者

多语言

人工智能

原创 2024-02-07 04:59:43 604 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

努力犯错玩AI

PAIR发布长视频生成模型StreamingT2V：2分钟超长AI视频生成，最强开源视频生成

阿里Qwen1.5-32B开源，评测超Mixtral MoE，挑战SOTA性价比

VoiceCraft：开源语音编辑和零样本语音合成模型，性能超过VALL-E和XTTS v2

智源Bunny轻量级多模态模型：数据浓缩技术让3B小模型性能媲美13B大模型

Databricks发布MoE大模型DBRX：1320亿参数开源模型，推理速度提升2倍，评测超越ChatGPT和LLama

腾讯AniPortrait开源：音频合成逼真人脸动画，对标阿里EMO

阿里首个MoE大模型Qwen1.5 MoE A2.7B：27亿参数MoE性能媲美70亿参数，推理速度提升74%

HPT发布HyperGAI 多模态大模型：性能领先GPT-4V，全面胜过Gemini Pro

字节跳动开源视频生成模型：AnimateDiff-Lightning视频生成加速十倍

全新Mistral-7B v0.2基础模型开源：32K上下文，开源界的性能巨兽

Stable Video 3D震撼发布：3D生成引入视频扩散模型，4090可跑，权重全开放

Cohere发布大模型Command-R：35B参数，128K上下文，高性能 RAG 功能，支持中文

国产Sora全面开源，Open-Sora公开所有训练细节和模型权重，开箱即用

DeepSeekAI发布多模态大模型DeepSeek-VL：从13亿到70亿参数的多模态精确度，免费商用

智谱&清华LongAlign发布：重塑NLP长文本处理

零一万物开源并发布Yi-9B大模型，消费级显卡可用，代码数学能力历史最强

开源文生图大模型Playground v2.5发布：超越SD、DALL·E 3和 Midjourney

UC伯克利震撼推出“世界大模型”:一次性处理百万token，精准解读长视频

北大多模态Video-LLaVA模型：秒懂视频笑点的视觉语言大模型

Stable Cascade发布：比SDXL更快、更强的图像生成模型

Stable Video Diffusion（SVD）视频生成模型发布 1.1版

谷歌最强轻量级开源大模型Gemma：小尺寸可商用，性能超越Llama-2，个人PC就能用

字节跳动发布SDXL-Lightning开源模型：秒级生成1024高清大图，效果超Turbo&LCM

Jina AI双语8K向量模型：跨越语言和长度的界限

多任务微调框架MFTCoder助力CodeFuse-DeepSeek-33B荣登Big Code榜首

MoE-LLaVA: 实现高性能与低成本的多模态AI革新

基于RWKV架构推理成本大降：Eagle 7B模型的十倍效能提升

中国电信星辰语义大模型-TeleChat：央企首家开源的7B级对话模型

LLaVA-1.6：多模态AI新标准，中文零样本能力与低成本训练革命，性能全面超越Gemini Pro

阿里通义千问Qwen1.5开源震撼发布，6种参数小至0.5B，性能超越GPT3.5

欢迎