前言随着人工智能技术的不断进步,AI生成内容(AIGC)已经成为了技术研究和应用开发的热点领域。特别是在视频生成领域,从短视频到长视频的生成,AI模型正不断突破限制,带来更加丰富和动态的内容创作可能。最近,Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出的StreamingT2V视频模型,无疑为长视频生成领域注入了新的活力。StreamingT2V模型简介Streamin
前言阿里巴巴近日震撼开源其最新力作——Qwen1.5-32B大语言模型。在当前AI领域,大模型的开发与应用已成为评估技术进步的重要标尺。Qwen1.5-32B的问世,不仅再次证明了阿里在AI技术研发领域的深厚实力,更是在性能与成本之间找到了一个新的平衡点。Qwen1.5-32B模型简介Qwen1.5-32B继承了Qwen系列模型的卓越传统,拥有320亿参数,是在Qwen1.5系列中规模适中、性价比
引言语音编辑和零样本语音合成是两个亟待解决的语音处理领域。前者能够帮助内容创作者更轻松地修改语音录音中的错误词或短语,使之更加流畅自然;后者则可以赋予语音合成模型处理未见过的目标说话人声音的能力,大幅提升应用场景的广泛性。然而,目前现有的方法在这些任务上仍存在诸多挑战,比如生成的语音缺乏自然性和连贯性,或者泛化性较差,难以应对复杂的真实世界数据。VoiceCraft,是一个基于神经编码语言模型的开
前言近年来,基于Transformer架构的多模态大语言模型(MLLM)在视觉理解和推理任务中展现了出色的性能。然而,这些模型通常需要大量的计算资源和内存,这限制了它们在研究和用户社区中的普及应用。一种直接的解决方案是使用更小的预训练视觉和语言模型,但这往往会导致性能大幅下降。Bunny,这是一系列基于数据优化的轻量级多模态模型。Bunny提供了灵活的视觉编码器和语言模型组合,通过从更丰富的训练数
前言在人工智能领域,大型语言模型(LLM)的研发一直是技术竞争的前沿。最近,Databricks公司推出的DBRX模型,以其1320亿参数的规模和创新的细粒度MoE(混合专家)架构,成为开源社区的焦点。本文将深入探讨DBRX模型的关键技术细节、性能评测、以及它在推理速度、成本效率和多模态处理能力上的显著优势。DBRX模型简介DBRX是一种基于Transformer架构的混合专家模型,总参数达到13
前言在数字时代,人工智能技术的创新正以前所未有的速度推进着视觉艺术的边界。最近,腾讯公司宣布开源其最新的AI框架——AniPortrait,这一动作无疑为静态图像动态化技术注入了新的活力。AniPortrait旨在通过音频和参考图像生成高质量、逼真的动画肖像,这不仅展现了腾讯在人工智能领域的深厚实力,也为全球开发者和爱好者提供了一个强大的工具,以推动创新和探索。AniPortrait核心功能与技术
前言近期,阿里巴巴宣布开源其首个MoE(混合专家)技术大模型——Qwen1.5-MoE-A2.7B,这标志着阿里在人工智能领域的又一重大进展。Qwen1.5-MoE-A2.7B不仅在技术上有所创新,更在性能上实现了突破,其27亿参数的MoE模型在多个基准测试中的性能可以媲美传统的70亿参数模型,同时推理速度提升达到74%。技术背景与模型简介Qwen1.5-MoE-A2.7B模型采用混合专家技术,通
前言HyperGAI研究团队自豪地宣布推出HPT——新一代领先的多模态大型语言模型(Multimodal Large Language Model, Multimodal LLM)。作为人工通用智能(Artificial General Intelligence, AGI)构建的基石,HPT跨入多模态理解的新时代奠定了基础。与传统的仅文本LLM不同,多模态LLM旨在理解包括文本、图像、视频等在内的
前言在近日,字节跳动再次引领AI视频生成领域的革新,推出了其最新研究成果——AnimateDiff-Lightning模型。这款开源的文本到视频生成模型,以其令人惊叹的生成速度和卓越的生成质量,标志着视频生成技术的一个重大突破,其生成速度较原版AnimateDiff快达十倍以上,极大地提升了视频内容创造的效率。技术背景与创新AnimateDiff-Lightning模型是基于AnimateDiff
前言在人工智能领域的发展历程中,开源大模型始终是推动技术进步与创新应用的关键力量。近日,Mistral AI再次引领开源潮流,发布了Mistral-7B v0.2基础模型,这不仅是对之前版本的升级,更是在性能与功能上的一次质的飞跃。Mistral-7B v0.2不仅将上下文长度由4K扩展至惊人的32K,还在多个维度上进行了优化与调整,证实了其作为开源界性能巨兽的地位。模型升级亮点上下文长度的扩展M
前言近日,Stability AI携最新力作Stable Video 3D (SV3D) 强势登场,该模型基于先进的视频扩散技术,标志着3D生成技术的一大飞跃。与之前的Stable Zero123相比,SV3D在模型质量、功能强度上都有显著提升,真正实现了从单一图像到复杂3D模型的高效转换。技术背景在计算机视觉领域,将2D图像转化为3D模型一直是一个极具挑战性的任务。Stability AI通过引
引言随着人工智能技术的快速发展,大型语言模型(LLM)在各行各业的应用日益广泛。Cohere最新发布的Command-R模型,以其35B参数和128K的长上下文能力,为企业级应用带来了前所未有的可能性。本文将深入探讨Command-R的核心技术特性、性能表现以及其在实际应用中的潜力。Command-R是Cohere针对大规模生产负载设计的一款先进的生成模型。它采用了最新的机器学习技术,优化了长上下
前言在近期,国产技术团队Colossal-AI发布了引人注目的消息:他们全面开源了一个类似于OpenAI Sora的视频生成模型——Open-Sora 1.0。这一开源项目不仅包含了全部的训练细节和模型权重,而且其训练成本仅需1万美元,实现了64块GPU的高效复现。此举标志着在文生视频领域,国产技术已迈出了重要的一步,开启了视频创作新纪元的大门。模型概述Open-Sora 1.0继承并超越了Ope
前言随着人工智能技术的不断发展,多模态大模型在理解复杂世界方面的能力日益增强。DeepSeekAI,一家由幻方量化支持的创新型大模型公司,最近发布了其最新的多模态大模型系列——DeepSeek-VL。该系列包含从13亿到70亿参数的模型,旨在提高机器对图像和文本的理解能力,同时支持广泛的商业应用。DeepSeek-VL模型简介DeepSeek-VL系列代表了在多模态AI领域的一大突破,提供了两种不
引言随着大型语言模型(LLMs)的不断进化,我们现在能够处理的文本长度已经达到了前所未有的规模——从最初的几百个tokens到现在的128k tokens,相当于一本300页的书。这一进步为语义信息的提供、错误率的减少以及用户体验的提升打开了新的可能性。智谱技术团队与清华大学的最新合作成果——LongAlign模型,专注于长文本的精准对齐,不仅突破了长上下文处理的技术瓶颈,而且在数据集构建、训
前言随着人工智能技术的快速发展,大型模型在多个领域展现出了惊人的能力和潜力。近日,李开复旗下AI公司零一万物宣布,他们的最新力作——Yi-9B大模型正式对外开源发布。这款具有90亿参数的大模型,在代码和数学能力上达到了前所未有的高度,同时保持了对消费级显卡的良好兼容性,为广大开发者和研究人员提供了前所未有的便利性和强大功能。Huggingface模型下载:://huggingface.c
前言在AI技术迅速发展的今天,文生图模型成为了艺术创作、设计创新等领域的重要工具。Playground v2.5的发布,不仅在技术上取得了突破,更在开源文化的推广与实践上迈出了重要一步。Huggingface模型下载:://huggingface.co/playgroundaiAI快站模型免费加速下载:://aifasthub./models/playgroundai技术
前言在人工智能领域,解读和理解视频内容一直是一个巨大挑战。传统的模型虽然能够处理文本和静态图像,但在理解长视频的动态过程中,往往力不从心。近期,UC伯克利研究团队推出的“世界大模型”(Large World Model,简称LWM)为语言模型理解物理世界铺平了新的道路,这一里程碑式的进展令人震撼。模型概述“世界大模型”通过采用先进的RingAttention技术,成功地对长序列进行了可扩展训练,从
前言随着人工智能技术的持续进步,北京大学的研究者们最近提出了一种全新的视觉语言大模型——Video-LLaVA,它通过创新的技术手段,使得大型语言模型(LLM)能够同时处理和理解图片与视频内容。这一跨越性的进展不仅推动了多模态学习的边界,还在视频问答等下游任务中取得了卓越的性能表现。模型概述Video-LLaVA模型的核心在于其能够提前将图片和视频的特征绑定到统一的特征空间中,这一策略极大地促进了
前言StabilityAI在春节期间发布了新的一代文生图模型Stable Cascade,Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型,为质量、灵活性、微调和效率设定了新的标准,着重于进一步消除硬件障碍。相比Stable Diffusion XL,它不仅更快而且效果更好。Huggingface模型下载:https://huggingface.co/stabi
前言近日,随着人工智能技术的飞速发展,图像到视频生成技术也迎来了新的突破。特别是Stable Video Diffusion(SVD)模型的最新版本1.1,它为我们带来了从静态图像生成动态视频的全新能力。本文将深入解析SVD 1.1版本的核心特性、性能提升以及其在视频生成领域的应用前景。Huggingface模型下载:https://huggingface.co/stabilityai/stabl
前言谷歌近日发布了其最新的轻量级、开源AI模型——Gemma,这一举措无疑在AI领域引起了广泛的关注。不同于其他闭源大模型,Gemma的推出标志着谷歌在开放模型领域的重要一步,意图通过开放、共享的方式,加速AI技术的普及和应用。Gemma模型概述Gemma是一个轻量级的模型,拥有20亿和70亿两种参数规模的版本,旨在提供给开发人员和研究人员更易访问和使用的AI工具。与谷歌先前的Gemini模型相比
前言在当前AI和机器学习的热潮中,生成式AI模型正成为技术前沿的热点。字节跳动最新发布的SDXL-Lightning模型,不仅在社区中引起了广泛的关注,更是在速度和质量上实现了新的突破。本文将详细介绍SDXL-Lightning模型的技术特点、性能表现以及其对开源社区的贡献。Huggingface模型下载:https://huggingface.co/ByteDance/SDXL-Lightnin
前言随着自然语言处理(NLP)技术的飞速发展,向量模型在文本分析、信息检索和语义理解等方面发挥着至关重要的作用。传统的向量模型,如基于BERT架构的模型,通常面临着输入长度限制和语言局限性的挑战。Jina AI的最新研究成果,中英和英德双语8K向量模型,不仅打破了这些限制,而且开辟了NLP领域新的可能性。Huggingface模型下载:://huggingface.co/jinaai/j
前言近期CodeFuse新开源模型在Big Code Models Leaderboard代码大模型榜单上荣登榜首,成为代码大模型领域的新焦点。这一成就得益于多任务高效微调框架MFTCoder的强大支持,以及以DeepSeek-Coder-33b模型为基础进行微调的精细策略。Huggingface模型下载:://huggingface.co/codefuse-ai/AI快站模型免费加速下
前言在当今大数据和人工智能的时代,大型视觉语言模型(LVLM)已成为解锁复杂视觉和语言任务的关键。然而,随着这些模型能力的不断增强,其对计算资源的需求也水涨船高,导致训练和推理成本急剧上升。北京大学和中山大学的研究者针对这一挑战,提出了一种名为MoE-Tuning的创新训练策略,该策略通过实现模型的稀疏化来平衡性能提升与计算成本之间的矛盾。技术创新MoE-Tuning策略的核心思想是在模型中引入所
前言在今天这个数据驱动的时代,大型语言模型(LLM)在处理自然语言处理(NLP)任务时的效能和效率成为了众多研究者和工程师关注的焦点。尤其是在推理成本日益攀升的背景下,如何在保持甚至提升模型性能的同时,大幅降低推理成本,成为了一个迫切需要解决的。最近,由RWKV团队推出的Eagle 7B模型,就在这方面展示了其惊人的潜力。Huggingface模型下载:://huggingface.
引言在人工智能领域,大模型的发展速度令人瞩目。近日,中国电信人工智能科技有限公司发布了其开源的星辰语义大模型——TeleChat。这不仅是中国电信在AI领域的重要布局,也标志着央企在高科技领域的深入探索。模型简介TeleChat,这一由中国电信精心打造的7B级对话模型,利用了1.5万亿Tokens的中英文高质量语料进行训练。此次开源的TeleChat-7B-bot模型,集成了7B模型的int8和i
引言2023年10月,LLaVA-1.5凭借其简洁高效的设计和在12个数据集上的出色表现,为大规模多模态模型(LMM)的研究和应用奠定了基础。进入2024年,我们迎来了LLaVA-1.6,一个在理性推理、光学字符识别(OCR)和世界知识方面均有显著改进的版本,甚至在多个评测中超越了业界领先的Gemini Pro。技术创新动态高分辨率技术LLaVA-1.6将输入图像的分辨率提高了4倍,支持三种长宽比
引言在人工智能技术快速发展的今天,阿里巴巴再次引领潮流,推出了最新的大模型——通义千问Qwen1.5。此次更新不仅提供了覆盖从0.5B到72B不同规模的模型,而且还开源了包括Base和Chat模型在内的多种版本,为全球开发者带来了前所未有的便利和机遇。模型概览Qwen1.5系列模型包括0.5B、1.8B、4B、7B、14B和72B六种规模,涵盖了Base和Chat两种类型。此外,阿里巴巴还特别提供
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号