在最近的OpenAI首届开发者大会上,一个引人注目的技术亮点是Whisper large-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。今天,我们就来深入了解这个技术突破,并探讨它如何改变我们与机器的交流方式。Whisper large-v3:多语言识别的强大进步Whisper large-v3是OpenAI继续在语音识别领
在AI领域,大型语言模型如BERT、GPT-3等已经成为一个热门话题。但如何高效地下载这些模型,特别是在网络环境不稳定的情况下,是许多开发者面临的问题。Hugging Face作为主流的模型库,提供了大量预训练模型,但这些模型的大尺寸使得直接下载可能会遇到困难。Git LFS(Large File Storage)作为Git的一个扩展,为我们提供了一个解决方案。接下来,我们将深入探讨如何使用Git
? 背景自从Hugging Face推出transformers库,它迅速成为自然语言处理(NLP)领域内最受欢迎的模型库之一。为研究人员和开发者提供的众多预训练模型和相关工具,为NLP的研究与应用创造了无数可能性。然而由于某些原因,国内的开发者访问Hugging Face官方站点或下载模型时遭遇了困难。? 痛点与解决下载速度缓慢、连接频繁断开、大模型需要重复多次下载...这些问题可能已经成为许多
前言近年来,人工智能技术飞速发展,尤其是大模型的出现,为视频理解和生成领域带来了前所未有的机遇。然而,现有的视频大模型(-LLM)在处理视频中复杂的时空信息和音频信息方面仍存在不足,例如无法有效融合不同帧的特征,以及忽视了音频信息在场景理解中的重要作用。为了克服这些挑战,阿里巴巴达摩院发布了 VideoLLaMA 2,一个旨在提升视频时空建模和音频理解能力的开源视频大模型。VideoLL
前言在 AI 领域,文生图技术已经取得了令人惊叹的进展,但如何将文字精准地融入图像,并支持多种语言,一直是研究人员面临的挑战。为了解决这一难题,清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2,这是一个功能强大的多语言文本编码器,可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现,为设计师、开发者以及普通用户提供了一个强大的工具,
前言文生视频技术是近年来 AI 领域最令人瞩目的突破之一。OpenAI 的 Sora 模型展示了令人惊叹的视频生成能力,但其闭源特性限制了技术的普及和发展。而潞晨 Open-Sora 团队则致力于将文生视频技术开源,让更多人能够体验和应用这项技术。Huggingface模型下载:://huggingface.co/hpcai-tech/OpenSora-STDiT-v3AI快站模型免费加
前言近年来,大型语言模型(LLM)领域蓬勃发展,不断涌现出新的模型和技术。其中,Meta 的 Llama 3 模型以其强大的性能和开源性,在业界引起了广泛关注。然而,来自阿联酋的技术创新研究所(TII)近日推出了新一代大模型 Falcon 2,其性能超越了 Llama 3,并展现出更多令人瞩目的亮点。Huggingface模型下载:https://hf-mirror.com/tiiuae/falc
前言让静态的图片“开口说话”,一直是人们对人工智能的期待。近年来,随着深度学习技术的发展,音频驱动的肖像图像动画技术取得了长足的进步。各种模型涌现,但如何实现精准的唇形同步、保持视频的真实感和流畅性,以及支持多种语言和风格,仍然是研究人员面临的挑战。复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队,共同开发了一个新的音频驱动肖像图像动画模型 Hallo,该模型在多个方面实现了突破,为打造
前言近年来,大模型技术发展迅速,并已在多个领域展现出强大的能力。为了推动大模型技术的普及和应用,许多机构和企业纷纷开源了自己的模型。近日, 发布了全新的开源大模型系列——Index-1.9B,该模型凭借着 2.8T 的海量训练数据和独特的训练策略,在代码生成、对话交互、角色扮演等方面展现出出色的性能,并与同级别模型相比处于领先地位。Huggingface模型下载:://h
前言在开源代码模型领域,DeepSeek一直致力于打破闭源模型的垄断,为开发者提供更加强大、灵活的工具。继去年11月发布开源代码模型 DeepSeek-Coder 和今年5月发布开源 MoE 模型 DeepSeek-V2 后,DeepSeek 再度突破技术壁垒,发布了全新升级的 DeepSeek-Coder-V2。Huggingface模型下载:://huggingface.co
前言在 2023 年 3 月发布开源对话模型 ChatGLM-6B 后,智谱 AI 迅速成为国内外开源大模型领域的重要力量。今年 6 月,智谱 AI 再次发力,开源了其第四代 GLM 系列模型 —— GLM-4-9B,并首次加入了多模态能力。该模型不仅在性能上超越了 Llama 3 8B,更在多模态能力方面展现出与 GPT-4V 相媲美的实力。Huggingface模型下载:://hug
前言大型语言模型 (LLM) 在代码生成领域展现出巨大的潜力,但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B,宣称在多项指标上超越了 GPT-4 和 Llama3,并凭借其出色的性能和 80 多种编程语言的支持,成为了开源代码大模型的新王者。Huggingface模型下载:ht
前言近年来,大型语言模型 (LLM) 在医疗领域展现出巨大潜力,能够帮助医生和研究人员更快地获取信息、分析数据,并提高医疗服务效率。然而,目前市场上大多数医疗 LLM 都是闭源模型,限制了其在学术研究和应用领域的推广。为了打破这一现状,促进医疗 AI 的发展,越来越多的研究团队开始致力于开发开源的医疗 LLM。技术特点Llama3-Aloe-8B-Alpha 是由巴塞罗那超级计算中心 (BSC)
前言近年来,大语言模型(LLM)在各个领域都展现出强大的能力,尤其是其在对话、写作、代码生成等方面的应用越来越广泛。然而,想要让 LLM 真正地融入人类社会,扮演各种角色,还需要具备更强大的角色扮演能力。为了解决这一问题,李沐团队(Boson AI 创始人)发布了 Higgs-Llama-3-70B,一个专门针对角色扮演任务进行优化的 LLM。该模型基于 Meta 的 LLaMA-3-base 模
前言Stability AI 作为开源图像生成领域的领军者,不断突破技术边界,12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型,拥有 20 亿参数,在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本,进一
前言Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司,在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据,为音乐制作和声音设计领域带来了新的可能性。Huggingface模型下载:://huggingface.co/stabilityai/
前言近年来,大模型技术发展迅速,开源模型的出现为AI研究和应用带来了新的活力。在这一背景下,阿里云通义千问团队发布了全新升级的Qwen2系列开源模型,为国内外开发者提供了更强大的工具和更丰富的选择。Huggingface模型下载:://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557fAI快站模型免费加速下载:ht
前言近年来,扩散模型(Diffusion Model,DM)在图像生成领域取得了显著进展,展现出前所未有的图像质量和多样性。然而,扩散模型的训练和推理过程通常需要多个步骤,这限制了其在实际应用中的效率。为了克服这一挑战,字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD,并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩,甚至实现单步生成高质量图像,同时保持甚至超越原模型
前言近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。为了解决这一问题,研究团队开源了 MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM
前言实时目标检测在自动驾驶、机器人导航、物体追踪等领域应用广泛,近年来,YOLO 系列模型凭借其高效的性能和实时性,成为了该领域的主流方法。但传统的 YOLO 模型通常采用非极大值抑制 (NMS) 进行后处理,这会增加推理延迟,阻碍了其端到端部署的应用。此外,现有的 YOLO 模型在架构设计方面也存在着一些局限性,例如计算冗余、参数利用率低等问题,这些问题限制了模型的性能和效率。Huggingfa
前言文本嵌入模型能够将文本信息转化为稠密的向量表示,并在信息检索、语义相似度计算、文本分类等众多自然语言处理任务中发挥着关键作用。近年来,基于解码器的大型语言模型 (LLM) 开始在通用文本嵌入任务中超越传统的 BERT 或 T5 嵌入模型,展现出更强的语义理解能力和更灵活的应用潜力。Huggingface模型下载:://huggingface.co/nvidia/NV-Embed-v1
前言大型语言模型(LLM)近年来取得了巨大进展,但要将其与人类价值观和意图相一致,使其变得有用、诚实和无害,仍然是一个挑战。强化学习从人类反馈中(RLHF)是一种常用的方法,通过微调语言模型来实现有效对齐。传统的RLHF方法虽然取得了令人印象深刻的结果,但其多阶段过程(包括训练奖励模型和优化策略模型以化奖励)带来了优化挑战。Huggingface模型下载:://huggingface
前言近年来,3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而,传统的 3D 模型制作流程繁琐,需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程,腾讯 ARC 实验室推出了 InstantMesh,一个基于单图像的 3D 网格生成框架,能够在短短 10 秒内完成高质量的 3D 模型生成,并显著超越了现有的 SOTA 模型。Huggingface模型下载:https:
前言近年来,多模态大型语言模型(MLLM)的快速发展,为人工智能在图像、文本等多模态信息理解和处理方面带来了前所未有的突破。然而,现有的主流多模态模型多以英文为训练语言,在中文理解和处理方面存在着明显的短板,难以满足日益增长的中文多模态应用需求。为了弥补这一缺陷,OpenGVLab 团队开源了首个中文原生多模态模型 InternVL-Chat-V1-5,旨在为中文多模态领域的发展贡献力量。Hugg
前言近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。Huggingface模型下载:://huggingface.co/CohereForAI/aya-
前言近年来,基于扩散模型的文本到图像生成技术取得了显著进步,能够生成高质量、逼真的图像。然而,大多数扩散模型仍然使用CLIP作为文本编码器,这限制了它们理解复杂提示的能力,例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性,腾讯团队推出了一个名为ELLA(Efficient Large Language Model Adapter)的全新方法,它能够将强大的大型语言模型(LL
前言近年来,大型语言模型(LLM)在各个领域展现出惊人的能力,为人们的生活和工作带来了巨大的改变。然而,大多数开源 LLM 的性能仍然无法与闭源模型相媲美,这限制了 LLM 在科研和商业领域的进一步应用。为了推动 LLM 的开源发展,零一万物团队推出了全新一代的开源语言模型——Yi-1.5,并提供 34B/9B/6B 三种不同尺寸,旨在为研究人员和开发者提供更多选择,助力 LLM 的发展与应用。H
前言在计算语言学领域,将自然语言转化为可执行的SQL查询是一个重要的研究方向。这对于让那些没有编程或SQL语法知识的用户也能轻松访问数据库信息至关重要。Defog团队近日发布了基于Llama-3的SQLCoder-8B模型,它在文本转SQL模型领域取得了显著突破,在准确率和易用性方面都达到了新的高度。Huggingface模型下载:://huggingface.co/defog/llam
前言语音克隆技术近年来取得了显著进展,但现有方法通常存在着局限性,例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。为了克服这些挑战,MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2,它能够在无需额外训练的情况下,仅凭少量参考音频,就能够克隆任何人的声音,并支持多种语音风格控制,以及快速高效的跨语言语音生成。Huggingface模型下载:://
前言近年来,视觉语言模型(VLM)在图像理解和生成领域取得了显著进展。这类模型能够接收图像和文本输入,并生成相应的文本输出,为图像描述、问答、分割等多种视觉任务提供了全新的解决方案。近日,Google开源了其最新研发的视觉语言模型PaliGemma,该模型不仅拥有强大的多任务能力,还具备轻量级和易用性等特点,使其在众多应用场景中具有广阔的应用前景。Huggingface模型下载:://h
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号