前言近年来,视觉语言模型(VLM)在图像理解和生成领域取得了显著进展。这类模型能够接收图像和文本输入,并生成相应的文本输出,为图像描述、问答、分割等多种视觉任务提供了全新的解决方案。近日,Google开源了其最新研发的视觉语言模型PaliGemma,该模型不仅拥有强大的多任务能力,还具备轻量级和易用性等特点,使其在众多应用场景中具有广阔的应用前景。Huggingface模型下载:://h
前言近年来,大型语言模型(LLM)在自然语言处理领域取得了突破性进展。然而,随着模型参数量的不断增加,训练和部署成本也随之大幅提升,阻碍了LLM的广泛应用。为了克服这一挑战,混合专家模型(MoE)应运而生,它通过将模型拆分成多个专家并根据输入选择激活不同的专家来降低计算成本。DeepSeek-V2-Lite模型作为DeepSeek-AI团队最新发布的MoE模型,凭借其轻量级设计和高效的性能,为Mo
前言时序数据在零售、金融、制造、医疗和自然科学等各个领域无处不在,而时序预测则是这些领域中一项至关重要的任务。近年来,深度学习模型在处理丰富、多变量的时序数据方面取得了显著进展,往往优于传统的统计方法,例如 ARIMA 或 GARCH。然而,大多数深度学习模型都需要经过漫长而复杂的训练和验证过程,才能在新的时序数据上进行测试。因此,对于需要快速部署和应用的实际场景,这些模型存在局限性。为了解决这一
前言360公司正式开源了自研的7B参数大模型"360智脑"系列,包括基础模型和支持4K、32K、360K三种不同长度上下文的聊天模型。其中,最长可支持360K(约50万字)的长文本输入,这在开源大模型中极为罕见。360智脑7B系列模型不仅开源了模型权重,连同微调训练代码、推理部署代码等工具链一并开放给开发者使用,真正做到了"开箱即用"。Huggingface模型下载:://hugging
前言近年来,Transformer 模型在自然语言处理领域取得了巨大成功,但其计算复杂度随输入文本长度的增加而急剧上升,成为制约其发展的瓶颈。传统的 Transformer 模型采用全局注意力机制,计算复杂度为 O(n²),这意味着处理长文本时需要消耗大量计算资源和内存。为了解决这一问题,Google 提出了一种名为 Infini-attention 的压缩内存技术,可以有效降低 Transfor
前言近年来,视觉基础模型 (VFM) 在众多下游任务中取得了巨大成功,例如图像分类、目标检测和图像生成等。然而,现有的 VFM 通常专注于特定领域,例如 CLIP 擅长零样本视觉语言理解,DINOv2 擅长语义分割,SAM 擅长开放词汇实例分割,并且计算成本高昂。为了解决这些问题,英伟达的研究人员开发了 AM-RADIO (Agglomerative Model – Reduce All Doma
前言阿里巴巴最近发布的CodeQwen1.5模型标志着其在编程语言模型领域的一次重大突破。这款开源模型不仅支持高达92种编程语言和64K的上下文长度,而且在多项性能评测中显示出接近或超过当前行业领导者GPT-4-Turbo的能力。Huggingface模型下载:https://huggingface.co/Qwen/CodeQwen1.5-7BAI快站模型免费加速下载:https://aifast
前言近日Gradient公司在Crusoe Energy公司的算力支持下,开发了一款基于Llama-3的大型语言模型。这款新模型在原Llama-3 8B的基础上,将上下文长度从8000 token大幅扩展到超过104万token。这一创新性突破,展现了当前SOTA大语言模型在长上下文学习方面的能力。Gradient团队通过合理调整RoPE,以及采用渐进式训练的方法,仅使用了原Llama-3不到0.
前言近日,Nvidia推出了一款名为Llama3-ChatQA-1.5的对话问答模型。该模型在对话式问答和检索增强型生成等能力方面表现出色,在综合评测指标上甚至超越了当前业界顶尖的GPT-4模型。技术特点Llama3-ChatQA-1.5是基于Llama-3基础模型训练而成的。相比之前的ChatQA 1.0版本,其训练方法和数据集都进行了优化,尤其增强了对表格数据和算术计算的理解能力。该模型有两个
前言斯坦福大学研究人员近日推出了开源端侧大模型Octopus v2,引起了广泛关注。Octopus v2拥有20亿参数量,可以在智能手机、车载系统等终端设备上高效运行,在准确性和推理速度方面都超越了GPT-4。Huggingface模型下载:://huggingface.co/NexaAIDev/Octopus-v2AI快站模型免费加速下载:://aifasthub./m
CodeGemma简介CodeGemma模型是谷歌的社区开放编程模型,专门针对代码领域进行优化。一系列功能强大的轻量级模型,能够执行多种编程任务,如中间代码填充、代码生成、自然语言理解、数学推理和指令遵循。CodeGemma模型是在大约500B个主要为英语、数学和代码的数据上进行了进一步训练,以提高逻辑和数学推理能力,适用于代码补全和代码生成编程任务。Huggingface模型下载:https:/
前言医疗知识的整合与人工智能一直是研究界的焦点,每一点进步都可能带来更好的患者体验和更高的治愈率。尽管医疗大型语言模型(LLM)前景广阔,但现有工作主要集中在中文和英文上,对于其他语言的多语言适配还有待进一步探索。为了将最先进的LLM的好处普及到更广泛的用户群体,研究团队开发了Apollo系列多语言医疗LLM。这一举措类似于历史上将变革性技术如电力和疫苗普及到更广泛群体的努力,将LLM视为现代版的
前言随着人工智能技术的快速发展,特别是在自然语言处理(NLP)领域,大型预训练模型如GPT系列已经显示出在多个领域的强大应用潜力。最近,华佗GPT-2医疗大模型的发布,不仅标志着人工智能在医学领域的一大进步,更是在2023年执业药师考试中展示了其超越国际知名GPT-4模型的卓越能力。模型概述华佗GPT-2是由由深圳市大数据研究院和中文大学(深圳)联合推出的医疗系列大模型。此模型结合了最先进
前言优秀的端侧模型系列面壁 MiniCPM 上新!一口气带来:端侧多模态模型 MiniCPM-V 2.0:OCR 能力显著增强、甚至部分能力比肩 Gemini ;适配更多端侧场景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;最小的 128K 长文本模型 MiniCPM-2B-128K ;性能进一步增强的 MoE 架构模型 MiniCP
前言北京大学和字节跳动的研究团队,提出了一种名为"Visual AutoRegressive (VAR) Modeling"的全新视觉生成范式。VAR 重新定义了图像的自回归学习过程,从而使得GPT风格的自回归模型首次超越扩散模型,在图像生成质量、速度和可扩展性等多方面都取得了突破性进展。Huggingface模型下载:://huggingface.co/FoundationVisi
前言Parler-TTS 是大名鼎鼎的huggingface推出的一款轻量级文本到语音(TTS)模型,它能够生成高质量、自然流畅的语音,并且能够模仿特定说话者的风格,包括性别、音高、说话风格等。这款模型是由Dan Lyth和Simon King创建,他们分别Stability AI和爱丁堡大学,共同撰写了论文《 Natural language guidance of high-fidelit
前言Hugging Face近日宣布开源了一款名为Idefics2的全新多模态模型,该模型不仅在参数规模上大幅超越前作,还在多个经典视觉-语言基准测试中展现出卓越表现,完全有资格与LLava-Next-34B、MM1-30B-chat等更大规模模型一争高下。Idefics2是Idefics1的升级版,共有80亿参数,许可协议为Apache 2.0,光学字符识别(OCR)能力也得到了大幅增强。这无疑
前言微软发布了最新版的Phi系列小型语言模型(SLM) - Phi-3。这个系列包括3个不同参数规模的版本:Phi-3 Mini (38亿参数)、Phi-3 Small (70亿参数)和Phi-3 Medium (140亿参数)。Phi系列模型是微软研究团队开发的小规模参数语言模型。从第一代Phi-1到第二代Phi-2,参数规模都控制在30亿以内,但在各种评测中都取得了出色的成绩。第三代Phi-3
引言随着大语言模型(LLM)的快速发展,赋予其多模态输入输出能力已成为当前Vision Language Model (VLM)研究的重点方向。然而,即便是业界顶尖的模型,如GPT-4和Gemini,在视觉理解和生成方面仍存在一定的局限性。中文大学终身教授贾佳亚团队最新提出的Mini-Gemini模型,力图通过创新的网络架构和高质量数据,进一步挖掘VLM的潜力,实现跨模态的感知、推理和生成能力
前言微软最近发布的WizardLM-2大型语言模型因其先进的技术规格和短暂的开源后突然撤回,引起了科技界的广泛关注。WizardLM-2包括三个不同规模的模型,分别是8x22B、70B和7B,均展现了在多语言处理、复杂对话、推理和代理任务上的卓越能力。Huggingface模型下载:://huggingface.co/MaziyarPanahi/WizardLM-2-7B-GGUFAI快
前言SDXL Controlnet Tile V2模型的最新更新为图像处理领域带来了突破性的技术提升。这一版本不仅在功能上进行了全面优化,还针对用户体验进行了显著改进。最新 Tile V2:通过大幅改进的训练数据集和更广泛的训练步骤,Tile V2 得到了显著的增强。自动识别范围扩大:Tile V2 现在无需明确的提示,也能够自动识别的更广泛的对象。色彩偏移问题显著改善:未自动识别的对象也可以,只
前言Meta的最新语言模型Llama 3已经发布,标志着在大型语言模型(LLM)领域的一次重大突破,其性能在行业内与GPT-4相媲美。此次更新不仅提升了模型的处理能力和精确性,还将开源模型的性能推向了一个新的高度。Huggingface模型下载:https://huggingface.co/meta-llamaAI快站模型免费加速下载:https://aifasthub.com/models/me
前言随着人工智能技术的快速发展,模型参数的数量已成为衡量其复杂性和处理能力的重要指标。近日,国内科技企业APUS与AI创企新旦智能联合宣布,成功开源了国内首个千亿参数的混合专家模型(MoE),APUS-xDAN-4.0,标志着中国在全球大模型技术竞赛中迈出了重要步伐。模型概述与技术创新APUS-xDAN-4.0模型采用了1360亿参数的MoE架构,不仅参数数量庞大,而且在技术上具有创新性。该模型能
前言4月5日,知名AI公司Cohere正式发布了一款全新的大型语言模型(LLM)——Command R+。该模型拥有1040亿参数,在多种语言支持、检索增强生成(RAG)能力和工具应用方面均取得了突破性进展,其性能甚至可与OpenAI的GPT-4相媲美。性能媲美GPT-4值得一提的是,Command R+在多项测评中的表现不但超越了业界主流开源模型,在某些指标上甚至可与GPT-4媲美。在LMSys
前言近日,深圳元象科技正式发布了其首个基于混合专家(Mixture of Experts,MoE)架构的大型语言模型 - XVERSE-MoE-A4.2B。这款模型总参数量高达258亿,但在推理过程中仅需激活4.2亿参数,却展现出了媲美130亿参数大模型的性能表现,可谓是当前MoE架构领域的一大突破。作为元象公司继XVERSE-65B和XVERSE-13B系列之后的又一重磅开源产品,XVERSE-
前言对 AI 而言,代码生成技术无疑是近年来最引人瞩目的领域之一。从OpenAI推出的Codex,到谷歌DeepMind的AlphaCode,再到HuggingFace的StarCoder,这些代码大模型不仅大幅提升了编程效率,还颠覆了软件开发这一传统行业。但真正让这些代码大模型成为企业亟需的"杀手锏",还有一个重要因素需要解决 —— 如何在实际的企业级项目中发挥最大价值,满足个性化的部署和定制需
前言近期,Mistral AI引发了AI领域的广泛关注,他们开源了一款拥有1760亿参数的巨型模型——Mixtral 8x22B。这款模型不仅在规模上达到了前所未有的高度,而且在多个性能基准测试中展示了卓越的能力,确立了新的行业标准。模型概述Mixtral 8x22B继续沿用Mistral AI的专家混合(MoE)架构,这是一种将不同的网络专家集成到一个统一框架中的技术,允许模型根据任务需求动态调
前言在人工智能领域,多模态生成模型一直是探索的前沿,它跨越了图像与文本之间的界限,开启了一种全新的交互方式。最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技和多伦多大学等多家顶尖机构共同发布了MM-Interleaved模型,这一跨越性的工作标志着多模态生成领域的一个重要突破。MM-Interleaved模型通过引入全新的多模态特征同步器,成功地刷新了多项任务
前言现如今,AI大模型已经无孔不入,连玄学领域也"在劫难逃"。前有新闻称数百万人正在"求神拜佛"般地与ChatGPT交流,后又有教堂聘请"AI传教士"协助神职人员进行宗教仪式。可以说,"科学的尽头就是玄学"的论调如今似乎愈发贴切了。为满足对神秘学、灵性和超自然感兴趣群体的需求,一款专门针对玄学领域设计的AI大模型Mistral Trismegistus 7B应运而生。这款模型集神秘学、占卜、炼金术
前言近年来,基于Transformer架构的多模态大语言模型(MLLM)在视觉理解和多模态推理任务中展现了出色的潜力。但这些模型通常需要大量的训练资源,限制了它们在更广泛研究和应用领域的普及。一种直接的解决方案是使用更小规模的预训练视觉和语言模型,但这往往会导致性能大幅下降。为了突破这一瓶颈,华中科技大学的研究团队提出了Monkey,这是一种创新的轻量级多模态大模型。Monkey不仅能够低成本地扩
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号