引言去年10月,腾讯发布了VideoCrafter1模型,引起了广泛关注。短短3个月后,腾讯AI实验室再次创新,推出了VideoCrafter2模型。这一次,他们克服了高质量视频扩散模型的数据限制,仅使用有限数据就实现了显著改进,既保留了良好的动态效果,又大幅提升了视频质量。VideoCrafter2模型概述VideoCrafter2模型的核心在于它如何处理视频模型的空间和时间模块之间的耦合。研究
引言换脸技术,一直以来都是数字图像处理领域的热门话题。从最早的传统方法到现在的AI驱动技术,换脸技术已经经历了多次重大的技术革新。近年来,随着深度学习和计算机视觉技术的发展,换脸技术开始向更加智能化、自动化的方向演进。在这一演进过程中,IP Adapter FaceID技术的出现,标志着换脸技术迈入了一个新的阶段。Huggingface模型下载:://huggingface.co/h94
引言在人工智能的发展浪潮中,自然语言处理技术的进步尤为引人注目。特别是大型语言模型(LLM),在推动语言理解和生成领域取得显著成就。北京理工大学-东南信息研究院自然语言处理团队的最新力作MindLLM-1.3B模型,在中英双语对话处理上实现了重大突破。MindLLM-1.3B模型概述MindLLM-1.3B是一款基于13亿参数的大型语言模型。该模型主要聚焦于中文对话任务,并通过有监督训练进行了优化
大学与腾讯ARC实验室合作开发的LLaMA ,解决了大语言模型微调中的知识遗忘难题。通过独创的Block Expansion方法,LLaMA 在保持原有模型知识的基础上,有效整合新知识。该模型在代码理解和数学推理任务上表现卓越,同时在语言理解方面也有所提升,开启了大模型微调的新篇章。
BCEmbedding,由网易有道开发,是一款具备中英双语和跨语种语义表征能力的模型库。它包含EmbeddingModel和RerankerModel两类基础模型,专注于生成高效精准的语义向量,并优化语义搜索结果。BCEmbedding在MTEB和LlamaIndex的评测中展现出卓越的性能,尤其在跨语种和RAG场景下表现优异。此模型不仅适用于多种业务场景,如教育、法律、金融、医疗等,还能轻松集成进langchain和llamaindex,实现高效的多语种信息处理。
清华大学最新开源的多模态大模型CogAgent,突破性地将视觉模态应用于GUI Agent,使之具备更深层次的界面理解与交互能力。CogAgent支持高达1120×1120分辨率的图像输入,有效提升了视觉问答、视觉等多种功能。在多个图像理解榜单和GUI Agent数据集中取得优异成绩,CogAgent不仅展示了强大的技术实力,也为未来的多模态交互领域开辟了新路径。
Yi-VL,作为零一万物Yi系列的最新成员,凭借其在MMMU和CMMMU数据集上的杰出表现,成为全球开源多模态语言模型的新星。Yi-VL模型利用创新的架构设计和精心规划的训练方法,实现了图像和文本信息的高效融合,展现了其在跨学科知识理解和应用能力上的强大实力。作为多模态应用领域的先锋,Yi-VL模型开辟了人工智能在图文理解和生成领域的新篇章。
腾讯新推出的PhotoMaker引领了AI绘画技术的新浪潮。这款工具不仅能够快速生成各种风格的逼真人物照片,还能改变人物的年龄和性别,整合不同人物特征。借助堆叠ID嵌入技术,PhotoMaker实现了个性化图像生成,为艺术创作提供了无限可能。用户体验直观,响应速度快,是AI艺术领域的一大创新。
猎户星空大模型以其140亿参数,在多语言处理上展现卓越性能,特别在中文领域表现突出。该模型覆盖2.5万亿token的数据集,支持长达320k的文本长度,创新技术使其在多语言、长文本处理、效率与性能上均达到新高。作为700亿参数以下基座模型中文处理的领跑者,猎户星空大模型为中文AI应用开辟新天地。
引言在人工智能的快速发展中,大模型技术始终是推动行业进步的重要力量。特别是在处理长文本上下文方面,长文本技术已成为衡量一个大模型技术成熟度的重要标准。近日,元象科技发布了全球首个256K上下文窗口长度的开源大模型——XVERSE-Long-256K,这一创新举措不仅填补了开源生态的空白,也标志着大模型技术在长文本处理能力上迈出了重要一步。Huggingface模型下载:https://huggin
总览:大模型技术的快速演进自2023年7月6日“书生·浦语”(InternLM)在世界人工智能大会上正式开源以来,其在社区和业界的影响力日益扩大。在过去半年中,大模型技术体系经历了快速的演进,特别是100K级别的长上下文、代码解释、智能体等新技术的不断迭代。伴随技术水平的不断提升,大模型在应用边界的拓展也愈发显著。在这一背景下,上海人工智能实验室联合商汤科技、香港中文大学和复旦大学,共同推出了全新
前言随着AIGC技术的不断进步,各类多模态大模型(MLM)开始蓬勃发展。在这一领域中,LLaVA-Plus的推出无疑是一次重大突破。作为LLaVA团队的最新工作,LLaVA-Plus不仅继承了LLaVA的优秀特性,还在此基础上进行了显著改进和升级。Huggingface模型下载:://huggingface.co/LLaVA-VL/llava_plus_v0_7bAI快站模型免费加速下载
前言在当今多模态大模型的研究与应用中,封神榜大模型团队的最新力作Ziya-Visual-Lyrics在多个方面实现了显著的技术突破。该模型综合了细粒度的视觉处理和先进的语言理解能力,为多模态人工智能领域带来了革命性的影响。伴随着GPT4V、Gemini等模型的崛起,多模态大模型已经超越了传统的大语言模型范畴,涵盖图像、音频、视频等多种模态。这些模型不仅仅是技术上的飞跃,更开启了多模态大模型应用的新
模型介绍WiNGPT2是基于GPT架构开发的医疗垂直领域大模型,其主要目标是将医学知识、医疗信息和数据进行深度融合,以提供智能化的医疗服务。该模型拥有70亿和140亿两种参数规模的版本,使其能够处理更复杂的医疗场景和需求。Huggingface模型下载:://huggingface.co/winninghealth/WiNGPT2-14B-BaseAI快站模型免费加速下载::/
模型简介随着Midjourney、Stable Difusion等产品的兴起,文生图像技术迅速发展。然而,在图像中生成或嵌入精准文本一直是一个挑战,尤其是对中文的支持。阿里巴巴的研究人员开发了AnyText,这是一个多语言视觉文字生成与编辑模型,旨在解决这些难题。Github:://github./tyxsspa/AnyTextAI快站模型免费加速下载:://aifast
前言在人工智能技术的快速发展过程中,国产首个开源MoE(Mixture of Experts)大模型——DeepSeek MoE的推出,不仅标志着在全球AI领域的重大突破,而且在计算效率和模型性能上展现了显著的优势。这款160亿参数的模型在保持与国际知名Llama 2-7B模型相媲美的性能的同时,实现了显著的计算效率提升,计算量仅为对手的40%。模型特性与技术创新DeepSeek MoE模型的
前言在当前多模态大型语言模型(MLLM)快速发展的背景下,TinyGPT-V的出现标志着一个重要的技术突破。这款轻量级模型以其2.8B参数的设计,在AI领域引起广泛关注,成为GPT-4V等模型的高效替代方案。Huggingface模型下载:https://huggingface.co/Tyrannosaurus/TinyGPT-VAI快站模型免费加速下载:https://aifasthub.com
模型描述SSD-1B面临的主要挑战是生成人工智能的大小和速度。处理基于文本的语言模型时,加载整个模型权重和推理时间成为一个挑战,对于使用稳定扩散的图像来说更是如此。SSD-1B是SDXL的精简版,体积缩小了50%,速度提升了60%,同时保持了高质量的文本到图像生成能力。它在包括Grit和Midjourney scrape数据在内的多样化数据集上进行了训练,擅长基于文字创建视觉内容。这一成就是通过从
前言在当前快速发展的人工智能领域,特别是在大型语言模型(LLM)的赛道上,新的竞争者Phind-CodeLlama-34B-v2已经引起了业界的广泛关注。作为一款专注于代码生成的模型,它不仅在标准基准测试HumanEval上取得了73.8%的pass@1成绩,还在多语言编程方面展现出了卓越的能力。Huggingface模型下载:https://huggingface.co/Phind/Phind-
模型概述LLaMA-VID模型的主要目标是解决现有视觉语言模型在处理长时视频时遇到的挑战。这些挑战主要包括处理大量视觉特征所需的高计算资源以及信息的复杂性和冗余性。为了克服这些难题,LLaMA-VID采用了创新的方法,有效地减少了长时视频中无关紧要信息的数量,同时保留了最核心和有意义的信息。Huggingface模型下载:https://huggingface.co/YanweiLiAI快站模型免
概述近年来,扩散模型在图像生成领域取得了显著进展,但在文本图像融合方面依然存在挑战。TextDiffuser-2的出现,标志着在这一领域的一个重要突破,它成功地结合了大型语言模型的能力,以实现更高效、多样化且美观的文本图像融合。Huggingface模型下载:https://huggingface.co/JingyeChen22/textdiffuser2_layout_plannerAI快站模型
前言雅意2.0,作为一款专注于中文语境的开源大型语言模型,其在多语言处理方面的能力尤为突出。该模型不仅具有300亿参数规模的庞大体量,还在多个关键领域取得了显著的技术突破。Huggingface模型下载:https://huggingface.co/wenge-research/AI快站模型免费加速下载:https://aifasthub.com/models/wenge-research模型训练
引言LLaVA-v1.5-7B是一个开源大型多模态模型(LMM),它通过结合视觉指令调整(Visual Instruction Tuning)技术,展示了在多模态理解和生成任务上的卓越性能。该模型特别注重简洁性和数据效率,利用CLIP-ViT-L-336px与多层感知器(MLP)投影以及包含学术任务导向的视觉问答(VQA)数据,来建立更强的基准。Huggingface模型下载:https://hu
引言在人工智能的前沿领域,Starling-LM-7B的出现标志着开源大型语言模型(LLM)的一大突破。与GPT-4的近距离竞争不仅展示了Starling-LM-7B的技术实力,也突显了开源社区在推动AI发展方面的重要作用。模型特点Starling-LM-7B,一个由人工智能反馈强化学习(RLAIF)训练的开源LLM,使用了新的GPT-4标记排名数据集Nectar和全新的奖励训练及策略调整流程。在
引言在对话AI的发展史上,OpenChat-3.5标志着一个新纪元的到来。拥有70亿参数的这一模型,不仅是对现有语言学习模型(LLMs)的重大改进,更是在多模态任务中树立了新的标准。模型概述OpenChat-3.5作为一款先进的多模态语言模型,凭借其卓越的编码能力和通用化方法,在各类基准测试中表现突出。在GSM8K、MATH、HumanEval和MMLU等多个重要基准上,OpenChat-3.5不
引言在AI领域,适应和理解人类偏好一直是技术发展的重要方向。斯坦福大学研究团队最近提出的Diffusion-DPO方法,旨在将这一理念应用于图像生成模型,特别是在文本到图像的转换领域。Huggingface模型下载: https://huggingface.co/mhdang/AI快站模型免费加速下载: https://aifasthub.com/models/mhdang/技术创新Diffusi
引言多模态任务在人工智能领域一直是极具挑战性的「技术高地」。智源研究院最近开源发布的新一代多模态基础模型Emu2,在这一领域取得了突破性进展。Emu2以其庞大的37亿参数规模和强大的多模态生成能力,为AI的多模态理解和生成开启了新的篇章。模型概述Emu2是一款大规模自回归生成式多模态预训练模型,训练过程中采用了大量图文、视频序列,以及统一的自回归建模方式。这款模型在少样本多模态理解任务上大幅超越了
引言在人工智能领域,模型的规模和效能一直是衡量其先进性的关键指标。南方科技大学联合IDEA研究院CCNL团队最新开源的SUS-Chat-34B模型,以其340亿参数的庞大规模和卓越的双语处理能力,在AI界引起了广泛关注。模型概述SUS-Chat-34B是基于01-ai/Yi-34B预训练模型,经过数百万高质量多语言指令数据微调而成的双语模型。它不仅继承了基础模型的强大语言能力,还通过高质量指令微调
引言在人工智能的发展历程中,模型的大小和性能一直是研究者关注的焦点。微软最新推出的Orca 2模型,以其较小的体积却展现出媲美大型模型的推理能力,引领了一个全新的研究方向。Huggingface模型下载:https://huggingface.co/microsoft/Orca-2-13bAI快站模型免费加速下载:https://aifasthub.com/models/microsoft/Orc
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号