鲁班模锤1的主页-AI.x-AIGC专属社区-51CTO.COM

公众号矩阵

移动端

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

鲁班模锤1

LV.3

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链等技术

帖子 33

声望 315

关注 0

粉丝 1

社区头条作者热门内容榜上榜作者

私信

关注

主帖 33

回帖

图解DSPy：Prompt的时代终结者？！

社区头条

DSPy是一种编程模型，旨在改进语言模型（LM）在复杂任务中的使用方式。传统上，LM使用特定的提示模板（Prompt）进行控制，这些模板是基本前期大量的尝试而找到的预设指令。DSPy通过将LM流水线抽象为文本转化图谱，例如被其他申明模块触发的LM的命令计算图谱。1.PromptEngineering要理解DSPy，需要先理解提示词工程PromptEngineering。提示词工程也称之为上下文提示词或者上下文学习。它指的是在不更新模型权重的情况下引导LLM的...

4天前 168浏览 0点赞 0回复 0收藏

优雅谈大模型：一文读懂LoRA/DoRA/MoRA

社区头条

Microsoft于2021年推出的LoRA是一种经济型微调模型参数的方法。现在大模型的参数规模动不动都在10亿级别以上，微调大模型（微调这里代表着SFT，例如读者将某个大模型拿到自身领域，想使用自身领域的知识再次训练和精校大模型，就属于模型微调的领域。）的全面微调模式下，需要调整所有的参数，因此所需要的资源和时间巨大。LoRA提出了一种微训练模型的新方法，在冻结大部分的模型参数之余，仅仅更新额外的部分参数。同时它的性...

2024-11-14 15:44:28 288浏览 0点赞 0回复 0收藏

Cephalo：专门用于仿生设计的多模态视觉大型语言模型

原创精华

社区头条

材料科学侧重于研究和开发具有特定性能和应用的材料。该领域的研究人员旨在了解材料的结构、性能和性能，以创新和改进现有技术，并为各种应用创造新材料。该学科结合了化学、物理和工程原理，以应对挑战并改进航空航天、汽车、电子和医疗保健中使用的材料。材料科学面临的一个重大挑战是整合来自科学文献的大量视觉和文本数据，传统方法通常无法有效地组合这些数据类型，从而限制了生成全面见解和解决方案的能力。难点在于从图...

2024-11-08 14:55:11 709浏览 0点赞 0回复 0收藏

NASA和IBM推出INDUS：高级科学研究的综合大模型

原创

在最近的一项研究中，来自美国宇航局和IBM的一组研究人员合作开发了一种模型，该模型可应用于地球科学，天文学，物理学，天体物理学，太阳物理学，行星科学和生物学以及其他多学科学科。当前的模型，如SCIBERT、BIOBERT和SCHOLARBERT仅部分覆盖了其中的一些领域。现有的模型没有充分考虑所有这些相关领域。为了弥合这一差距，该团队推出了INDUS，这是一套基于LLMs编码器的专门针对这些特定领域的设备。由于INDUS是根据从各种来...

2024-11-04 11:15:29 289浏览 0点赞 0回复 0收藏

多模态大模型：基础架构

原创

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。多模态大型语言模型（MLLM）是人工智能领域的前沿创新，它结合了...

2024-10-29 12:36:46 395浏览 0点赞 0回复 0收藏

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验

原创

训练大型语言模型以及微调的教程比比皆是，但关于在生产环境中部署它们并监控其活动的资料相对稀缺。上章节提到了未来云原生的AI是趋势，然而涉及到云原生会比较偏技术。而在此之前为了解决大模型部署量产的问题，社区也一直在探索，目前已有不少工具可用于这个领域。另一方面，选择正确的推理后端为大型语言模型（LLMs）提供服务至关重要。不同的后端提供不同的服务LLMs方式，每种方式都有独特的功能和优化技术。它不仅确保了...

2024-10-24 14:51:24 458浏览 0点赞 0回复 0收藏

一文读懂OpenGVLab带来的最新视觉预训练框架

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。在过去的十年中，ImageNet预训练的视觉模型显著提高了...

2024-10-21 13:09:40 255浏览 0点赞 0回复 0收藏

NiFi ：1 初识这把“十年一剑”的利器

“现在AI和数据处理密不可分，80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题，快速完成场景建设。犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐。对于全栈式的数据分析师或者数据应用的Java研发工程师，NiFi让其摆脱复杂的数据工程，而是将精力放在分析和应用的创新之上。而NiFi的GUI也着实令人赏心悦目！”1.ApacheNiFi说到数据平台，很多人的第一反应要么是ETLELT，要么是Spark或Hadoop，要么是Flink，要...

2024-10-15 14:07:07 507浏览 0点赞 0回复 0收藏

神经网络与2024诺贝尔物理奖

原创

约翰·霍普菲尔德（JohnJ.Hopfield）和杰弗里·辛顿（GeoffreyE.Hinton）周二被授予诺贝尔物理学奖（NobelPhysicsPrize），以表彰他们的发现帮助计算机以人脑的方式学习更多知识，为人工智能的发展奠定了基础。该奖项是对AI在人们生活和工作方式中日益增长的重要性的认可。诺贝尔委员会表示，使用人工神经网络的机器学习能够理解大量数据，已经在科学研究中发挥了重要作用，包括在物理学领域，它被用于创造“具有特定特性的新材...

2024-10-09 14:26:07 277浏览 0点赞 0回复 0收藏

白话EAGLE2：解锁大模型的“打草稿”技术

原创

社区头条

实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。1.总览EAGLE2EAGLE2是一种加速大型语言模型（LLM）推理过程的技术。具体来说，它采用了基于推测性采样（speculativesampling）的技术，它通过引入动态草稿树和草稿模型的置...

2024-09-30 16:18:49 423浏览 0点赞 0回复 0收藏

优雅谈大模型：白话ZeRO 上

原创

并行策略正如和分布式一样，如何利用多设备和多硬件也是很重要的一个环节。大模型训练也是如此，如今训练大模型离不开各种分布式并行策略，常用的并行策略包括：数据并行（dataparallelism,DP）：假设有N张显卡，每张显卡都加载完整的模型，每一次迭代（iterationstep）都将一个批次的训练数据据分割成N份系统大小的小批次（microbatch），每张显卡按照自身拿到的小批次数据进行独立的计算梯度，然后调用AllReduce计算梯度均值...

2024-09-27 13:29:41 320浏览 0点赞 0回复 0收藏

WordLlama：在消费级GPU上奔跑的“瘦子”

原创

DavidMiller表示该模型的目标很明确：弥合尖端AI研究和实际应用之间的差距。他认识到，许多现有NLP模型需要大量的计算资源，并且通常局限于专有系统，从而限制了它们的可访问性。作为回应，WordLlama被设计为既轻量级又高效，使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工作流程中。WordLlama一个开源、快速、轻量级（16MB）NLP工具包，它是一种用于NLP和单词嵌入的实用型模型，它类似于GloVe、Word2Vec或F...

2024-09-20 10:57:46 532浏览 0点赞 0回复 0收藏

AI新思考：“浴火重生”的草莓模型

原创

“这个模型肯定比我更擅长解决AP数学考试，而且我在大学时辅修数学，”OpenAI的首席研究官鲍勃·麦格鲁（BobMcGrew）告诉我。他说，OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试，虽然GPT4o只正确解决了13%的问题，但o1的得分为83%。OpenAI发布名为o1新模型，这是全新“推理”模型系列中的第一个，这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1mini一起发布，o1mini是一个更小而且较为便宜的版本。...

2024-09-13 11:33:24 431浏览 0点赞 0回复 0收藏

优雅谈大模型：LangChain Vs. LlamaIndex

原创

实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。LlamaIndex和LangChain的对比其实是一个很复杂的话题，若需要用一句话来总结，LlamaIndex是数据之王，而Lang...

2024-09-10 11:46:28 471浏览 0点赞 0回复 0收藏

LLM基础模型系列：深入注意力机制

社区头条

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。1.自注意力SelfAttention自注意力的主要功能是从输入序列本身生成上下文感知向量，而不是像基于RNN的编码器解码器架构那样同时考虑输...

2024-09-05 13:27:26 578浏览 0点赞 0回复 0收藏

TSLANet：时间序列模型的新构思

时间序列数据具有内在的长程和短程依赖性，对分析应用提出了独特的挑战。虽然基于Transformer的模型擅长捕获长程依赖关系，但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性。本次的研究人员引入了一种新颖的时间序列轻量级自适应网络（TSLANet），作为各种时间序列任务的通用卷积模型。具体来说，利用傅里叶分析来增强特征表示并捕获长期和短期相互作用，同时通过自适应阈值来减轻噪声。此外还引入了交互...

2024-09-03 11:41:07 590浏览 0点赞 0回复 0收藏

优雅谈大模型：Python编程篇

原创

Python在机器学习领域的地位十分关键，虽然后面有Julia，Mojo等其他对手的挑战，然而Python拥有庞大的机器学习库和框架，尤其是生态系统比以往任何时候又强大了不少。从另外维度它和Java，Scala，Go，Rust等编程语言对比，在工程化方面还是稍欠火候。本文科普和机器学习相关Python库，而这类的使用者往往是机器学习从业者和数据科学家。来自GoogleBrain的TensorFlow仍然是最受欢迎和强大的机器学习库之一。它是开源，全面且灵活...

2024-08-29 14:53:01 478浏览 0点赞 0回复 0收藏

Jamba前生今世：1.5开源来袭

AI21服务于企业，为企业构建基础模型和AI系统以加速GenAI在生产中的使用。AI21成立于2017年，已从NVIDIA、Intel、Google等公司共筹集了3.36亿美元。它是最早将生成式AI推向大众的公司之一，借助AI21平台，企业可以构建自己的生成式AI的应用程序和服务。Jamba算是世界上第一款基于Mamba的生产级别的模型。近日AI21Labs发布Jamba1.5系列开放模型，包括Jamba1.5Mini和Jamba1.5Large，这些模型建立在新颖的SSMTransformer架构之上，...

2024-08-27 12:01:32 560浏览 0点赞 0回复 0收藏

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

大家也许会很好奇为什么在ViT章节插入了NVIDIALlama3.1Minitron4B，ViT因为应用场景的特殊性所以都寄希望于高效率的模型，因此各种针对大参数模型的提炼和优化技术层出不穷。而NVIDIALlama3.1Minitron则复现了这些系列的教科书实验。对于一些基本的术语，可以移步ViT1温习一下。1.Llama3.1Minitron4BLLMs例如Llama3.1405B和NVIDIANemotron4340B在许多具有挑战性的任务中表现出色，包括编码、推理和数学。但是部署它们需...

2024-08-22 13:55:16 494浏览 0点赞 0回复 0收藏

AI架构系列：去其形而留其意

原创

最近很多的咨询都在问我相同的问题，如何将LLM集成到垂直领域的业务场景。这里提到的场景当然这些场景不再是生成式应用，而是较为专业的领域。我翻了一篇三月份的论文，以这篇论文来回答读者的问题。其实就是要将LLM去其形，而留其意。LLM的主要战场还是在于自然语言的理解。其一它的特点是大，其二它的内核为Transformer引擎，这种引擎能够在所有的输入中提取有用的关联信息。这些信息可以是自然语言识别，也可以是时序数据，...

2024-08-20 10:31:19 456浏览 0点赞 0回复 0收藏

获得成就

已积累 4354 人气

获得 0 个点赞

获得 0 次收藏