本文将为开发者优化昇腾Cube类算子性能带来启发。
在无线领域,利用AI技术对任务准确建模、多核系统任务最优调度等问题都是非常有价值的算法难题。
《指南》详列了智能化软件开发的六大核心能力,包括“代码生成与补全”、“单元测试用例生成”等。
AIOps
为了保证应用正确上下线、流量不丢失,ServiceStage 基于 Sermant 提供了一套优雅上下线的方案,包括预热、延迟下线等,避免了请求超时、连接拒绝、流量丢失等问题的发生。
华为持续赞助全球重大科技竞赛,开放业界前沿研究课题,旨在促进科技人才培养,持续赋能科技企业,进一步推动科技进步和产业发展。
针对现有长序列训练场景的痛点,MindSpeed在并行算法、计算效率、内存占用以及通信四个维度系统性优化大模型长序列训练效率,支持大模型百万级长序列训练。
解读业界首个云原生边缘计算框架KubeEdge的架构设计,如何实现边云协同AI,将AI能力无缝下沉至边缘,让AI赋能边侧各行各业,构建智能、高效、自治的边缘计算新时代,共同探索智能边缘的新篇章。
快来给你的开发工作加点“码力”。
论文提出了CachedAttention,一种新的注意力机制允许在多轮对话中重用KV Cache,显著减少重复计算开销从而提升推理性能。
三大改造方案,华为云帮助盈禾嘉田打造一张灵动的AI“慧眼”。
如何减少Host Bound模型的Device空闲时间,从而优化模型执行性能显得尤其重要,GE(Graph Engine)图引擎通过图模式的Host调度和模型下沉调度的方式,可提升模型调度性能,缩短模型E2E执行时间。
Stable Diffusion 3的强大性能其实并不仅限于Diffusion Transformer在架构上所带来的增益,其在提示词、图像质量、文字拼写方面的能力都得到了极大的提升。
本教程将使用动漫头像数据集来训练一个生成式对抗网络,接着使用该网络生成动漫头像图片。
内存复用技术可在不影响网络执行性能的前提下降低内存占用,结合Topo优化可以进一步降低内存占用,且对执行性能影响也较小。
深入剖析了AI Agent这一前沿科技领域的全貌。从基础概念的澄清,到技术原理的细致解构,再跨越至丰富多样的应用场景探索。
RWKV在多语言处理、小说写作、长期记忆保持等方面表现出色,可以主要应用于自然语言处理任务,例如文本分类、命名实体识别、情感分析等。
本文对比LLaMA1和 LLaMA2模型的技术细节,了解LLaMA2模型的内部核心算法,包括与Transformers架构的差异,以及LLaMA2与国内大模型的异同,进一步加深了大家对LLaMA的理解。
GE(Graph Engine)图引擎采用多流并行算法,在满足计算图任务内部依赖关系的前提下,支持高效并发执行计算任务,从而大大提高硬件资源利用率和AI计算效率。
在ArchSummit全球架构师峰会2024上,华为云aPaaS平台首席架构师马会彬受邀出席,和技术爱好者分享AI原生应用引擎的架构与实践。
本章主要介绍了如何使用ModelBox开发一个AI智能数猪的原创应用,可以了解到图片标注、数据处理和模型训练方法,以及对应的推理应用逻辑。
本文将详细介绍联邦学习中的异构模型集成与协同训练技术,包括基本概念、技术挑战、常见解决方案以及实际应用,结合实例和代码进行讲解。
本文介绍了如何使用ModelBox开发一个动物目标检测的AI应用,从而掌握图片标注、数据处理和模型训练方法,以及对应的推理应用逻辑。
在通用能力、专用场景能力应用成熟度三个能力域上均获优异结果。
本文针对FlashAttention反向融合算子的性能优化方案展开介绍,并通过优化实现了典型场景4倍左右的性能提升,希望对开发者优化此类基于Ascend C开发的融合算子带来启发。
华为云基于大模型技术,学习了1300多万篇经典的技术文档、760亿行精选代码,打造了智能开发助手CodeArts Snap。
文中的配置定义了 Actor-Critic 算法在 MindSpore 框架中的具体实现,包括 Actor 和 Learner 的设置、策略和网络的参数,以及训练和评估环境的配置。
本文介绍了序列到序列(Seq2Seq)模型的基本原理,并使用 Python 和 TensorFlow/Keras 实现了一个简单的英法翻译模型。
基于开源解决方案“Open-Sora 1.0”,在华为云AI Gallery上通过ModelArts体验文字生成视频应用。
从模型推理需要的开发板环境搭建到执行推理,本文主要是为大家介绍从Ascend910训练到Ascend310推理的昇腾开发全流程。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号