#VideoAnydoor

港大达摩院【视频AI任意门】,向视频无缝传送物体,同时支持准确动作控制

本文中,香港大学与阿里达摩院联合提出视频任意门模型,该方法支持将目标准确插入指定视频中。在该过程中,提出的方法可以准确保持参考目标的身份信息,同时根据给定轨迹进行精准动作控制,实现高保真的视频目标插入。提出的方法无需微调便可应用于包含视频目标交换,视频换脸,视频虚拟换衣,视频多区域编辑等多种领域,具有广泛的应用价值。

  • 论文标题:VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control
  • 项目主页:https://videoanydoor.github.io/
  • 论文链接:https://arxiv.org/pdf/2501.01427
  • 视频介绍:https://www.youtube.com/watch?v=4YYGejumDfU

,时长01:41

51c视觉~合集42_视觉


效果展示

我们首先展示方法在目标插入任务上的性能,实验结果表明方法可以将给定对象无缝插入到给定视频中,并精确控制其运动及位置。该方法具有较强的应用前景,可以将视频编辑的门槛大大降低,让更多创作者可以根据自己的创意快速实现内容创作。

如下所示,用户可以让美丽的蝴蝶轻盈地飞到花朵上;哈士奇可以和主人在雪中同步起跳;海鸥在广阔的海面上自由翱翔;车辆潇洒地转弯....

51c视觉~合集42_视觉_02

insert_fly

51c视觉~合集42_视觉_03

insert_bird

51c视觉~合集42_视觉_04

insert_dog

51c视觉~合集42_视觉_05

insert_car

51c视觉~合集42_视觉_06

insert_fish

51c视觉~合集42_视觉_07

insert_fish2

51c视觉~合集42_视觉_08

insert_cat

51c视觉~合集42_视觉_09

insert_car2

另外,VideoAnydoor支持向视频中的某个目标插入图案,实验结果表明,插入的图案能够非常自然地融入到背景中(例如向人的衣服上贴上LV的图案),能够展现出与背景一致的和谐度,同时具有良好的帧间一致性,显著提升了任务的生成质量。

51c视觉~合集42_视觉_10

logo_insert0

51c视觉~合集42_视觉_11

logo_insert1

51c视觉~合集42_视觉_12

logo_insert2

随后我们展示了方法在视频虚拟换衣任务上的性能。作为目标插入的子任务,视频虚拟换衣对于细节保持上有着更为严格的要求。实验结果表明VideoAnydoor 能够精准地保留对象的外观细节,让每一个纹理、每一处图案、每一处色彩都清晰可见。同时,它还具备卓越的视频流畅性,让换衣后的视频如同自然拍摄一般,毫无卡顿与不自然之感。

51c视觉~合集42_视觉_13

tryon1

51c视觉~合集42_视觉_14

tryon2tryon3

此外,VideoAnydoor 支持视频多区域编辑,展现出许多未经过专门训练的强大能力,进一步证明其通用性和扩展性。这种多区域编辑能力为视频创作提供更大的灵活性和可能性。

51c视觉~合集42_视觉_15

sconcat0_new

51c视觉~合集42_视觉_16

sconcat1_new

除了上述结果外,我们在论文中也展示了更多VideoAnydoor编辑得到的结果,如下所示,编辑之后的结果可以准确地根据参考图像以及给定的运动轨迹,向视频中流畅地插入目标,具有较强的实际应用潜力。

51c视觉~合集42_视觉_17

moreexample

方法介绍动机

作为视频编辑领域的重要方向,视频目标插入在实际场景中有着广泛的应用潜力。

该任务存在两个难点: 准确身份保持和精准动作控制。现有的方法(如AnyV2V或是ReVideo)大多采用两阶段编辑方式,即先用图像的定制化方法编辑第一帧,随后以第一帧作为条件生成后续帧。然而这种方式在生成的第一帧并不完美的情况,会导致整个视频出现严重的失真现象。

另外由于他们并没有向后续帧注入身份信息,因此这些帧中目标的身份以及动作常会出现明显瑕疵。因此我们在本文中旨在设计一种端到端零样本目标插入框架,可同时实现准确的身份信息保持和精准的目标动作控制。

51c视觉~合集42_视觉_18

framework

模型结构

我们基于2D补全扩散模型并插入动作模块构建初始网络,同时利用DINOv2作为身份信息提取器实现初步身份保持,另外使用包围框作为粗粒度动作指导条件。

在将参考图输入该提取器之前,我们使用分割模型去除对应的背景区域以得到紧致的身份信息潜在编码。对于细粒度控制,我们采用交互友好的轨迹线作为控制条件,同时提出了一个像素包裹器根据用户想要的动作及姿态打包像素中包含的细节信息,实现外观信息和准确动作的同时建模。

最后我们引入了一个重加权重建损失以放大关键点带来的影响,并设计了一种图像和视频混合训练的策略来缓解因为缺少大量高质量数据带来的影响,实现高保真的目标插入。

推理过程中,用户只需提供一张参考图像,一个需要编辑的原视频,以及一个运动框轨迹或是运动框轨迹加关键点轨迹,我们的方法便可端到端自动完成对象插入及运动控制,无需额外微调,大大简化了视频编辑的流程。

像素包裹器

1. 轨迹采样: 在训练过程中,从视频中提取轨迹以提供运动条件是至关重要的。先前的工作表明,物体的运动可以通过关键点来控制。因此,如下图所示,我们首先将第一帧输入到 X-Pose中,以初始化后续轨迹生成的点。对于 X-Pose 未能检测到任何关键点的情况,我们使用网格对密集采样点进行稀疏化。我们凭经验发现,运动幅度较大的点对轨迹控制更有帮助。然而,这些点大多密集分布在某些区域,导致严重的信息冗余。因此,为了过滤掉不需要的点,我们首先执行非极大值抑制以过滤掉密集分布的点。然后,我们对每个点进行运动跟踪以获得它们的路径长度。然后,我们保留运动幅度最大的 N 个点,并使用相应的轨迹图作为控制信号。

51c视觉~合集42_视觉_19

filtering

2. 动作注入: 一种简单的运动注入实现方法是像之前的方法,只训练一个类似的控制模块来注入运动条件。然而,这样的方案可能无法准确地插入具有期望运动和外观细节的物体,因为它与参考物体没有明确的语义对应关系。因此,物体可能会以不期望的姿势插入到视频中,导致前景区域出现严重失真。为了解决这个问题,我们输入一对轨迹图和对应的参考图像作为细粒度的指导。在该过程中,轨迹序列与关键点标注后的参考图对应的潜在编码分别输入两个交叉注意力模块进行语义感知融合。随后融合后的特征输入ControlNet提取多尺度特征输入扩散模型的各层中,实现细粒度外观信息建模及准确动作控制。

3. 重加权: 为了进一步增强对身份和运动的细粒度建模,我们提出了一种重加权的扩散损失,它区分了轨迹周围区域与剩余区域的贡献。具体来说,我们放大轨迹周围区域的贡献,以增强主体和运动学习,同时对这些剩余的区域保留原始的扩散损失。

数据构造

用于训练的理想样本应当是“同一场景位置但包含不同物体”的视频对,但现有的数据集很难收集到这样的样本。

作为替代方案,我们从同一视频中抽取所有需要的数据。具体来说,对于一个视频,我们选取一个视频片段和一个与该片段距离最大的帧。

对于视频片段,我们生成框序列,并去除框区域以得到场景视频,未被掩码的视频可以用作训练的真实值。具体来说,在实现中我们使用扩展的边界框而不是紧密包围的边界框。

对于移动范围较小的框,我们使用框的并集作为最终框,以减少边界框对运动的影响。所有的训练数据如下图所示:

51c视觉~合集42_视觉_20

trainingset

为了缓解高质量视频数据不足带来的问题,我们采用图像与视频一起进行联合训练。然而,直接重复图像会损害时间模块的判别性学习。相反,我们通过手动操作相机将图像增强为视频。

具体来说,我们从不同方向以等间隔随机平移/裁剪图像获得图像序列。然后,对图像序列进行双线性插值处理以增强视频的平滑度。虽然增强后的视频有利于外观变化的学习,但它们与真实视频的本质区别可能会损害运动学习。

因此,我们采用自适应时间步长采样,使不同模态的数据能够在去噪训练的不同阶段做出贡献。

效果对比

为了进一步凸显我们的方法在目标插入方面的优势,我们与目前最为优秀的方法进行了综合对比。

如下图所示,由于采用两阶段编辑范式,AnyV2V在编辑区域和未编辑区域都存在严重的内容失真问题。此外,由于使用文本作为控制信号,它的动作一致性较差。

对于 ReVideo 来说,也存在明显的编辑内容丢失情况,特别是在有较大运动的情况下。由于运动信号中缺乏语义信息,它对插入对象的姿态控制较差(蝴蝶以相反的姿态移动)。

相比之下,我们的 VideoAnydoor 可以有效地保留未编辑的内容,同时允许用户在编辑区域自定义运动。

51c视觉~合集42_视觉_21

comparison

为了更加有力地验证我们所提出的方法能够准确地与给定的运动轨迹进行对齐,我们特意展示了同一目标在不同运动轨迹下的生成结果。

无论是柴犬起跳时的活力瞬间,转身时的灵动姿态,还是向前走时的坚定步伐,所有的结果都令人惊叹地展现出了良好的身份以及动作一致性。

同时,背景与柴犬的融合也达到了较高的和谐程度。我们的方法以其卓越的性能,为视频创作和处理带来了全新的可能,让每一个画面都成为艺术的杰作。

51c视觉~合集42_视觉_22

differentmotion

最后为了验证每个模块对于最终性能的提升,我们进行了详细的消融实验。

如下所示,仅使用静态图像进行训练会损害模型的动作一致性,而只使用真实视频则会因为缺少足够的训练数据导致结果出现失真的情况,另外当移除我们提出的像素包裹器模块,插入的姿态和身份信息都出现了明显的错误。

当融合所有提出的模块时,VideoAnydoor可以取得最优秀的性能。

51c视觉~合集42_视觉_23

ablationmodule

未来展望

无需微调,VideoAnydoor在多个不同的任务中展现出了巨大的潜力。然而现有的方法仍然难以处理复杂的图案,另外对于更为复杂的动作仍然存在可以提升的空间。

为此,我们计划探索设计更为有效的动作及身份注入模块,引入相关数据进行针对性训练,同时对于训练及推理效率问题,构建更为高效的结构,以便能够应对更为复杂的数据规模以及动态场景需求,从而全面推动模型性能与实用性的提升。








#人工智能和计算机视觉如何改变农业格局

农业一直是人类进步的关键,为我们提供维持我们生存的食物。然而,随着世界面临越来越多的挑战——从气候变化到全球人口增长——对更智能、更高效的农业实践的需求从未如此迫切。这就是人工智能和计算机视觉发挥作用的地方,它们改变了我们处理农业的方式并彻底改变了这个行业。无论是预测产量、检测疾病还是优化资源,人工智能都处于新农业革命的前沿。

51c视觉~合集42_视觉_24

51c视觉~合集42_视觉_25

人工智能和计算机视觉如何改变农业格局

    过去,农业是一个劳动密集型的过程,通常依赖于手工劳动和直觉。但现在,得益于人工智能计算机视觉,农业已进入一个新时代。人工智能技术正在帮助农民做出更明智的决策,减少浪费,提高生产力,并为农业打造更可持续的未来。

    以下是人工智能对各种作物产生影响的一些主要方式:

    1. 更智能的作物监测和产量预测

    人工智能正在改变农民监测农作物健康状况的方式。利用无人机、传感器和摄像头,人工智能可以持续扫描田地,以检测疾病、害虫或营养不足等问题。这些实时数据可帮助农民做出明智的决定,决定如何照料农作物以及何时收获。

    例如,人工智能模型可以分析苹果园的图像,以准确确定苹果的生长数量,并以惊人的准确度估算产量。同样,番茄种植者可以使用人工智能检测早疫病,这是一种真菌疾病,表现为叶子上的黑斑。早期检测至关重要,因为它可以防止疾病蔓延并影响整个作物。

  • 更好的产量预测:人工智能系统处理视觉数据和历史趋势,以提供准确的产量预测,帮助农民准备收获并更有效地规划资源。
  • 资源效率:人工智能有助于优化水、肥料和农药的使用,减少浪费,并确保只处理需要关注的区域。例如,人工智能可以检测出田地的哪些部分需要灌溉,防止过度使用并确保农作物获得适量的水。

    2. 自动化疾病和害虫检测

    农作物病虫害是农民面临的最具破坏性的挑战之一。传统上,检测和诊断这些问题需要数小时的人工检查。人工智能改变了这一切。通过图像识别和机器学习算法,人工智能模型可以比人眼更快、更准确地识别农作物中的疾病、害虫和压力迹象。

    例如,在番茄种植中, YOLO(You Only Look Once)等 AI 模型会分析植物图像,精确定位受早疫病或叶斑病等疾病影响的区域。该系统会用红色或蓝色方框突出显示感染部位,并提供诊断的置信度分数。这可以帮助农民立即采取行动,无论是修剪受感染的植物还是施用正确的杀菌剂。

  • 早期检测:人工智能模型可以在疾病最易治疗的最早阶段检测出疾病,从而降低农作物大规模爆发的风险。
  • 更快的决策:人工智能无需手动检查每株植物,而是可以快速扫描大面积区域,节省宝贵的时间,同时提供可操作的见解。

    3. 精准采收与质量控制

    一旦农作物可以收获,人工智能就会继续发挥作用,优化收获过程。对于苹果,人工智能模型可以检测哪些水果已经成熟并可以采摘,确保只收获最好的苹果,减少浪费,提高质量。

    对于葡萄、浆果和西红柿等许多农作物,由计算机视觉引导的机器人收割机可以采摘水果而不会损坏它们。这些机器人使用人工智能来评估每个水果的成熟度,选择它并轻轻地收集它,使采摘更加高效和精确。

  • 一流的品质:通过识别水果的准确成熟度,人工智能确保只有最高品质的产品才能到达消费者手中,从而减少作物过熟或未熟的可能性。
  • 降低劳动力成本:收割自动化减少了对手工劳动的依赖,手工劳动既昂贵又稀缺,尤其是在世界许多地方。

    4. 智能灌溉和资源管理

    水是农业最宝贵的资源之一,人工智能可以帮助农民更明智地利用水。通过精准灌溉,人工智能模型可以分析土壤水分、天气状况和作物健康状况的实时数据,以准确确定田地每个部分需要多少水。

    通过监测土壤和天气状况,人工智能可以预测农作物何时需要浇水以及需要浇多少水,从而减少水浪费并提高农作物产量。这在缺水地区或旱季尤为重要。

  • 节水:通过优化灌溉时间表和调整田地各个部分的水位,人工智能帮助农民节约用水,同时保持作物健康。
  • 节省成本:高效的水管理减少了过度灌溉的需要,为农民节省了水和能源成本。

    5. 自动化机械:农业的未来

    农业人工智能最令人兴奋的进步之一是自动化机械的发展。这些人工智能机器可以在无需人工干预的情况下执行种植、除草和收割等任务。

    例如,配备计算机视觉的自动拖拉机可以犁地、播种和监测作物健康状况,同时避开障碍物并最大限度地减少土壤压实。同样,由人工智能驱动的机器人除草机可以在不损害作物的情况下识别和清除杂草,从而减少对除草剂的需求。

  • 效率:自动化机器可以全天候工作,减少对人力的需求并提高生产力。
  • 精确度:这些机器非常精确,可以最大限度地减少作物损害并减少化学品的过度使用。

    6. 环境可持续性

    人工智能在提高农业可持续性方面也发挥着重要作用。通过数据驱动的决策,人工智能可以帮助农民减少对环境的影响,同时提高生产力。

    例如,通过实时监测农作物的健康状况,人工智能可以帮助农民减少化肥和农药的使用。通过仅在需要时使用化学药品,农民可以减少径流并最大限度地减少对周围生态系统的影响。人工智能还可以通过识别需要更多关注的区域并指导农民如何更有效地分配资源来帮助优化土地利用。

  • 生态友好型农业:通过减少对化学处理的需求并减少浪费,人工智能帮助农民实践更可持续的农业。
  • 生物多样性:人工智能技术使农民能够监测田地中的生物多样性,确保他们在种植粮食的同时维持健康的生态系统。

挑战与未来潜力

    尽管人工智能为农业带来了令人难以置信的进步,但仍有挑战需要克服。首先,人工智能系统需要大量高质量数据才能发挥最佳功能,而并非所有农场都有资源来收集或管理这些数据。此外,人工智能技术价格昂贵,许多农民在采用新技术时可能会面临陡峭的学习曲线。

    然而,随着人工智能工具越来越普及和价格越来越实惠,以及农业数据收集方法的改进,人工智能改变农业的潜力不断增长。未来,人工智能甚至可以与物联网设备配对,获取作物生长的实时数据和预测分析,帮助农民做出更明智的数据驱动决策。

    从苹果种植到番茄病害检测,人工智能和计算机视觉正在帮助农民迎接现代农业的挑战。通过改善作物监测、优化资源、早期发现疾病和减少体力劳动,人工智能正在使农业更加高效、高产和可持续。

    人工智能并不完美,但可以通过改变置信度阈值和人工智能训练中的一些校准来改进。

    农业的未来是智能的、数据驱动的和可持续的。人工智能不仅仅是一种工具,它还是塑造未来粮食生产的合作伙伴——既能养活不断增长的全球人口,又能保护环境。随着技术的不断进步,人工智能彻底改变农业的潜力是无限的。随着每一次新的突破,我们都会更接近未来更高效、更具弹性、更可持续的农业系统。








#DOSOD

开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法

在计算机视觉领域,目标检测是一项关键技术,旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位,但近年来,开放词汇检测(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)崭露头角,为目标检测带来了新的活力与可能性。与闭集检测相比,开放词汇检测打破了检测类别固定的“枷锁”,它在训练时利用丰富多样的文本 - 区域对(text-region pairs)数据,将文本作为类别标签,大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中,能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下,前者具有非常强大的检测能力,精度遥遥领先,其模型依赖参数量较大的Transformer结构,实时性较弱。后者依赖轻量级的Convolution结构,能够达到实时推理的效率,精度上依然不错。

DOSOD(Decoupled Open-Set Object Detection)是地瓜机器人最新发布的开放词汇目标检测算法,力求在低算力边缘端实现更高的推理效率,同时带来比YOLO-World更具竞争力的精度表现。在算法上,DOSOD采用了独特的解耦特征对齐策略,摒弃了传统的图像-文本交互方式,通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐,进一步提升了模型的推理效率和精度。

实验结果显示,DOSOD在多个公开数据集(如LVIS)上的表现超越了YOLO-World-v2,并在边缘AI计算平台上展现了压倒性的效率优势。

51c视觉~合集42_视觉_26

文章开源地址:https://arxiv.org/abs/2412.14680代码开源地址:https://github.com/D-Robotics-AI-Lab/DOSOD文章由地瓜机器人应用算法部,中科院自动化所多模态人工智能系统全国重点实验室,苏州大学未来学院,上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

51c视觉~合集42_视觉_27

目前主流的开放词汇检测对齐策略主要分为以下三种:

(a) 教师 - 学生蒸馏方法

  • 描述:利用 VLM(视觉语言模型)的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
  • 总结:通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

  • 描述:文本嵌入与检测器骨干网络提取的图像特征进行交互,以实现对齐。
  • 总结:通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

  • 描述:在不进行交互的情况下对齐特征,通过视觉 - 语言特征适配来实现。
  • 总结:采用解耦方式,不依赖交互来进行特征对齐。

DOSOD(Decoupled Open-Set Object Detection) 属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦,以实现更高效的对齐过程,从而在保证检测精度的同时大幅提升推理速度。

51c视觉~合集42_视觉_28

在此基础上,DOSOD洞察到了闭集检测与开放词汇检测之间的本质联系,提出了全新的结构框架(如上图所示)。具体来说,DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作,从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中,类别标签文本首先通过一个文本编码器(来自VLM)生成初步的Text Embedding,然后经过一个基于MLPs的特征适应模块,对Text Embedding进行特征优化,为Joint Space中的对齐操作做准备。

在图像侧,DOSOD使用经典的单阶段目标检测器(文中使用了YOLOv8)来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后,在Joint Space中,通过计算Text Embedding与Region Feature之间的相似度,从而完成特征对齐。

DOSOD的实验结果

在实验部分,DOSOD在公开数据集上进行了预训练,并在LVIS和COCO数据集上进行了Zero-shot验证。DOSOD均拥有优秀的精度表现:

  • 在LVIS数据集上,相较于YOLO-World-v2,DOSOD精度全面领先,并与YOLO-World-v1不分伯仲。

51c视觉~合集42_视觉_29

  • 在COCO数据集上,DOSOD整体精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上说明,COCO由于词汇丰富程度较低,不太适用于开放词汇检测任务评测。

51c视觉~合集42_视觉_30

在推理速度上,通过将DOSOD与YOLO-World在NVIDIA RTX 4090和D-Robotics RDK X5上进行全面对比,我们可以看到:

  • DOSOD在主流的服务器级别的芯片上,推理效率是显著高于YOLO-World。

51c视觉~合集42_视觉_31

  • 在边缘侧的AI计算平台上,DOSOD以碾压式的效率提升,远远超越YOLO-World。

51c视觉~合集42_视觉_32

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景,既能用于常规检测任务里的目标检测,也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型,只需收集少量相关数据进行微调,就能显著提高模型的稳定性和检测效果。

  • DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中,COCO数据集预先定义了80个固定类别。我们可以看到,在经过大数据量的开放词汇数据集预训练后,DOSOD能够检测出诸多长尾类别,如图2左下角的“heater”,图4中的“shoe”和“wheel”,而这些词汇并未包含在COCO数据集的80个类别之内。

51c视觉~合集42_视觉_33

DOSOD 部署在RDK X5上的通用场景感知效果↓↓↓

,时长00:39

  • DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像,任务要求是检测出地面上的各类污渍或障碍物,这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调,DOSOD成功识别了这些特殊类别,为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

51c视觉~合集42_视觉_34

51c视觉~合集42_视觉_35

51c视觉~合集42_视觉_36

51c视觉~合集42_视觉_37

(滑动查看更多)

DOSOD 部署在RDK X5上的扫地机污渍检测Demo效果↓↓↓

以下视频来源于

,时长01:50

DOSOD作为一款新兴的开放词汇检测算法,凭借创新的解耦特征对齐策略,在提升推理效率的同时,成功地保证了精度,展示出了极强的应用潜力。未来,随着计算资源的提升与算法的不断优化,DOSOD有望在机器人、自动驾驶、智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果,DOSOD不仅在精度上超越了对标方法,更成功解决了推理效率与低算力设备适应性之间的挑战,为智能机器人技术的普及与发展提供了有力支持。

未来,地瓜机器人将秉承“成为机器人时代的Wintel”的品牌初心,持续与客户一同深入应用场景,在提供拥有极致性能表现的硬件的同时,为行业客户和开发者提供丰富的具有实用价值的算法,加速机器人技术的落地和广泛应用。











#xxx

#xxx