昇腾AI开发者主题分享活动圆满落幕,整数智能与昇腾AI共助AI数据产业飞腾发展_自动驾驶

AI数据产业飞腾发展

近日,昇腾AI开发者创享活动在杭州成功举办并圆满落幕,本次活动由杭州市高新区(滨江)党委人才办指导、杭州人工智能计算中心、华为技术有限公司主办,主要依托杭州昇腾AI产业,聚集杭州具备硬实力的科技团队,进行深度技术交流和前沿科技分享,并进一步辐射全国开发者。

整数智能很荣幸作为活动受邀成员,以自动驾驶为切口,围绕AI数据与参会人员进行了深度的技术交流,展示了整数智能对AI数据行业的认知与贡献,也更加清晰地向我们揭示了昇腾AI和整数智能协同合作、互利共赢的紧密联系。

昇腾AI开发者主题分享活动圆满落幕,整数智能与昇腾AI共助AI数据产业飞腾发展_算法_02

昇腾AI开发者创享活动

昇腾AI:公共算力的提供者

2021年,美国将人工智能列为维护其超级大国地位的五大关键技术之一,全国主要国家和地区也都将人工智能作为重大战略布局,力图在新一轮国际科技竞争中掌握主导权,中国更是将人工智能等前沿领域作为强化国家战略的重要科技力量。

然而,随着人工智能的深入应用,算力建设难以集中,中小企业或科研单位在复杂模型、海量数据研究上的问题愈发显现。因此,建设大规模的人工智能计算中心,提供更加普惠的公共算力,成为推动人工智能产业健康快速发展的重要因素。

从去年开始,昇腾在不同城市的人工智能计算中心的建设过程中持续发力,力图通过算力网络打通从算力基础到应用生态的闭环,实现AI基础设施的技术创新,并在长期过程中改变着AI的发展模式,持续拓展AI的获取模式。

那么我们都知道,模型的规模越大,效果就越好,重剑无锋,大巧不公,而近几年硬件的采购成本增长趋势是比较迅猛的,未来可能会有更大的涨幅,所以算力对行业的影响是非常大的。

所以简单说硬件有多重要呢?怎么解决精度问题?用算力趟过去!怎么解决响应时间问题?用算力趟过去!怎么解决泛化问题?用算力趟过去!所以现在大家对算力的要求都很高,算力的成本与大小在很大程度上决定了一个产品的好坏。因此整数智能在做了大量的调研和思考后决定,使用昇腾平台,相同模型与其他超算平台相比,能节约48%的费用,同时在精度和服务能力方面也给我们很大惊喜。

昇腾AI开发者主题分享活动圆满落幕,整数智能与昇腾AI共助AI数据产业飞腾发展_数据_03

整数智能会议分享

整数智能:基于昇腾AI的算力应用

优质的数据+合理的模型=更好的AI,数据在很大程度上决定了产品的好坏,如何高效地生产优质数据和高质量地应用数据是很大的一个课题。整数智能刘明皓以自动驾驶行业的数据标注为例,分享整数智能基于昇腾AI的数据闭环平台的开发,讲述自动驾驶的数据需求关系。

基于对数据的重视程度,整数智能在不断完善中迭代出了更加高效的数据标注工具,还在部分场景的标注工具中融入了AI算法,让机器与标注人员能够写作完成数据标注,大幅提升数据生产效率。

例如整数智能服务的大量车企和自动驾驶算法公司,自动驾驶感知技术是自动驾驶的核心技术之一,训练自动驾驶感知模型需要使用大量数据。有关机构曾估计,L4级别的自动驾驶需要数亿公里以上的数据,如此天量的数据,在传统生产方式下需要耗费巨量的成本和时间,而自动驾驶场景,存在着大量的corner case,如果得不到解决,将会直接影响到自动驾驶的安全性,所以这时就需要一套体系去筛选corner case,帮助模型更好地迭代。

提及数据标注工具,大家可能会想到labelme或者labellmg这样的开源软件,开源的标注软件足够满足数据标注1.0时代的数据处理需求(1万量级的工作量)。随着神经网络的加深,AI模型需要更多的数据(10万量级的工作量)来提升模型训练效果,数据标注也就进入了2.0时代,原本的单机标注工具不再能满足这个时代的数据处理需求,因此数据标注平台应运而生。

通过流程化的平台操作实现了数据生产环节的协同协作,而对多供应链接入的支持也使得数据产能可以实现弹性扩容。随着Al在垂直行业的深入落地,诸如智能驾驶领域,数据处理量级则更为庞大,往往在10万甚至100万量级以上,数据标注3.0时代也逐渐拉开帷幕,这一时代的数据是海量的,同时数据准确度的要求也更高,仅仅依赖人工进行标注、审核,很难再满足这一时代的需求,因此基于AI辅助系统的人机协同数据生产平台则成为了这个时代的刚需。

昇腾AI开发者主题分享活动圆满落幕,整数智能与昇腾AI共助AI数据产业飞腾发展_算法_04

整数智能3D点云标注界面

AIPower模块:助力算法模型迭代

为了更好地提升数据标注服务,整数智能搭建了一个AI辅助系统的人机协同数据生产平台,利用AIPower模块,提供包括AI预标注、AI审核在内的 Al辅助功能。

AI预标注:是指在标注开始前,由算法系统完成对一整批数据的算法推理过程,得到一整批数据的预标注结果:AI协同标注:在标注进行中,标注人员完成少量标注,然后由算法完成对这一条数据的其余标注工作;AI审核:在标注完成后,由算法完成对一整批数据的算法推理过程,并将实际标注结果与算法审核结果进行比对,并反馈出存在较大可能性有错误的数据,供审核人员重点审核。

AlPower模块,还可以支持用新得到的数据集成品完成算法模型迭代,从而在下一批数据生产过程中,提供更精确的AI预标注、AI协同标注以及AI审核能力,我们平台为了易用性做了很多的取舍,因为我们的受众不只是专业的算法工程师,也包括项目经理及相关从业人员,所以怎么解决易用性问题?用算力趟过去!我们只需要调整很少的超参,因为我们使用了NAS+AutoML,为什么我们能用这么奢侈的方案?因为昇腾的算力确实能为我们节约更多成本,物有所值,所以希望未来能产生更深度的合作,互利共赢。

本次杭州站昇腾AI开发者创享活动的成功举办,通过打造一系列围绕昇腾AI基础软硬件平台的开发者生态活动,稳步推进产教融合育人向前发展,有效助力杭州打造人工智能产业链标杆。而整数智能作为人工智能产业技术联盟的一员,将会在技术深耕道路上继续砥砺前行,为AI数据贡献自己的独特力量。

整数智能好奇心专栏

除了便利的数据标注平台,整数智能还自研AI辅助工具以提高数据生产效率,包括光流跟踪算法、OCR预标注系统、ASR辅助音频采集等,能节省大量的人力标注时间与复核成本。

另外,整数智能标注平台可以通过多终端无缝连接,全场景满足用户需求,可对质量进行灵活抽查、动态分阶段验收,帮助AI企业随时把控数据标注质量及进度,保证信息的同步性,让数据真正可靠可控。不仅如此,为提高数据集的交付质量,整数智能对数据生产全过程实现了全方位的质量把控。在人员管理方面,涉及到数据生命周期的各级人员都参与到质量管理中,确保经手数据的每一方都能严控质量。

正因为持续的技术能力和行业积淀,让整数智能成为了人工智能产业联盟的产业数据组专家,共同参与制定AI行业的数据标准和白皮书工作,得到中国电子技术标准化研究院和信通院的邀请参编SC42《可信赖人工智能标准化白皮书》与《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准体系。参与制定包括过程管理、模型管理、安全与风险管理、组织结构、系统与工具等5个能力标准,致力于帮助企业提高AI研发运营管理能力,提升AI模型治理能力,为AI大规模应用提供有效路径。参与制定的TC260《AI数据采集及标注安全规范》,聚焦AI数据采集及标注过程及过程中可能出现的安全隐患,提炼、梳理相关安全技术。