遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。
2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升
2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为
2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation gene
2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升模型在行动、变化和规划方面的推理能力提供了全新视角,也为未来规划领域模型的发展指明了方向。
2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草,还能为农业机器学习工作流程提供直接的访问和集成,极大地推动了农业领域的技术进步。
2025-03-21,由美国中央佛罗里达大学的研究团队提出了一种名为 GAEA 的地理感知对话模型,并为此创建了 GAEA-1.6M 数据集。其意义
2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation generation method)。该方法仅依赖文本输入,就能同时生成逼真的水下图像和多种高度一致的密集注释(如深度图和语义分割掩码)。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题,为水下密集预测任务(如深度估计和语义分割)提供了强大的数据支持,有望推动水下视觉技术的发展,并为其他领域数据稀缺问题提供新思路。
2025-03-03,由上海科技大学的研究团队创建了DexGrasp Anything(DGA)的数据集,这是目前规模最大的灵巧抓取数据集,包含超过340万种不同抓取姿势,涵盖15000多个不同物体。该数据集的创建为机器人灵巧抓取领域带来了重大意义,显著提升了现有方法的泛化能力和抓取成功率,推动了通用机器人灵巧抓取技术的发展。
2025中国AI Agent 行业研究报告
2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET
2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了
2025-03-26,由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视
2025-03-26,由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视角零件级动态观测数据,目的解决现有方法在建模零件级动态时的局限性,如 2D 视频表示的限制和处理速度慢等问题。PartDrag-4D 的创建为零件级动态建模提供了丰富的数据支持,推动了机器人操作、AR/VR 等领域的研究进展。
2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。
2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET-CT肺癌肿瘤分割数据集。该数据集包含21930对来自605名患者的PET-CT图像,是目前首个公开的大规模PET-CT肺癌肿瘤分割数据集,为相关领域的研究提供了丰富的数据资源,有助于推动PET-CT肺癌肿瘤分割技术的发展。
2025-02-12,由清华大学和南洋理工大学的研究团队开发 一种名为 EmbodiedSAM(ESAM)的在线3D实例分割框架。该框架利用2D视觉基
2025-03-14,由 CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北航等机构联合创建的 Generation Chain-of-Though
2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准
2025-03-11 ,由北京大学、中国科学院大学和新加坡国立大学联合提出了一种新的4D重建基准数据集WideRange4D。
2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数策的泛化能力和鲁棒性。
2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-M
2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
介绍了由美国中央佛罗里达大学创建的 GAEA-1.6M 数据集,该数据集是首个大规模地理定位对话数据集,包含 80 万张图片和约 160 万问答对。它为训练具有地理定位和对话能力的模型提供了丰富的资源,推动了地理定位领域的发展。
2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的是解决现有合成图像检测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换,为大规模LLM强化学习提供了高质量的数学问题和答案,助力模型在复杂推理任务上取得显著提升,推动了LLM在数学领域的应用和发展。
2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准,目的评估专家图像理解、假设生成和实验设计这三种对科学研究至关重要的推理能力,填补了现有基准在复杂多模态科学推理方面的空白,为推动 AI 驱动的生物医学研究提供了宝贵资源。
2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略,促进跨模态学习并提高机器人政策的泛化能力和鲁棒性。
2025-03-10,由上海交通大学和小红书公司联合创建了VLRMBench数据集。是一个专门用于评估视觉-语言奖励模型的综合性基准测试,包
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号