2024-09-19, 由Google 和 Harvard University 联合发布的FRAMES,一个综合评估数据集,目的评估 LLMs 在统一框架中跨多个文档检索和推理的能力。
2024-08-15,由斯坦福大学发布的Continuous Perception Benchmark(CPB),一个推动视频模型模仿人类连续感知能力的新基准。
2024-09-06,由伦敦南岸大学和帕多瓦大学联合发布的CISCA,是一个基于深度学习进行细胞实例分割和分类的新型方法。这项研究不仅提出了一个创新的网络架构,还引入了一个新的公开数据集CytoDArk0,为组织病理学图像分析提供了新的视角。
2024-09-24,由麻省理工学院、微软、丰田研究院、NVIDIA联合发布的 Faces in Things,为我们打开了研究人类视觉错觉——尤其是面部错觉(Pareidolia)的新篇章。专注于人类视觉系统如何在各种随机刺激中检测到类似面孔的结构,例如在咖啡污渍或天空中的云朵中看到面孔。
医学影像数据集对于推动医学影像分析技术的发展、提高医疗服务质量、加速疾病诊断和治疗研究具有重要作用。
医学问答类数据集在机器学习中扮演着重要的角色,它们主要用于开发和训练智能问答系统,以便这些系统能够理解和回答与医学相关的查询。
多模态思维链数据集是一种专门设计用于训练和评估人工智能模型在处理包含多种信息模态(如文本、图像、声音等)的复杂问题时的推理能力的数据集。 这些数据集通常包含了丰富的多模态信息,以及对应的问题和答案,有时还包括了问题的解决过程或解释,以帮助模型学习如何结合不同模态的信息来解决问题。
2024-09-24 ,由上海交通大学创建:MM-CamObj 数据集。用来增强现有大型视觉语言模型( LVLM )在伪装对象场景中的能力。数据集包括两个子集: CamObj-Align 和 CamObj-Instruct,分别用于 LVLM 训练的对齐和指令调整阶段。
2024-09-25,由Bosch Research North America和Michigan State University联合发布的SUP-NeRF,是一个基于单目图像进行3D对象重建的新型方法。一个无缝集成姿态估计和物体重建的统一网格。
2024-09-26,由腾讯YouTu Lab和北京大学联合发布的CJEval,是一个基于中国初中生考试数据的评估基准,用于测试和分析大型语言模型(LLMs)在教育任务中的表现,从而提高在线教育平台的智能化水平。
2024-07-10,由清华大学和西安交通大学等机构联合创建的DreamBench++,这个任务目的是通过使用先进的多模态GPT模型来自动化评估,实现与人类评估一致的结果,从而提高个性化图像生成的可靠性和准确性。
2024-07-10,由中国科学院自动化研究所、清华大学自动化系所联合创建EMER,这个任务目的通过提供预测情感的详细解释来提高情感识别的可靠性和准确性。
2023-10-26,由香港科技大学(广州)和SmartMore联合创建Defect Spectrum,目的是针对工业缺陷检测提供精确、语义丰富的大规模注释。
2024-09-18 由欧洲空间局主导,由空客防务与空间公司参与创建Vision Based Navigation , 为空间任务中的基于视觉导航(VBN)机器学习应用生成训练数据集。
评估基准是推动人工智能领域技术进步和应用落地的关键工具,通过这些基准,我们可以更全面地理解LLMs的能力,并指导未来的研究和实践。
大模型中的偏好数据集,就好比是给一个超级学霸特别定制的教材,这些教材里的内容都是这个学霸特别感兴趣或者特别擅长的。这样一来,学霸就能在这些领域里学得更快、更深入,而不是在所有科目上平均用力。简单来说,就是让大模型在它擅长或者感兴趣的领域里更加出色。
指令调优数据集就像是模型的“速成班”,给它明确的指导,让它在各种任务中都能快速上手,成为我们生活中的得力助手。
大模型中的预训练数据集就像是给模型喂的“食物”,这些“食物”的质量和种类直接影响到模型的“成长”和“智慧”。
2024-09-16 ,由Enuma, Inc. 和韩国大学创建ES-KT-24,多模态知识追踪(KT)数据集。包括教育游戏视频、合成生成的问题文本和详细的游戏日志。涵盖数学、英语、印度尼西亚语和马来西亚语科目。用于智能辅导系统中,特别是在教育游戏环境中。
2024-09-12, 由剑桥大学发布CLC-UKET,该数据集包含大约19,000个就业法律案件(UKET)案件及其元数据。包括案件事实、主张、法律引用、先例引用、案件结果、原因和管辖代码等全面的法律注释。
2024-09-10,由浙江大学创建数据集,称为CKnowEdit。一个中文知识编辑数据集,包含多个来源:经典文本、成语以及来自贴吧的内容。
2024-07-28 ,由香港中文大学、上海市人工智能实验室共同创建HumanVid, 是一项创新的大规模高质量数据集,专为人体图像动画而设计,它通过结合精心挑选的现实世界视频和合成数据,为视频和电影制作领域带来了突破性的工具。
2024-09-04, 由挪威 SimulaMet 研究中心 更新提交Kvasir-VQA,该数据集扩展了现有的HyperKvasir和Kvasir-Instrument数据集,并增强了问答注释。目的是促进胃肠道 (GI) 诊断中的高级机器学习任务。
2024-09-03 ,由纽约大学的 心理学系和数据科学中心创建H-ARC数据集,是一个包含所有提交和动作追踪的数据集,以分析和理解人类如何解决抽象推理问题。有助于揭示人类认知的复杂性,并为开发更智能、更接近人类思维方式的人工智能系统提供了重要的数据和见解。
2024-09-04,由MMMU 团队创建用于评估大规模多学科多模态模型的理解和推理能力的基准。
2024-08-22,由剑桥大学和香港大学联合创建GRAB,目标是通过包括广泛的图表类型和问题格式来全面评估前沿模型分析图形的能力。重点关注重要的分析任务,例如从图中提取关键属性和解释复杂的数据表示。
2024-09-05 ,由华东师范大学发布 CMM-Math ,是一个用于数学推理的多模态数据集,其中每个问题可能包含多个图像,专为 LMM 设计。目标是提升大型多模态模型的数学推理能力,展示了专门的数学语言模型在处理具有视觉背景的复杂数学问题方面的有效性。
2024-04-11 ,由浙江大学;蚂蚁集团;浙江大学-蚂蚁集团知识图谱联合实验室联合发布IEPile,一个全面的双语(英语和中文)IE指令语料库,包含约3.2亿个标记。
2024-08-28,由普林斯顿大学和 Meta 发布创建创建Instruct-SkillMix。这是一种自动化的方法,用于创建多样化、高质量的SFT数据。
2024-03-26 , 由中国科学院深圳先进技术研究院、北京大学、中国科学技术大学等联合发布数据集COIG-CQIA,这是一个高质量的中文指令微调数据集,包括问答和文章,以提供与人类互动一致的指令微调数据。
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号