遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐:GitHub、Hugging Face、arXiv这些热门站点,都属于日级别的更新。

这个站点是从搜索引擎方面去监控最新的数据集,大家如果有关注某个一个特点领域或话题的更新,可以关注这个站点:

https://www.selectdataset.com/


Top100数据集

数据集:MUN-FRL|无人机导航数据集|地图构建数据集

  • 创建时间:2023-10-12
  • 数据集介绍:MUN-FRL数据集是由纪念大学纽芬兰分校和国家研究委员会加拿大飞行研究实验室合作创建的,旨在支持无人机和全尺寸直升机在无全球导航卫星系统(GNSS)环境下的自主导航和地图构建研究。该数据集包含从300米到5公里的飞行距离,使用DJI M600六旋翼无人机和NRC Bell 412 ASRA飞机收集。数据集内容包括硬件同步的单目图像、IMU测量、3D LiDAR点云和高精度实时动态(RTK)-GNSS基准真相。数据集适用于开发视觉惯性LiDAR里程计和地图构建算法,视觉惯性导航算法,目标检测,分割和着陆区检测算法。
  • 链接地址:MUN-FRL|无人机导航数据集|地图构建数据集


数据集:学生课堂行为数据集 (SCB-dataset3)|学生行为分析数据集|教育技术数据集

  • 创建时间:2023-10-04
  • 数据集介绍:学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
  • 链接地址:学生课堂行为数据集 (SCB-dataset3)|学生行为分析数据集|教育技术数据集


数据集:中国交通事故深度调查(CIDAS)数据集|交通安全数据集|汽车安全数据集

  • 更新时间:2024-07-05
  • 数据集介绍:交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程
  • 链接地址:中国交通事故深度调查(CIDAS)数据集|交通安全数据集|汽车安全数据集


数据集:HazyDet|无人机数据集|物体检测数据集

  • 创建时间:2024-09-30
  • 数据集介绍:HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
  • 链接地址:HazyDet|无人机数据集|物体检测数据集


数据集:中国高分辨率高质量PM2.5数据集(2000-2023)|空气质量监测数据集|数据分析数据集

  • 创建时间:2023-02-13
  • 数据集介绍:ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。
  • 链接地址:中国高分辨率高质量PM2.5数据集(2000-2023)|空气质量监测数据集|数据分析数据集


数据集:HyperGlobal-450K - 全球最大规模高光谱图像数据集|高光谱图像数据集|遥感技术数据集

  • 创建时间:2024-06-17
  • 数据集介绍:HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
  • 链接地址:HyperGlobal-450K - 全球最大规模高光谱图像数据集|高光谱图像数据集|遥感技术数据集


数据集:UAV-VisLoc - 用于无人机视觉定位的大规模数据集|无人机数据集|视觉定位数据集

  • 创建时间:2024-05-16
  • 数据集介绍:UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建,旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像,捕获了多样化的地形特征,包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据,为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务,为无人机视觉定位任务提供了训练和测试样本,通过匹配无人机拍摄的地面向下视角图像与正射卫星地图,实现无人机的自主视觉定位。
  • 链接地址:UAV-VisLoc - 用于无人机视觉定位的大规模数据集|无人机数据集|视觉定位数据集


数据集:全球航空导航数据集|航空导航数据集|飞行管理数据集

  • 创建时间:2024-08-15
  • 数据集介绍:本数据集是飞行管理系统、电子飞行包、计算机飞行计划系统的必须数据,可广泛用于多种场景,包括航空器自动驾驶和导航、飞行计划制作、电子飞行包航图生成和相关数据叠加展示、飞行模拟器、无人机操作以及航空研究、开发等。数据要素包含:机场、跑道、导航台、航路点、航路、飞行情报区、防空识别区、登机口、盲降、指点标、机场通信等类数据要素。
  • 链接地址:全球航空导航数据集|航空导航数据集|飞行管理数据集


数据集:CE-CSL|手语识别数据集|复杂环境数据集数据集

  • 创建时间:2024-09-18
  • 数据集介绍:CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
  • 链接地址:CE-CSL|手语识别数据集|复杂环境数据集数据集


数据集:CMNEE|军事新闻数据集|事件抽取数据集

  • 创建时间:2024-04-18
  • 数据集介绍:CMNEE是一个基于开源中文军事新闻的大型文档级事件抽取数据集,由国防科技大学大数据与决策实验室创建。该数据集包含17,000个文档和29,223个事件,所有事件均基于预定义的军事领域模式进行手动标注,包括8种事件类型和11种论元角色类型。数据集的创建过程采用两阶段多轮标注策略,确保数据质量,并应用于情报分析和决策辅助等领域,旨在解决军事领域事件抽取的数据稀缺问题。
  • 链接地址:CMNEE|军事新闻数据集|事件抽取数据集


数据集:paris2024-data|奥运会数据集|体育数据分析数据集


数据集:OpenUAV|无人机导航数据集|视觉语言处理数据集

  • 创建时间:2024-10-10
  • 数据集介绍:OpenUAV数据集是由北京航空航天大学人工智能研究所创建的,专门用于无人机视觉语言导航任务。该数据集包含约12,000条轨迹,涵盖了6自由度的飞行动态,准确捕捉了无人机的复杂飞行行为。数据集的创建过程包括在OpenUAV平台上进行连续飞行,并使用GPT-4生成目标描述,随后进行人工质量检查。该数据集主要应用于无人机在复杂环境中的导航任务,旨在提高无人机在现实世界中的导航精度和效率。
  • 链接地址:OpenUAV|无人机导航数据集|视觉语言处理数据集


数据集:YOLO Drone Detection Dataset|无人机检测数据集|YOLO数据集

  • 创建时间:2024-02-13
  • 数据集介绍:为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
  • 链接地址:YOLO Drone Detection Dataset|无人机检测数据集|YOLO数据集


数据集:RoboSense|自动驾驶数据集|障碍物检测数据集

  • 创建时间:2024-08-28
  • 数据集介绍:RoboSense数据集由上海交通大学和SenseAuto研究共同创建,专注于低速自动驾驶车辆的近场场景理解。该数据集包含超过133,000帧同步数据,覆盖7,600多个时间序列,标注了140万个3D边界框和轨迹ID。数据集通过多种传感器(摄像头、激光雷达和鱼眼镜头)收集,确保了全方位的视角覆盖。创建过程中,数据集在多种场景下进行了采集和标注,特别关注了近距离障碍物的检测和跟踪。RoboSense数据集的应用领域主要集中在自动驾驶技术的研究,特别是在低速环境下的障碍物感知和预测任务。
  • 链接地址:RoboSense|自动驾驶数据集|障碍物检测数据集


数据集:WEATHER-5K|气象数据数据集|时间序列预测数据集

  • 创建时间:2024-06-20
  • 数据集介绍:WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
  • 链接地址:WEATHER-5K|气象数据数据集|时间序列预测数据集



数据集:UNSW-NB15|网络安全数据集|入侵检测数据集

  • 创建时间:2024-05-17
  • 数据集介绍:UNSW-NB15是一个网络入侵数据集,包含九种不同的袭击,如DoS、蠕虫和模糊测试器。数据集包含原始网络数据包,训练集有175,341条记录,测试集有82,332条记录,涵盖不同类型的袭击和正常数据
  • 链接地址:UNSW-NB15|网络安全数据集|入侵检测数据集


数据集:WideIRSTD Dataset|红外目标检测数据集|军事应用数据集

  • 创建时间:2024-08-14
  • 数据集介绍:WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
  • 链接地址:WideIRSTD Dataset|红外目标检测数据集|军事应用数据集


数据集:Sleep|睡眠研究数据集|健康监测数据集

  • 创建时间:2024-03-25
  • 数据集介绍:该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。
  • 链接地址:Sleep|睡眠研究数据集|健康监测数据集


数据集:Breast Cancer Dataset|乳腺癌数据集|数据科学数据集

  • 创建时间:2024-09-18
  • 数据集介绍:该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
  • 链接地址:Breast Cancer Dataset|乳腺癌数据集|数据科学数据集


数据集:糖尿病专病数据集|糖尿病数据集|数据分析数据集

  • 创建时间:2024-08-15
  • 数据集介绍:电子病历文本细项解析方法:首先对于病历文本数据,进行分层解析,将获取到的文本数据按事件流的方式进行拆解,根据需要解析的各项信息,有针对性的选取包含该信息的内容类别事件流,进一步行各项指标的细项结构化解析。 多维诊疗数据构建患者主索引:将患者数据特征向量定义为患者性别、住址、家族遗传病、过敏原等信息,使用DBSCAN算法,基于特征向量的密度,将密度相近的数据点划为同一个簇,将患者数据点进行聚类,每个聚类可以视为一个患者群体,作为主索引的标识。
  • 链接地址:糖尿病专病数据集|糖尿病数据集|数据分析数据集


数据集:HUSTbearing dataset|轴承健康监测数据集|故障诊断数据集



数据集:DeepFaceGen|人脸伪造检测数据集|评估基准数据集

  • 创建时间:2024-06-13
  • 数据集介绍:DeepFaceGen是由浙江大学开发的一个大规模人脸伪造检测评估基准。该数据集包含463,583张真实人脸图像和313,407个真实视频,以及350,264张伪造图像和423,548个伪造视频,这些伪造样本使用了34种主流的人脸生成技术。在构建过程中,DeepFaceGen考虑了内容多样性、种族公平性和全面的标签可用性,确保了其多功能性和便利性。该数据集主要用于评估和分析现有面部伪造检测技术,旨在推动面部伪造检测技术的发展,解决由AI生成内容技术引发的真实性验证难题。
  • 链接地址:DeepFaceGen|人脸伪造检测数据集|评估基准数据集


数据集:GME Data

  • 创建时间:2021-03-16
  • 数据集介绍:关于2021年GameStop活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
  • 链接地址:GME Data


数据集:mmDoppler|毫米波雷达数据集|人体活动识别数据集

  • 创建时间:2024-07-31
  • 数据集介绍:mmDoppler数据集由印度理工学院卡拉格普尔分校创建,专注于通过商用毫米波雷达捕捉多强度连续人体活动。数据集包含75000条记录,涵盖19种日常活动,包括宏活动和微活动。数据集通过调整雷达的多普勒分辨率,精确捕捉从大动作到细微动作的各种活动。该数据集旨在通过提供详细的范围-多普勒热图,增强毫米波雷达在人体活动识别中的鲁棒性和准确性,适用于健康监测、老年护理和安全等多个领域。
  • 链接地址:mmDoppler|毫米波雷达数据集|人体活动识别数据集


数据集:Plant-Diseases

  • 创建时间:2024-07-10
  • 数据集介绍:植物病害数据集 containg variours 植物病害
  • 链接地址:Plant-Diseases


数据集:HIT-UAV|无人机数据集|红外热成像数据集

  • 创建时间:2024-09-24
  • 数据集介绍:HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
  • 链接地址:HIT-UAV|无人机数据集|红外热成像数据集


数据集:METR-LA dataset|交通流量监测数据集|深度学习数据集

  • 创建时间:2024-08-27
  • 数据集介绍:METR-LA数据集记录了洛杉矶207个地点每五分钟的交通流量,持续三个月。该数据集用于创建动态3D交通流量可视化,并通过高级深度学习模型提高交通预测的准确性。
  • 链接地址:METR-LA dataset|交通流量监测数据集|深度学习数据集


数据集:brain-tumour-MRI-scan|医学影像数据集|肿瘤识别数据集

  • 创建时间:2024-07-21
  • 数据集介绍:该数据集包含7023张人类脑部MRI图像,分为4个类别:胶质瘤、脑膜瘤、无肿瘤和垂体瘤。数据集由三个来源组合而成:Figshare、SARTAJ数据集和Br35H。训练集和测试集分别包含不同类别的图像文件。
  • 链接地址:brain-tumour-MRI-scan|医学影像数据集|肿瘤识别数据集


数据集:NIDDK Diabetes Dataset|糖尿病预测数据集|医学数据分析数据集


数据集:PDT Dataset|无人机技术数据集|农业应用数据集

  • 创建时间:2024-09-24
  • 数据集介绍:PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
  • 链接地址:PDT Dataset|无人机技术数据集|农业应用数据集



数据集:OmniCorpus - 最大开源图文交错数据集|多模态数据集数据集

  • 创建时间:2024-06-12
  • 数据集介绍:OmniCorpus由上海人工智能实验室联合多所知名高校及研究机构共同构建,是迄今为止最大的多模态数据集。该数据集包含了86亿张图像和1696亿个文本Token,支持中英双语。与现有的数据集相比,其在以下方面具有显著优势:1)更大的数据规模:与之前最大的多模态数据集LAION-5B相比,OmniCorpus的数据集在图像方面大了1.7倍,在文本方面大了12.5倍,同时保持了出色的数据质量。2)更丰富的数据多样性:从更广泛的数据源中提取数据,OmniCorpus数据集比其他图像-文本交错数据集更具多样性。它包括中英文双语多模态数据,并包括从常见网站和视频平台提取的以文本为中心和以视觉为中心的文档。3)更灵活的格式:OmniCorpus的流式数据格式提供了非凡的灵活性,允许适应各种数据结构,包括纯文本语料库、图像-文本对和交错数据格式。数据集制作pipeline由五个关键阶段组成:主体提取、初步文本过滤、文档重复数据消除、图像下载和过滤以及详细文本过滤。每个阶段都有效地减少数据集,只保留高质量的数据。OmniCorpus的多语言特性和高质量数据为多模态机器学习模型提供了丰富的训练资源,推动了人工智能领域的研究进展。
  • 链接地址:OmniCorpus - 最大开源图文交错数据集|多模态数据集数据集|人工智能研究数据集


数据集:NIH Chest X-ray dataset|医学影像数据集|胸部疾病数据集


数据集:开放新闻库(OpenNewsArchive)|新闻文本数据集


数据集:2022-Ukraine-Russia-War-Dataset|军事冲突数据集


数据集:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集

  • 创建时间:2024-10-02
  • 数据集介绍:该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
  • 链接地址:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集


数据集:URPC系列数据集, S-URPC2019, UDD|水下目标检测数据集


数据集:UWStereo|水下图像处理数据集|水下立体匹配数据集

  • 创建时间:2024-09-03
  • 数据集介绍:UWStereo是由中国海洋大学创建的一个大型合成水下立体匹配数据集,旨在促进水下立体匹配网络的研究。该数据集包含29,568对立体图像,具有密集且准确的视差注释,涵盖了珊瑚、沉船、工业和机器人等多种水下场景。通过使用Unreal Engine 5模拟复杂的水下环境,数据集在相机模型、光照和环境效果方面引入了额外变化。UWStereo在规模、多样性、注释和图像质量方面优于现有水下数据集,适用于水下立体匹配和深度估计任务,旨在解决水下图像质量下降和深度信息获取困难的问题。
  • 链接地址:UWStereo|水下图像处理数据集|水下立体匹配数据集


数据集:GVJahnavi/Crops_set|农作物病害识别数据集

  • 创建时间:2024-04-12
  • 数据集介绍:该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。
  • 链接地址:GVJahnavi/Crops_set|农作物病害识别数据集


数据集:chinese-fineweb-edu|教育数据集|自然语言处理数据集

  • 创建时间:2024-08-26
  • 数据集介绍:Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
  • 链接地址:chinese-fineweb-edu|教育数据集|自然语言处理数据集


数据集:China Groundgroundwater Monitoring Network|地下水监测数据集

  • 收录时间:2024-10-31
  • 数据集介绍:该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
  • 链接地址:China Groundgroundwater Monitoring Network|地下水监测数据集|水资源管理数据集



数据集:VideoBadminton|羽毛球运动数据集|动作识别数据集

  • 创建时间:2024-02-10
  • 数据集介绍:VideoBadminton是由奥本大学与国立中央大学联合创建的一个专注于羽毛球运动的高质量视频数据集。该数据集包含来自国立中央大学校队的19名男女运动员的羽毛球视频数据,涵盖了18种羽毛球动作,共7822个视频片段,总时长为145分钟。其构建严格遵循羽毛球世界联合会(BWF)的规范,确保了动作类别的全面性与专业性。此外,数据集还对球拍轨迹和球员位置进行了详尽标注。该数据集提供了丰富的动作类别和更细致的动作划分,旨在推动动作识别算法的发展,尤其是在理解和区分细微动作差异方面。
  • 链接地址:


数据集:BC-MRI-SEG|乳腺癌数据集|医学影像数据集

  • 创建时间:2024-04-22
  • 数据集介绍:BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。
  • 链接地址:BC-MRI-SEG|乳腺癌数据集|医学影像数据集



数据集:MedDialog|医疗对话数据集|患者交流数据集

  • 创建时间:2023-08-16
  • 数据集介绍:MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
  • 链接地址:MedDialog|医疗对话数据集|患者交流数据集



数据集:开源PHM数据集|预测与健康管理数据集|工业数据分析数据集

  • 创建时间:2024-06-11
  • 数据集介绍:本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
  • 链接地址:开源PHM数据集|预测与健康管理数据集|工业数据分析数据集


数据集:抖音用户行为数据集|社交媒体分析数据集|用户行为数据集

  • 创建时间:2024-05-21
  • 数据集介绍:(自用)本数据集搜集并收录了122539条2022年7月24日至31日的一周时间内,1000名抖音用户观看短视频的行为记录数据,每条数据都包含6个词条,包括用户ID、视频ID、视频主题、是否喜欢、是否转发、时间戳等数据。
  • 链接地址:抖音用户行为数据集|社交媒体分析数据集|用户行为数据集


数据集:COIG-CQIA|自然语言处理数据集|指令微调数据集

  • 创建时间:2023-12-04
  • 数据集介绍:COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,由零一万物、中科院深圳先进技术研究院和M-A-P等机构构建。该数据集包含48,375个实例,源自22个不同的数据源,覆盖了从通用知识到STEM领域,再到人文学科的广泛领域。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。该数据集受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。
  • 链接地址:COIG-CQIA|自然语言处理数据集|指令微调数据集


数据集:NuminaMath-CoT|数学教育数据集|思维链技术数据集

  • 创建时间:2024-07-16
  • 数据集介绍:数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
  • 链接地址:NuminaMath-CoT|数学教育数据集|思维链技术数据集


数据集:CMIP6|气候变化数据集|气候模拟数据集

  • 收录时间:2024-10-24
  • 数据集介绍:CMIP6(第六次耦合模式比较计划)是一个全球气候变化模拟项目,旨在提供未来气候变化预测的科学基础。该数据集包含来自全球多个气候模型的模拟结果,涵盖了大气、海洋、陆地和冰冻圈等多个地球系统组成部分。数据内容包括温度、降水、海平面、碳循环等气候变量的历史记录和未来预测。
  • 链接地址:CMIP6|气候变化数据集|气候模拟数据集


数据集:FGVC-Aircraft|飞机识别数据集|细粒度分类数据集

  • 创建时间:2024-07-02
  • 数据集介绍:FGVC-Aircraft数据集是一个用于飞机细粒度视觉分类的基准数据集,包含10,200张图片,每种飞机型号有100张图片,共102种不同的飞机型号。图片中的飞机被标注有紧密的边界框和层次化的飞机型号标签。飞机型号按照四个层次组织:型号、变种、系列和制造商。数据集分为三个等分的训练、验证和测试子集。数据集由多个研究者和摄影师共同创建,图片仅用于非商业研究目的。
  • 链接地址:FGVC-Aircraft|飞机识别数据集|细粒度分类数据集


数据集:农业病虫害|农业病害识别数据集|图像识别数据集

  • 更新时间:2023-07-12
  • 数据集介绍:基于AI Challenger农作物叶子图像数据集包含10种植物(苹果、樱桃、葡萄、柑桔、桃、草莓、番茄、辣椒、玉米、马铃薯)的27种病害(其中24个病害有分一般和严重两种程度),合计61个分类(按“物种-病害-程度”分)的特性,训练图像总数为31718张,测试图像总数为4540张。每张图包含一片农作物的叶子,叶子占据图片主要位置。
  • 链接地址:农业病虫害|农业病害识别数据集|图像识别数据集


数据集:Chumor 1.0 -中文幽默理解数据集|语言模型挑战数据集

  • 创建时间:2024-06-18
  • 数据集介绍:Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建,是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”(RZB)收集而来,包含2018至2021年间的年度最佳帖子和版主推荐内容。Chumor的特点是,它不仅包含了笑话本身,还为每个笑话提供了手动注释的解释,这有助于深入理解笑话背后的文化和智力因素。Chumor 1.0拥有1951个笑话的注释,平均每则笑话的解释长度为78个中文字符,总字符数达到151,730,堪比一部中篇小说的规模。Chumor数据集对现有的最先进大型语言模型(LLMs)提出了挑战,实验评估表明,即使是最先进的LLMs在解释Chumor中的笑话时也存在困难,而人类提供的解释在质量上明显优于机器生成的解释。该数据集的发布,为研究者提供了一个挑战性的中文幽默理解资源,有助于推动多语言LLMs的发展和文化理解能力的增强。
  • 链接地址:Chumor 1.0 - 中文幽默理解数据集|语言模型挑战数据集


数据集:ChineseConversationsDataset|中文对话数据集|数据集数据集


数据集:UAVD4L|无人机定位数据集|无GPS导航数据集

  • 创建时间:2024-01-11
  • 数据集介绍:UAVD4L是由国防科技大学创建的大规模数据集,专为无人机在无GPS环境下的6自由度定位设计。该数据集覆盖约250万平方米的区域,包含多种城市和乡村场景,如建筑物、街道、植被和湖泊。数据集通过高分辨率航拍图像重建纹理3D参考模型,生成合成数据如渲染的RGB和深度图像,以及数字表面模型。数据集的创建过程包括使用DJI M300 RTK无人机和PSDK 102s相机进行图像采集,并通过现代3D重建技术生成模型。UAVD4L旨在解决无人机在无GPS环境下的精确定位问题,适用于救援、监视等多种应用场景。
  • 链接地址:UAVD4L|无人机定位数据集|无GPS导航数据集


数据集:VisDrone2019

  • 创建时间:2020-05-07
  • 数据集介绍:VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
  • 链接地址:VisDrone2019|无人机视觉数据集|目标检测数据集


数据集:CliMedBench

  • 创建时间:2024-10-04
  • 数据集介绍:CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
  • 链接地址:CliMedBench|医疗数据集|语言模型评估数据集


数据集:FineFake

  • 创建时间:2024-04-28
  • 数据集介绍:FineFake是一个包含16,909个数据样本的多领域知识增强基准,涵盖六个语义主题和八个平台。每个新闻项目都丰富了多模态内容、潜在的社会背景、半手动验证的常识和细粒度注释,超越了传统的二元标签。
  • 链接地址:FineFake|假新闻检测数据集|多模态分析数据集


数据集:MC-EIU

  • 创建时间:2024-07-04
  • 数据集介绍:MC-EIU数据集由内蒙古大学等机构创建,是一个全面的多模态对话情感和意图联合理解数据集。该数据集包含4,970个对话视频片段,总计56,012条数据,涵盖7种情感和9种意图,支持文本、声学和视觉三种模态,以及英语和普通话两种语言。数据集的创建过程包括数据收集、预处理和多轮标注,确保数据质量和多样性。MC-EIU数据集主要应用于人机交互领域,旨在通过理解和分析对话中的情感和意图,提升机器对人类需求的理解能力和对话系统的同理心。
  • 链接地址:MC-EIU|人机交互数据集|情感与意图分析数据集


数据集:S3DIS

  • 创建时间:2024-04-16
  • 数据集介绍:斯坦福大规模室内场景数据集,包含使用激光雷达扫描器捕获的大量真实世界室内场景。这些扫描提供了丰富的3D点云数据,允许研究人员开发和测试与室内空间相关的各种任务的算法,如语义分割、目标检测与识别、3D场景完成和重建。
  • 链接地址:S3DIS|室内场景分析数据集|3D点云数据数据集


数据集:Video-MME - 视频分析多模态大模型评估基准数据集

  • 创建时间:2024-06-07
  • 数据集介绍:Video-MME是北京大学、香港大学等6所高校联手,发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频,总时长达256小时,研究人员通过反复观看视频内容,手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别,视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准,也为研究外部信息对视频理解性能的影响提供了宝贵的资源。
  • 链接地址:Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集



数据集:DroneVehicle 大规模无人机航拍车辆检测数据集


数据集:MAMA-MIA

  • 创建时间:2024-06-20
  • 数据集介绍:MAMA-MIA数据集是由巴塞罗那人工智能医学实验室(BCN-AIM)创建的大型多中心乳腺癌DCE-MRI基准数据集,包含1506个案例,每个案例都有专家对主要肿瘤和非肿块增强区域的分割。数据集内容丰富,包括49个协调的临床和人口统计变量,以及使用知名nnUNet架构训练的预训练权重。创建过程中,首先使用深度学习模型自动分割案例,然后由16名平均有9年经验的专家进行修正,确保分割质量。该数据集主要用于加速深度学习模型的发展和基准测试,推动乳腺癌诊断和治疗规划的创新。
  • 链接地址:MAMA-MIA|乳腺癌数据集|深度学习数据集


数据集:UAVDT

  • 创建时间:2018-03-26
  • 数据集介绍:UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
  • 链接地址:UAVDT|无人机视觉数据集|目标识别数据集


数据集:Breast Cancer Diagnostic dataset

  • 创建时间:2024-07-19
  • 数据集介绍:该数据集来自UCI机器学习库,包含从乳腺肿块的细针抽吸(FNA)数字化图像计算的特征。这些特征描述了图像中细胞核的特性,包括半径、纹理、周长、面积等。数据集用于诊断乳腺癌,包含357个良性病例和212个恶性病例。
  • 链接地址:Breast Cancer Diagnostic dataset|乳腺癌诊断数据集|机器学习数据集


数据集:Global Flood Database (GFD)

  • 收录时间:2024-10-25
  • 数据集介绍:全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。
  • 链接地址:Global Flood Database (GFD)|洪水事件数据集|灾害管理数据集


数据集:开源对话数据集汇总(中文)


数据集:Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)


数据集:ST-EVCDP

  • 创建时间:2024-05-12
  • 数据集介绍:这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。
  • 链接地址:ST-EVCDP|电动汽车充电数据集|需求预测数据集


数据集:航班空域动态轨迹工具 ADS-B

  • 创建时间:2023-06-27
  • 数据集介绍:ADS-B系统融合飞常准航班动态数据、核心算法,对航班在空域飞行过程中位置、飞行轨迹及飞行状态进行实时动态监控和立体展示。ADS-B系统服务于空管、机场和航司。实现航班从传统的地面监控转向空地联合监控,在异常情况下的实时预警和特殊代码的实时动态监控效果。
  • 链接地址:航班空域动态轨迹工具 ADS-B|航空监控数据集|实时预警数据集


数据集:ZhongJing-OMNI

  • 创建时间:2024-10-18
  • 数据集介绍:ZhongJing-OMNI是第一个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多样的问题和多模态数据,结合视觉和文本信息,评估模型在复杂中医诊断和治疗场景中的推理能力。通过结合中医文本知识和多模态舌诊数据,该数据集为中医领域的AI研究设定了新的标准。
  • 链接地址:ZhongJing-OMNI|中医数据集|多模态数据数据集


数据集:UAV3D

  • 创建时间:2024-10-17
  • 数据集介绍:UAV3D是由佐治亚州立大学和康涅狄格大学共同创建的一个大规模3D感知基准数据集,专为无人机应用设计。该数据集包含500,000张图像,涵盖1,000个场景,每个场景有20帧,并带有完全注释的3D边界框。数据集的创建过程利用了CARLA和AirSim模拟器,通过同步记录无人机上的摄像头传感器数据来支持协作感知任务。UAV3D主要应用于无人机在3D对象检测和跟踪任务中,旨在解决现有2D感知任务在复杂环境中的局限性,特别是在长距离或遮挡区域中的感知能力。
  • 链接地址:UAV3D|无人机数据集|3D感知数据集


数据集:PetFace

  • 创建时间:2024-07-18
  • 数据集介绍:PetFace数据集由京都大学和日本东京大学联合创建,是一个大规模的动物面部识别数据集,包含257,484个独特的个体,跨越13个动物家族和319个品种类别。数据集包含1,012,934张图像,通过互联网自动和手动过滤过程收集,确保数据集不仅规模大,而且细节丰富且清洁。数据集提供了包括性别、品种、颜色和图案在内的细粒度注释,支持对已知和未知个体的识别。PetFace数据集的应用领域包括动物行为监测、栖息地调查和失踪动物寻找,旨在推动非侵入性动物自动识别方法的发展。
  • 链接地址:PetFace|动物面部识别数据集|动物监测与识别数据集


数据集:VT-MOT

  • 创建时间:2024-08-02
  • 数据集介绍:VT-MOT数据集由安徽大学的智能计算与信号处理教育部重点实验室创建,是一个大规模的可见光与热红外视频基准,专门用于多目标跟踪研究。该数据集包含582对视频序列,总计401k帧对,采集自无人机、监控摄像头和手持设备,具有高度的时空对齐和3.99百万个高质量标注框。数据集的创建过程中,专业人员进行了逐帧的时空对齐和双重检查的标注工作,确保了数据的高质量和密集性。VT-MOT数据集的应用领域主要集中在复杂环境下的多目标跟踪,旨在通过融合可见光与热红外数据的优势,提高跟踪算法的鲁棒性和准确性。
  • 链接地址:VT-MOT|多目标跟踪数据集|视频分析数据集


数据集:WideIRSTD Dataset

  • 创建时间:2024-08-15
  • 数据集介绍:WideIRSTD数据集包含七个公开数据集和一个由国防科技大学团队开发的数据集,包括模拟陆地和太空数据以及真实手动标注的太空数据。数据集包含各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热)、图像分辨率(如256、512、1024、3200等),以及不同的成像系统(如陆地、空中和太空成像系统)。
  • 链接地址:WideIRSTD Dataset|红外成像数据集|数据集数据集


数据集:WHU-Hi

  • 创建时间:2021-03-30
  • 数据集介绍:WHU-Hi是由武汉大学创建的高空间分辨率无人机载高光谱图像(H2)数据集,旨在解决现有数据集在空间分辨率、标记像素比例和子类别区分度方面的不足。该数据集包含WHU-Hi-LongKou、WHU-Hi-HanChuan和WHU-Hi-HongHu三个子集,分别在湖北省的不同农业区域采集,具有从分米级到厘米级的高空间分辨率,标记像素比例超过69%,包含多种农作物类型。数据集创建过程中,使用了Headwall Nano-Hyperspec传感器进行数据采集,并通过辐射校正和几何校正进行预处理。WHU-Hi数据集主要应用于精准农业和土地利用监测,以提高高光谱图像分类的准确性和效率。
  • 链接地址:WHU-Hi|高光谱图像数据集|精准农业数据集


数据集:1991-2020年中国地面气候标准值数据集

  • 创建时间:2024-03-27
  • 数据集介绍:1991-2020年中国地面气候值数据集。包含气温、降水、气压、风、湿度、云、天气现象、能见度、蒸发、积雪、地温、冻土、日照等多个气象变量的平均值、极值和各类事件(如≤18℃日数等)发生频数,气候值站数增加到2438个站点(包括7个中国台湾站的气温、降水和风气候值或临时气候值)。
  • 链接地址:1991-2020年中国地面气候标准值数据集|气候科学数据集|气象学数据集


数据集:Chest X-ray Images (Pneumonia)


数据集:UAV-CM-Dataset

  • 创建时间:2024-03-06
  • 数据集介绍:UAV-CM数据集是由低空无人机捕捉的图像组成,包含11个类别共7666张图像。这些类别代表了农业或乡村环境中常见的不同类型的植物或物体,如香蕉、槟榔、椰子树等。该数据集由武汉理工大学CM实验室精心标注,确保了准确性和可靠性,旨在为对象检测、图像分类和遥感等领域的研究者、开发者和爱好者提供宝贵的资源。
  • 链接地址:UAV-CM-Dataset|无人机图像数据集|农业遥感数据集


数据集:FineWeb-Edu - 精选教育资源网络数据集

  • 创建时间:2024-06-03
  • 数据集介绍:FineWeb-Edu数据集由HuggingFace团队推出,这是 FineWeb 的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。该数据集提供了两种大小/过滤级别:1.3 万亿和5.4万亿Token,均使用 GPT2 分词器进行测量。FineWeb-Edu子集基于最近出现的一种过滤LLM训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。这项技术在 Llama 3 和 Phi3 的训练中得到了显著应用,但它对网络数据过滤的大规模影响迄今为止尚未得到充分的公开发掘。团队为了进一步提高 FineWeb的质量,利用 Llama-3-70B-Instruct 生成的注释开发了一个教育质量分类器,创建了 FineWeb-Edu。此数据集不仅为机器学习社区提供了一个用于模型训练的高质量资源,还特别针对教育领域的内容进行了优化,以期解决教育资源的质量和可获取性问题。FineWeb-Edu的发布,标志着在开放教育资源领域的一次重要进步。
  • 链接地址:FineWeb-Edu - 精选教育资源网络数据集


数据集:Drone-detection-dataset

  • 创建时间:2020-05-15
  • 数据集介绍:包含红外、可见光和音频数据的数据集,用于训练和评估无人机检测传感器和系统。数据集包含90个音频片段和650个视频(365个红外和285个可见光),如果从所有视频中提取所有图像,数据集共有203328个带标注的图像。
  • 链接地址:Drone-detection-dataset|无人机检测数据集|多模态数据数据集


数据集:Olympic Games Data Hub

  • 创建时间:2024-07-20
  • 数据集介绍:该项目提供了一个从1896年到2022年奥运会综合数据集。目标是使用Snowflake、Snowflake Notebooks和Streamlit加载、探索和可视化这些数据。数据集存储在这个GitHub仓库中,可以通过外部集成访问直接从GitHub拉取到Snowflake,无需本地下载。
  • 链接地址:Olympic Games Data Hub|奥运会数据集|数据可视化数据集


数据集:NSL-KDD

  • 创建时间:2019-05-15
  • 数据集介绍:NSL-KDD数据集是一个用于网络入侵检测的基准数据集,包含了多种网络袭击类型和正常流量数据。数据集提供了不同格式的文件,包括ARFF和CSV格式,用于训练和测试。
  • 链接地址:NSL-KDD|网络入侵检测数据集|网络安全数据集


数据集:California Housing Dataset

  • 创建时间:2024-04-03
  • 数据集介绍:该数据集来自1990年美国人口普查,用于预测加利福尼亚州的房价。数据粒度为街区级别,包含房屋位置、房龄、收入、房间数、卧室数、家庭成员入住情况和人口等输入信息,以及房价作为输出。
  • 链接地址:California Housing Dataset|房价预测数据集|房地产分析数据集


数据集:EMER-Coarse

  • 创建时间:2024-07-10
  • 数据集介绍:EMER-Coarse数据集由中国科学院自动化研究所构建,专注于可解释的多模态情感识别任务。该数据集包含115,595个样本,基于MER2024-SEMI数据集,涵盖了大量以人为中心的视频。数据集的创建过程中,采用了简化的标注流程和开源模型,以降低人工检查和闭源模型的依赖。EMER-Coarse数据集主要用于提高情感识别的准确性和可靠性,特别是在人机交互领域的应用。
  • 链接地址:EMER-Coarse|情感识别数据集|人机交互数据集


数据集:PlantVillage Dataset

  • 创建时间:2023-08-10
  • 数据集介绍:PlantVillage是一个植物病害图像数据库,常作为基础数据集用于农作物病害及植物病害的相关研究。 该数据库的图像都是在实验室中拍摄的, 目前数据集中有 54305 张植物病害叶片图像,其中包含 13 种植物共 26 类病害叶片。 该数据集中 有38 个类别的样本图像。
  • 链接地址:PlantVillage Dataset|植物病理学数据集|图像识别数据集


数据集:Omni-MATH

  • 创建时间:2024-10-10
  • 数据集介绍:Omni-MATH是由北京大学等机构创建的一个专为评估大型语言模型(LLMs)在奥林匹克级别数学推理能力上的综合性基准数据集。该数据集包含4428个竞赛级别的数学问题,这些问题被精心分类为超过33个子领域和10个不同的难度级别。数据集的创建过程包括从全球数学竞赛中收集数据,并通过人工注释进行验证,确保数据的高质量和多样性。Omni-MATH旨在为LLMs在复杂数学问题解决和推理能力上提供一个具有挑战性的评估平台,特别是在奥林匹克级别的数学问题上。
  • 链接地址:Omni-MATH|数学推理数据集|大型语言模型评估数据集


数据集:RadDet

  • 创建时间:2024-09-16
  • 数据集介绍:RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
  • 链接地址:RadDet|雷达信号分类数据集|信号处理数据集


数据集:takala/financial_phrasebank

  • 收录时间:2024-05-25
  • 数据集介绍:FinancialPhrasebank是一个用于情感分类的金融新闻句子数据集。该数据集包含4840个英语句子,这些句子根据5-8个注释者的同意率进行分类。数据集分为四个配置,分别基于注释者的同意率(50%、66%、75%和100%)。数据集的创建目的是为了解决金融情感分析中高质量训练数据缺乏的问题。数据集由16名具有金融市场背景知识的人进行注释,注释者包括研究人员和硕士生。数据集的使用受到Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License的限制。
  • 链接地址:takala/financial_phrasebank|金融数据集|情感分析数据集


数据集:MedTrinity-25M

  • 创建时间:2024-08-06
  • 数据集介绍:MedTrinity-25M是由华中科技大学、加州大学圣克鲁兹分校、哈佛大学和斯坦福大学联合创建的一个大规模多模态医学数据集,包含超过2500万张图像,涉及10种模态和65种疾病。数据集通过自动化的数据构建流程生成,不依赖于配对的文本描述,而是通过专家模型和知识库增强的多模态大型语言模型生成多粒度视觉和文本注释。数据集的创建过程包括从90多个在线资源收集数据,应用专家模型识别感兴趣区域(ROIs),并构建知识库以生成详细的文本描述。MedTrinity-25M旨在支持广泛的医学多模态任务,如图像标注和报告生成,以及视觉中心的任务如分类和分割,推动医学领域基础模型的发展。
  • 链接地址:MedTrinity-25M|医学数据集数据集|多模态数据数据集


数据集:Mouwiya/UNSW-NB15

  • 收录时间:2024-06-12
  • 数据集介绍:UNSW-NB15数据集是一个全面的网络入侵检测系统数据集,由澳大利亚网络安全中心(ACCS)的Cyber Range Lab使用IXIA PerfectStorm工具创建。该数据集包含真实现代正常活动和合成当代袭击活动的混合,提供Pcap、BRO、Argus和CSV等多种文件格式。数据集特征包括源IP、目的IP、协议、状态、持续时间等,适用于文本分类和零样本分类任务,主要用于学术研究。
  • 链接地址:Mouwiya/UNSW-NB15|网络入侵检测数据集|网络安全数据集


数据集:Crime Data from 2020 to Present


数据集:Chinese-Roleplay-Novel

  • 创建时间:2024-09-11
  • 数据集介绍:该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本,构建了约260条酒馆风格的多轮对话数据,每轮对话均包含详细的状态数据,如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等,状态信息以列表、表格、JSON等多种格式呈现。
  • 链接地址:Chinese-Roleplay-Novel|角色扮演数据集|游戏开发数据集


数据集:PeMS04, PeMS07, PeMS08, NYCTaxi

  • 创建时间:2023-12-01
  • 数据集介绍:该项目旨在开发一个利用‘传播延迟感知动态长距离转换器’方法的强大交通流量预测系统。系统将使用PeMS04、PeMS07、PeMS08和NYCTaxi数据集来准确预测城市地区的交通流量模式,同时考虑传播延迟。此外,项目的一个交付成果将是使用Looker Studio开发一个交互式仪表板,以可视化和展示交通流量预测。
  • 链接地址:PeMS04, PeMS07, PeMS08, NYCTaxi|交通流量预测数据集|数据可视化数据集


数据集:FACED

  • 创建时间:2023-09-27
  • 数据集介绍:FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建,包含从123名参与者收集的32通道EEG信号,用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建,旨在通过EEG信号分析情感状态。创建过程中,数据经过标准化和统一预处理,设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域,旨在解决情感计算中的分类问题,提高情感识别的准确性和效率。
  • 链接地址:FACED|情感计算数据集|脑机接口数据集


数据集:DenseSIRST

  • 创建时间:2024-07-29
  • 数据集介绍:DenseSIRST是由南京理工大学计算机科学与工程学院创建的红外小目标检测数据集,专注于密集目标检测。该数据集提供了背景区域的像素级语义标注,支持从稀疏到密集目标检测的转变。数据集内容包括密集的小目标及其背景的详细分割,旨在解决复杂背景下的目标检测问题,特别是减少误报率。通过精细的背景语义模型,DenseSIRST支持开发更有效的检测算法。
  • 链接地址:DenseSIRST|红外小目标检测数据集|密集目标检测数据集


数据集:Wisconsin Breast Cancer dataset


数据集:HIT-dataset


数据集:Kabil007/LungCancer4Types

  • 收录时间:2024-03-04
  • 数据集介绍:肺癌图像数据集:一个综合性的集合。该数据集包含高分辨率的CT扫描图像,旨在帮助研究人员、临床医生和机器学习/深度学习爱好者研究肺癌的多样性。数据集包含613张训练图像、315张测试图像和72张验证图像,每张图像都属于四个明确的肺癌类别之一:腺癌、大细胞癌、正常和鳞状细胞癌。
  • 链接地址:https://www.selectdataset.com/dataset/c7c64ea3c98d616f2976fe41d9954e25


数据集:car_augm|目标检测数据集|无人机数据集

  • 创建时间:2024-09-12
  • 数据集介绍:该数据集专注于单一类别的目标检测,具体为“坦克”。通过这一数据集的构建与应用,旨在提升无人机在复杂环境中对坦克目标的识别与定位能力。数据集的构建包括了多种数据增强技术,以确保模型在训练过程中能够接触到丰富多样的坦克图像。
  • 链接地址:car_augm|目标检测数据集|无人机数据集


数据集:elpv-dataset

  • 创建时间:2018-03-07
  • 数据集介绍:该数据集包含从光伏模块的高分辨率电致发光图像中提取的2624个300x300像素的8位灰度图像样本,涵盖了功能性和缺陷性太阳能电池,缺陷类型包括内在和外在,这些缺陷已知会降低太阳能模块的功率效率。
  • 链接地址:elpv-dataset|太阳能电池缺陷分析数据集|电致发光图像数据集

数据集:community-datasets/sogou_news

  • 更新时间:2024-06-26
  • 数据集介绍:Sogou News数据集是来自SogouCA和SogouCS新闻语料库的2,909,551篇新闻文章的混合体,分为5个类别。每个类别的训练样本数量为90,000个,测试样本数量为12,000个。新闻的分类标签由其URL中的域名决定。
  • 链接地址:新闻分类数据集|中文文本分析数据集



更多 免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。


selectdataset 发布2024最热门Top100数据集_机器学习数据集