培训背景
基因组学(genomics)是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科,基因组学的目的是对一个生物体所有基因进行集体表征和量化,并研究它们之间的相互关系及对生物体的影响 。机器学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。改善疾病诊断方案,了解应该使用哪些药物和给谁服用药物,最大限度的减少副作用,最大限度的提高疗效,所有这些都要求从基因组原始数据开始进行分析。这将是一项非常耗时的过程,因为涉及到的变量太多了,而深度学习恰恰能帮助缩短这一过程,
生物医学是综合医学、生命科学和生物学的理论和方法而发展起来的前沿交叉学科,基本任务是运用生物学及工程技术手段研究和解决生命科学,特别是医学中的有关问题。机器学习技术能利用复杂的算法在大规模、异质性数据集中进行运行,在生物医学方面、人类基因组项目、癌症全基因组项目、等项目上都表现出了巨大的潜力,收集并分析与医学疗法和患者预后相关的大量数据集或能将医学转化称为一种数据驱动、以结果为导向的学科,其对于疾病的检测、诊断都有着非常深远的影响。
由于深度学习基因组学与机器学习生物医学领域发展缓慢,学习平台文献资料较少,培训学习迫在眉睫, 应广大科研人员要求,本单位经过数月调研,决定联合专家举办“深度学习在基因组学与机器学习在生物医学”专题线上培训班,对于培训安排和培训质量一致评价极高 ,我们也是国内唯一一家从事深度学习基因组学+机器学习生物医学的专业培训单位,培训请一定要认准我们!
培训对象
全国各大高校、企业、科研院所从事、基因组学、农业科学、植物学、动物学,生态与环境科学、生物科学、临床医学、食品科学与工程、植物基因组、动物传染病、肿瘤免疫与靶向治疗、 全基因组泛癌分析、人黏连蛋白折叠基因组机、有机合成、生物化学、病毒检测、高通量测序、分子生物学、功能基因组、遗传图谱、基因挖掘变异、代谢组学、蛋白质组学、转录组学、生物医学、转化研究、蛋白质、癌症、核酸、毒物学研究、细胞生物学、生命科学、生物信息学、分子生物学 、miRNA及靶基因分析、生物医学大数据分析与挖掘等研究的科研人员及人工智能爱好者
培训目标(完全适合零基础)
深度学习基因组学让学员能够掌握深度学习在基因组学的整个流程及应用,学习理论知识及熟悉软件代码实操,数据挖掘、文章的复现,学会Anaconda、Python、pycharm、sklearn、Linux、R语言环境、bedtools等软件、以及学习高性能计算、云计算、深度学习环境搭建、基因组学中的深度学习、基因结构预测、RNA预测、DNA预测、蛋白预测、多种深度学习、计算方法综合预测等操作技能,独自完成自己的课题研究项目,
机器学习(ML)在生物医学中应用,让学员能够学习理论知识及熟悉代码实操,精通挖掘GEO、TCGA等数据库、文章的复现,以及利用机器学习方法筛选疾病相关的生物标志物、预测患病风险、预测患者预后、多种机器学习、计算方法综合预测等操作技能,大量演练操作,帮助科研人员利用这些公共数据库挖掘数据,独自完成自己的课题研究项目,
并助力发Nature、Science、Angew、Advanced Materials、JACS、Nano Letters、ACS Catalysis、Joule、Matter、Energy Storage Materials等顶刊文章!
培训特色
1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握
3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
培训讲师
主讲老师来自国内高校孙老师授课,2010年于美国Iowa State University获生物信息学和统计学博士学位。国家基金委通讯评审专家,获国家自然基金面上项目和联合基金资助。在国内外学术刊物发表论文25篇,其中被SCI收录19篇,包括Plant Physiology, Briefings in Bioinformatics, Molecular Plant, Journal of Clinical Investigation等国际知名期刊,授权专利5项,软件著作权20项,独立出版专著1部,并任国际主流期刊:《Bioinformatics》(SCI一区,IF: 8.561), 《Briefings in Bioinformatics》(SCI一区,IF: 7.065),研究方向为基因组学和表型组学。基因组学主要研究高通量测序数据,利用大数据结合深度学习算法进行分析挖掘,包括选择性剪接、环形RNA、环形DNA等。表型组学主要通过无人机、地面机器人对作物表型自动化精准采集、识别,实现对叶、茎、穗、花、果实等组织器官表型的实时智能识别,为未来作物精准设计育种提供重要理论基础和科学依据。
主讲老师来自国内高校李老师授课,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及机器学习,芯片数据分析,核酸及蛋白序列分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析,癌症相关基因预测及预后分析等,发表SCI论文30余篇,其中一作及并列一作15篇。
课表内容
深度学习在基因组学应用专题培训班
第一天
常用的基因组学数据库及应用
理论内容:
1. 基因组学发展现状
2. 常用的基因组学数据库
3. 基因组学应用
3.1 基因表达
3.2 剪接
3.3 TF与RBPs
3.4 蛋白质二级结构预测
实操内容
1. Linux操作系统
1.1 Linux操作系统的安装与设置
1.2 网络配置与服务进程管理
1.3 Linux的远程登录管理
2. 常用的Linux命令
2.1 在Linux下获取基因数据
2.2 利用Linux 探索基因组区域
3. Shell与Vim编辑器
4. ssh服务的使用
4.1 ssh免密登录
4.2 基因组文件下载与上传
5. Linux权限管理
5.1 文件的身份
5.2 修改文件的所有者和所属组
5.3 修改文件权限
第二天
基因组学中的深度学习结构体系
理论内容
1. 基因组学中的深度学习结构体系
1.1 模型解释
1.2 迁移学习和多任务学习
1.3 多视角学习
2. 挑战和机遇
2.1数据的性质
2.2 特征提取
实操内容
1. 基于机器学习的基因组分析模型
1.1 基于svm的剪接位点识别
1.2 利用随机森林实现基因组结构的预测
1.3 基于xgboost的基因结构识别
2. 超算
2.1 超算的基本使用
2.2 在超算上搭建环境运行代码
2.3 基因组作业提交与管理
3. 一些开放的资源的使用
3.1 飞桨社区介绍
3.2 飞桨平台的使用
3.3 基于飞桨的基因组结构预测
第三天
基因组学中的深度学习
理论内容
1. 决策树
1.1 决策树的原理
1.2 决策树分类
2. 集成学习方法
2.1 集成学习原理
2.2 随机森林
2.3 Bosting方法
3. 朴素贝叶斯
3.1 原理解析
3.2 模型应用
4. 支持向量机
4.1 分类原理
4.2 核函数
5. Xgboost
5.1 原理
5.2 梯度下降
5.3 正则项
实操内容
1. 深度学习环境搭建
2. 基因组学中的深度学习
2.1 特征提取
2.2 卷积神经网络在基因组分析中的应用
2.3 循环神经网络在基因组分析中的应用
第四天
基于深度学习的基因结构预测
理论内容
1. 基因组学中的神经网络
1.1 数据表示
1.2 张量运算
1.3 神经网络中的”层“
1.4 由层构成的模型
1.5 损失函数与优化器
1.6 数据集分配
1.7 过拟合与欠拟合
2. 基因组常用深度学习框架
2.1 Keras
2.2 Tensorflow
2.3 Theano
3. Transformer
3.1 Attention mechanism
3.2 Encoder
3.3 Decoder
实操内容
1. 基于深度学习的基因结构预测
1.1 RNA预测
1.1.1 LinearRNA
1.1.2 CircRNA
1.1.3 LncRNA
1.2 DNA预测
1.2.1 甲基化
1.3 蛋白预测
1.3.1 RBPs
机器学习在生物医学应用专题培训
第一天
机器学习及生物医学中应用简介
1. 机器学习及生物医学中应用简介
2. 机器学习基本概念介绍
3. 常用机器学习模型介绍(GLM,BF,SVM)
4. 主成分分析(PCA)
5. 一致性聚类分析
6. ROC曲线和时间依赖的ROC曲线
7. 生存分析基本概念介绍(生存曲线)
8. 预后模型介绍(单因素,多因素cox回归,lasso回归)
1. R语言简介
1.1 R语言概述
1.2 R软件及R包安装
1.3 R语言语法及数据类型
2. 条件语句
2.1 循环
2.2 函数
3. 常用的机器学习相关的R包介绍
第二天
机器学习在生物医学中的应用案例分享
1. 机器学习在生物医学中的应用案例分享
1.1 利用机器学习方法筛选疾病相关的生物标志物
2. 机器学习+生存分析预测患病风险
2.1 机器学习+生存分析预测患者预后
3. 常用生物医学公共数据库介绍
3.1 TCGA数据库介绍
3.2 TCGA数据库下载RNAseq,miRNA-seq数据
3.3 TCGA临床数据下载
3.4 合并TCGA表达谱数据
4. GEO数据库介绍
4.1 GEO数据库检索
4.2 GEO数据下载
第三天
机器学习应用于TCGA公共数据,复现科研文章
1. 机器学习应用于TCGA公共数据,复现科研文章
1.1 差异表达分析
1.2 主成分分析(PCA)
1.3 火山图,热图绘制
1.4 GO和KEGG富集分析,柱形图,气泡图绘制
2.生存分析,生存曲线绘制
2.1 一致性聚类分析(ConsensusClusterPlus)
2.2 训练集,测试集拆分
3. R语言简介
3.1 单因素,多因素cox分析
3.2 Lasso回归分析
4.风险评估模型构建
5.riskscore计算
6.Nomogram模型构建
6.1时间依赖ROC曲线(Time-dependent ROC)
6.2 矫正曲线,决策曲线绘制
第四天
机器学习应用于GEO公共数据,复现科研文章
1. 机器学习应用于GEO公共数据,复现科研文章
1.1 差异表达分析
1.2 主成分分析(PCA)
1.3 构建预测模型(SVM,RF,GLM)
2. 特征筛选及重要性评估
2.1 模型评估(ROC曲线绘制)
3. 构建nomogram模型
3.1 矫正曲线绘制
3.2 决策曲线绘制
4. 一致性聚类分析
4.1 GSEA分析
部分案例图片
授课时间地点
深度学习在基因组学培训时间
2022.07.02-2022.07.03 全天授课 (上午09:00-11:30) - (下午14:00-17:30)
2022.07.09-2022.07.10全天授课 (上午09:00-11:30) - (下午14:00-17:30)
机器学习在生物医学培训时间
2022.07.02-2022.07.03 全天授课 (上午09:00-11:30) - (下午13:30-17:00)
2022.07.09-2022.07.10全天授课 (上午09:00-11:30) - (下午13:30-17:00)
培训福利
参加本次课程的学员可免费再参加一次本单位后期组织的“深度学习在基因组学与机器学习在生物医学应用”相同的专题培训班(任意一期都可以)。课后学习完毕提供全程录像视频回放,发送全部课件资料及数据PPT,长期答疑,微信解疑群永不解散
授课方式
通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,400余页电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高
对此内容感兴趣可点击关注公众号!长期发布各种科研培训,及前沿资讯!
报名参会流程
引用往期参会学员的一句话:
发现真的是脚踏实地的同时 需要偶尔仰望星空
非常感谢各位对我们培训的认可! 祝愿各位学业事业有成!