ChatGPT的强大想必最近大家或多或少都有所耳闻,虽然可能多数人还不知道具体如何使用,但也已经有不少人将ChatGPT切实应用到了自己的工作和生活中,提高效率和生产力。具体到数据分析工作,像什么自动生成Excel函数和操作指引啊,生成Python代码模板之类的,用ChatGPT都统统不在话下。


但是,有没有一种可能,我们不需要配合任何额外工具,直接在ChatGPT中也能完成数据分析的任务呢?今天我们就给大家展示如何将自己的数据导入ChatGPT中,直接在问答中完成工作。


01、导入数据


在ChatGPT的提问框中,我们可以直接导入csv格式的数据(数据集来自Kaggle经典的评分卡数据集“Give Me Some Credit”,这里只导入了20行作为测试,但可能因为是公开数据的原因,在后续的过程中,ChatGPT对我们导入的数据进行了自动补全),效果如图所示:

 输入指令就能完成数据分析?ChatGPT做到了!_AI


可以看到,ChatGPT不仅接收了数据,而且还将该数据集的数据字典输出给我们了,而我们并没有提供任何额外的信息(实测就算是非公开数据,同样能够输出推测的数据字典)。


02、探索性数据分析(EDA)


在导入数据后,我们一方面可以让它提供一些代码模板来使用Python完成数据分析任务,但如果你并不想使用Python或Excel,直接在对话框之中我们也能完成大量简单的数据分析任务。

比如我们可以将数据以表格输出看看前面几行的样子(相当于df.head()):


输入指令就能完成数据分析?ChatGPT做到了!_人工智能_02


比如我们想要了解数据的维度(相当于df.shape,可以看到结果是150000行,这里ChatGPT完成了对公开数据的自动补全,如果使用的是非公开数据则不会发生这种情况):


输入指令就能完成数据分析?ChatGPT做到了!_人工智能_03


比如我们想要了解数据的类型和缺失值:

输入指令就能完成数据分析?ChatGPT做到了!_数据分析_04


又比如我们查询标签列的数据分布情况:


输入指令就能完成数据分析?ChatGPT做到了!_数据分析_05


除了简单的统计分析功能,我们甚至还可以对数据集进行更新,比如缺失值的填补:

 输入指令就能完成数据分析?ChatGPT做到了!_AI_06


上面这个简单的demo中,我们在不使用任何附加工具的情况下,基本可以实现对一个数据集前期的简单清洗和分析功能了,而如果你有进一步的分析需求,它也能够根据你的描述生成对应的python代码模板。只可惜目前在这个对话框中还不能运行代码,不然以后都不需要用excel和python了。


现在的AI圈可谓是一天一个大新闻,随着类似Copilot的产品不断推出,未来这种通过简单的prompt就能实现的数据分析流程一定会越来越完整,而不管工具如何更新,使用这种语言模型的核心就在于我们提供的提示词,也就是prompt。