MMF 多模态框架介绍及问题汇总

跨模态推理对人工智能至关重要。越来越需要对模态之间的交互进行建模(例如,视觉,语言),这样不仅能够改进AI对现有任务的预测能力,同时也能够发现新的应用点。

多模态AI问题包括视觉问答(visual question answering, VQA), 图像描述(image captioning)、 视觉对话(visual dialogue)、embodied AI、虚拟助手( virtual assistants)以及在社交媒体上检测不良内容(detecting hateful content on social media)。

更好的工具(对于研究人员提出新颖的想法以及对从业人员生产用例而言)都有可能加速多模式AI的发展。为此,Facebook AI Research(FAIR)新近开源了MMF(MultiModal Framework多模态框架) 这样一个视觉和语言多模态模块化框架。

这些内容出自Pytorch 团队在Medium上面对MMF的介绍,链接: 点这里.有兴趣的可以去看看MMF的官网,下面的安装也可以在官网中看到,碍于国内如果不翻Q可能进不去官网,在这里我就简要将官网内容进行翻译、整理,如有不当之处,以官网为准。

1.安装

官网要求提前安装好Python 3.7+ 和PyTorch 1.5.0,并推荐了两种安装方式,但是后面还是以source的方式为主

1.1 第一种方式 Install using pip

pip install --upgrade --pre mmf

这种方式主要是针对用户想要简单的安装完MMF,不关心后续MMF的新特性,同时这种方式适合只是将MMF作为库,不会在MMF中进行进一步开发的用户。

1.2 第二种方式 Install from source

从源代码安装的步骤如下:

git clone https://github.com/facebookresearch/mmf.git
cd mmf
pip install --editable .

在进行第三步前,最好看看MMF的Github资源中的requirements.txt,把里面需要提前安装好。需要特别强调的是torch一定要安装1.5.0版本的,具体是GPU还是CPU版都无所谓,但一定要是1.5.0,高一点的1.5.1不行哦。

1.3 Windows版本的Pytorch 1.5+

如果通过

pip install torch==1.5.0

会发现找不到对应的windows版,原因是pytorch并没有放出1.5+的windows版本给Pypi,当然如果是在Linux或是Mac上安装,是不存在这个问题的。

解决方法是通过官网提供的方式进行安装,直接进Pytorch官网,可以看到如图所示:

多模态大模型用于目标检测_人工智能


对于我们的需求,直接在conda Powershell中输入

pip install torch==1.5.0+cu101 torchvision==0.6.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html

当然这也要看你的CUDA装的是哪个版本的,更改相应的+cu10x就行,torchvision最好也换成0.6.0版本的,最新0.6.1好像是会报错。
如果想省点事,可以直接点击这里下载相应的windows版1.5.0 torch和0.6.0 torchvision
CUDA10.1 + torch1.5.0CUDA10.2 +torch1.5.0CPU + torch1.5.0CUDA10.1 + torchvision 0.6.0CUDA10.2+ torchvision 0.6.0CPU + torchvision 0.6.0

2.MMF 多模态框架使用过程中问题汇总

这里的问题主要是在windows10下载安装、使用MMF时出现的问题。我在Ubuntu 18.04 LTS下面安装时没有出现这些问题。

2.1 AttributeError: module ‘enum’ has no attribute ‘IntFlag’

参考 ,直接通过

// 卸载掉enum34
pip uninstall enum34

卸载掉enum34就不会出现这个问题
但是在

pip install --editable .

缺出现ERROR: pysc2 3.0.0 requires enum34, which is not installed.
原因还是我们卸载掉了enum34,我还不知道会有什么后续影响以及解决办法,如果有知道的,还请告知。

2.2 OSError: [WinError 127] 找不到指定的程序。

在使用

mmf_run config=projects/m4c/configs/textvqa/defaults.yaml  datasets=textvqa  model=m4c  run_type=train_val

进行训练时出现了下面这个问题:

Traceback (most recent call last):
  File "X:\Anaconda3\envs\XXEnv\Scripts\mmf_run-script.py", line 33, in <module>
    sys.exit(load_entry_point('mmf', 'console_scripts', 'mmf_run')())
  File "X:\Anaconda3\envs\XXEnv\Scripts\mmf_run-script.py", line 25, in importlib_load_entry_point
    return next(matches).load()
  File "X:\Anaconda3\envs\XXEnv\lib\site-packages\importlib_metadata\__init__.py", line 96, in load
    module = import_module(match.group('module'))
  File "X:\Anaconda3\envs\XXEnv\lib\importlib\__init__.py", line 127, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)
  File "<frozen importlib._bootstrap>", line 1006, in _gcd_import
  File "<frozen importlib._bootstrap>", line 983, in _find_and_load
  File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked
  File "<frozen importlib._bootstrap>", line 677, in _load_unlocked
  File "<frozen importlib._bootstrap_external>", line 728, in exec_module
  File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed
  File "X:\mmf\mmf\mmf_cli\run.py", line 7, in <module>
    import torch
  File "X:\Anaconda3\envs\XXEnv\lib\site-packages\torch\__init__.py", line 81, in <module>
    ctypes.CDLL(dll)
  File "X:\Anaconda3\envs\XXEnv\lib\ctypes\__init__.py", line 364, in __init__
    self._handle = _dlopen(self._name, mode)
  OSError: [WinError 127] 找不到指定的程序。

2.2.1问题分析

从MMF的源文件的代码中的setup.py中可以看到

if __name__ == "__main__":
    setuptools.setup(
       ///省略...
        entry_points={
            "console_scripts": [
                "mmf_run = mmf_cli.run:run",
                "mmf_predict = mmf_cli.predict:predict",
                "mmf_convert_hm = mmf_cli.hm_convert:main",
            ]
        },
    )

mmf_run 实际上使用的是mmf_cli.run:run,如果我们打断点跟进去会发下其实是在

from mmf.common.registry import registry

出现错误,那也就是MMF的库没有导入成功

根据报错可以看到最后是在

X:\Anaconda3\envs\XXEnv\lib\ctypes\__init__.py

的 self._handle = _dlopen(self._name, mode)卡住的。

这个错误一般是_dlopen没有找到需要的动态库,断点跟进去发现是加载’X:\Anaconda3\envs\XXEnv\lib\site-packages\torch\lib\caffe2_detectron_ops_gpu.dll’时出现错误,但电脑该目录下是有这个库的,那也就是说明caffe2_detectron_ops_gpu.dll库的版本不对,但这个目录中的文件是torch自己配置的,虽然官方也有可能出错,但毕竟概率比较小。然而搜了一圈,没想到还真是官方出了问题

import torch

提示

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "X:\Anaconda3\envs\XXEnv\lib\site-packages\torch\__init__.py", line 81, in <module>
    ctypes.CDLL(dll)
  File "X:\Anaconda3\envs\XXEnv\lib\ctypes\__init__.py", line 364, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: [WinError 127] 找不到指定的程序。

2.2.2 Pytorch 1.4+升级到1.5+出现的问题

这个问题的解答可以从Pytorch Issue里面看到,参考peterjc123的回答,将

X:\Anaconda3\envs\XXEnv\Lib\site-packages\torch\__init__.py

替换为init.py 同时将conda进行更新,有可能是conda做虚拟化环境没有处理好的原因,参见Pytorch Issue,办法是:

conda update conda
conda update anaconda

替换之后可以看到import torch 成功
但是我这里有出现了scipy.parse无法识别,解决方法为

pip uninstall scipy
conda install scipy

可能的原因是scipy需要升级。
最后可以测试

from mmf.common.registry import registry
from mmf.utils.build import build_config, build_trainer
from mmf.utils.configuration import Configuration
from mmf.utils.distributed import distributed_init, infer_init_method
from mmf.utils.env import set_seed, setup_imports
from mmf.utils.flags import flags
from mmf.utils.logger import Logger

都可以成功