MEC(AWS Wavelength)上での低遅延映像配信+AI映像分析 PoC のご紹介 | KDDI Engineer Portal

Blog

MEC(AWS Wavelength)上での低遅延映像配信+AI映像分析 PoC のご紹介

2022/05/30

1. はじめに

ソフトウェア技術部 松本です。エンジニアポータル初投稿です! 普段は5G/MEC(AWS Wavelength)に関する案件推進・技術支援などを担当しています。

2022/5/9に、KDDI法人トピックス「「第6回AI・人口知能EXPO【春】」Ideinブースへの出展について」として、弊社サイトに記事掲載されておりますが、5/11~13に開催された上記の展示会において、低遅延映像配信+AI映像分析のPoCの結果を一般公開・展示しました。その内容について、技術的な面を補足しつつ、ご紹介したいと思います。

2. 何を作ったのか

MEC(AWS Wavelength)上に、①動画中継サーバー、②複数のAI分析サーバーを構築しました。

  • ①動画中継サーバー  : 通常1:1で行う映像伝送を、1:多に分岐可能とするサーバー。
  • ②複数のAI分析サーバー: ①から映像を取得し、異なるAIモデルを用いて並列で分析を実施するサーバー。

①,②を組み合せることにより、複数のクライアント(受信PC)で、複数種類の分析結果を元の映像に重畳した上で、ほぼリアルタイムに配信することを実現しました。

3. 想定ユースケース

サムネイル MEC(AWS Wavelength)上での低遅延映像配信+AI映像分析 実証実験のご紹介 

今回は「まずはなるべく分かりやすいユースケースを」ということで、以下の3つのAIモデルを実装し、店舗での行動分析を行う際の映像分析、という想定としました。

  • 1つめ「人数計測」は、映像内に映っている人数をカウントします。これにより、店内にどれくらいのお客さまがいるのか、どのくらい込み合っているかを確認できます。
  • 2つめ「人流検知」は、映像内の人間の移動した軌跡を表示します。これにより、お客さまが店内をどのような経路で移動しているのか、動線分析を行うことができます。
  • 3つめ「顔向き検知」は、映像内の人の顔の向きを検出します。お客さまがどの棚や商品を見ていて、どの商品が着目されているのかなどを確認することができます。

上記はあくまでユースケースの例として実装したものであり、映像分析のユースケースとしては、工場での検品、商業施設での危険予知、スポーツ中継での選手情報表示など、さまざまな応用が考えられます。AIモデルはユースケースに合わせて開発し、本システムに簡単に追加することが可能な仕組みとなっています。

4. 本システムの価値

リアルタイムに映像分析を行うシステムは既に存在しておりますが、本システムの価値として以下の3点が挙げられます。

  • 低遅延: 5G及びMEC(AWS Wavelength)を活用することにより、低遅延での映像伝送・分析が可能です。
  • 複数AIモデルでの並列分析: MEC(AWS Wavelength)上での映像分析を行うことにより、コンピューティングリソースの制約にとらわれずに複数の映像分析を並列で実行することが可能です。
  • AIモデルの追加が容易: ユースケースに合わせて、必要なAIモデルを追加することが可能です。(動画中継サーバーから映像を取得するI/F、逆に分析結果を返すI/Fを実装することで、動画中継サーバーとの連携が可能になります。)

5. 体制

今回は、Idein株式会社様(以下Idein)、株式会社ソリトンシステムズ様(以下ソリトンシステムズ)とKDDIでの3社でのプロジェクトとして実施しました。各社の担当範囲は以下となります。

  • Idein: AI分析サーバー
  • ソリトンシステムズ: 動画中継サーバー、映像伝送装置
  • KDDI: 5G環境(ルーター及びネットワーク)、MEC(AWS Wavelength)

6. アーキテクチャ

構成図にしたがって、システムの処理フローを説明します。 MEC(AWS Wavelength)上での低遅延映像配信+AI分析PoCのご紹介   アーキテクチャ図v2

  • カメラで撮影した映像を、ソリトンシステムズの映像伝送装置(エンコーダー)でエンコードし、KDDIの5Gルーターを経由してAWS Wavelength上の動画中継サーバーに送ります。この間のプロトコルはソリトンシステムズが開発した、高速・高品質を実現するRASCOW2になります。
  • 動画中継サーバーは、映像を受信すると、AI分析サーバー(今回は3つ)を呼び出します。それぞれのAIサーバーは動画中継サーバーにアクセスし、rtspプロトコルで映像を取得し、リアルタイムに映像を分析し、結果を動画中継サーバーに返します。分析結果データには、タイムスタンプや座標などの情報が含まれます。
  • 受信PC(クライアント)は、動画中継サーバーにアクセスし、WebRTCで映像及び分析結果データを受信します。映像をデコードし再生するとともに、HTML5のアプリケーションにより、受信した分析結果のデータを用いて映像の上に描画を行います。(例:人数計測であれば、座標情報を用いて人の部分に四角形を描画します。)

実際に、受信PCで映像と分析結果を重畳して表示している様子がこちらになります。左から、人数計測、人流検知、顔向き検知の3つを並べて表示しています。

MEC(AWS Wavelength)上での低遅延映像配信+AI分析PoCのご紹介 結果表示画面

  • 上記は、会議室で試験的に撮影したもので分かりづらいところもありますが、左側の人数計測で、1名がカウントされており、真ん中の人流検知で人の動きが軌跡表示されており、右側の顔向き検知で、人がどこを向いているかが矢印で表示されています。
  • 展示会会場では、ブースの前の人の流れを撮影し、より現実に即した分析結果を来場者にご覧いただくことができました。

7. 展示会での反響、今後

展示会では、ブースに来訪された方から、「どのくらいリアルタイムに処理できるのか?」「『デバイスエッジ』(=現場のカメラの隣り)ではなくMEC側でAIの処理を実行するメリットは何か?」「通信コストはどのくらいになるのか?」などのたくさんのご質問を頂きました。

そうしたご質問、ご意見などをふまえて、引き続きユースケースの発掘、システムの改善などに取り組んでいければと思います。