Ignite 2019 最新アップデート AI & BigData 参加雑記 #dllab - Alternative Architecture DOJO

Alternative Architecture DOJO

オルターブースのクラウドネイティブ特化型ブログです。

Ignite 2019 最新アップデート AI & BigData 参加雑記 #dllab

こんにちは。機械学習よわよわ勢の森田です。2019/11/27開催された「Ignite 2019 最新アップデート AI & BigData」に参加してきました。DEEP LEARNING LAB さんのイベントには初参加です。

dllab.connpass.com

f:id:hawa9:20191128155639j:plain

Azure Machine Learning - ML/DL 全般 -

www.slideshare.net

Azure ML概要

  • Azure AI にはいくつかある
    • ML ← 今日はこの話
    • Knowledge mining
    • AI Apps and agents
  • MLの進歩
    • オープンソースの台頭
    • 民主化 (AutoML, GUI)
    • データドリブンなカルチャー
  • 機会学習のプロセスを早く回して行く
    • 実験
      • データ取得
      • ビジネス要件
      • モデル学習 (PcC)
    • モデル
      • Code & Data テスト
      • モデル学習 (再現)
      • モデルのパッケージ化 (Dockerなど)
    • 運用
      • デプロイ (Cloud, Edge)
      • 監視
      • モデル再学習・再作成

Azure Machine Learningの4つの特徴

誰でも活用得きる機械学習プラットフォーム
  • Automated ML
    • データソースから複数のMLアルゴリズムを全自動で実施
    • 機械学習のプロセスを全自動で構築する
  • Azure ML Designer
  • Azure ML Python & R SDK
  • ML Compute
    • マネージドなML環境
    • VMスペックを選択
    • 自動スケール
    • ジョブ管理・スケージュール管理
    • 自動でライブラリ・データを準備
    • 低優先度オプションで80%割引で利用可能
    • Automated ML も Designer もこれ上で動く
  • Azure ML Studio
効率的なモデル学習
  • MLOps
    • 機械学習ライフサイクルを実現
  • MLOps on Azure
    • Azure ML + Azure DevOps
    • モデル学習&デプロイのトレーサビリティ
      • モデルが公開されるまでの履歴・ログをトレースできる仕組み
      • 資産管理
    • モデルの再現性
    • ライフサイクルの自動化
    • データサイエンティストと IT エンジニアのコラボ
  • データセット管理
    • 各データソースのデータセットを仮想的に管理
    • セキュリティ設定
    • バージョン管理、スナップショット
    • ドリフト検知 (モニタリング)
  • Azure ML Data Labeling
    • 深層学習に必要な画像へのラベリング
    • チーム作業
    • エクスポート
    • 自動ラベリングアシスト機能 (coming soon)
オープン & 相互運用性
  • オープンなテクノロジーを採用し生産性を向上
    • Azure ML SDKが入れば開発環境には縛りはない
  • LightGBM Estimator
    • kaggle で人気
      • 例: 競馬予測
    • 多言語対応
    • Scikit-learn 準拠のAPI
  • ONNX による AI モデルの相互運用性の実現
    • ONNX モデルの推論環境の構築
    • ONNX にすると C# でアプリ開発ができる
セキュリティ・ガバナンスを備えたエンタープライズ対応
  • AI モデルへの信頼
    • モデ解釈可能性
    • 公平性

まとめ

  • Azure ML は企業におけるMLプロジェクトのプラットフォーム
  • Automated MLによる生産性の向上
  • MLOpsによる自動化・効率化
  • エンタープライズ対応のインフラとセキュリティ

Azure Cognitive Services - AI App -

www.slideshare.net

概要

  • ビジネス革新 = AI コストがさがる
    • 成長した企業は「まずやってみている」
    • アイディア × スピード
  • AI を活用する方法としてCognitive推し
  • Azure Cognitive Serviceの特徴
    • 学習済み
    • あらゆるOS、言語で使える
    • 従量課金
  • Azure Cognitive Services
    • Vision
    • Speech
    • Language
    • Decision
    • Web Search
  • すぐつかえるCognitive Servicesデモアプリ
    • Intelligent Kiosk
  • Custom Vision Service 活用
    • たとえば会議室の混雑常用
    • 人数をカウントする必要はない
    • 会議室が空いてる写真〜混んでる写真 4段階ぐらいを覚えさせて判定

Ignite アップデート

  • Form Recognizer

    • 画像からOCR & フォーム読み取り
      • 今のところ英数字
    • Key / Value で取得可能 (json)
    • Logic Apps でデモ
      • レシードを BLOB アップする -> 取得する -> Form Recognizer -> 出力
    • プライベートプレビュー
  • Custom Neural Voice

    • オリジナル音声による読み上げ機能
    • 日本語はまだ未対応
  • Personalizer

    • パーソナライズエンジンの構築
    • 再学習を自動化
    • GA
  • Text Analytics

    • Sentiment V3 にアップデート
    • ネガポジが改善
  • Language Understanding

    • 自然言語の文章を分析し、エンティティ抽出をクラス分けを行う
    • Prebuit Domains (ja) に対応
  • Cognitive Search

  • Cognitive Service with Azure VNET

    • エンドポイントをAzure VNET または IP で制限可能に

Spark Analytics - スケーラブルな分散並列処理 -

www.slideshare.net

  • Big Data & AI における課題
    • Silo 化するテクノロジー
    • Azure Databricks で解決
  • Azure Databricks
    • Big Data + AI
    • Apache Spark ベースの分析プラットフォーム
    • AWS でも Databricks は使えるが要契約。Azure では Azure の一つのサービスとして組み込まれている
  • なぜ Apache Spark か?
    • パフォーマンス
    • 開発生産性
      • 提供された関数をつかえば大規模データセットを簡単に利用できる
    • 統一エンジン
    • エコシステム
  • Apache Spark on Azure
    • VM
    • Azure HDinsight
      • Spark 以外も利用可能
    • Azure Databricks
      • AI に特化した Spark
      • Azure の AI 用にカスタマイズされている
      • HDinsight より 7倍速い
  • Delta Lake
    • Parquet ファイル + トランザクションログ
      • 高品質で高信頼なデータ
    • ACID トランザクジョン
    • スキーマーエンフォース
    • Time Travel / スナップショット
    • 統合 Batch & Streaming
    • ZORDER
  • Managed MLflow
  • Apache Spark 3.0
    • Dynamic Partition Pruning
  • Apache Spark を内包する Azure サービス
    • Azure Synapse Analytics
    • Azure Data Factory - Mapping Data Flow (Azure Databricks を使用)
    • Azure Data Factory - Wrangling Data Flow
    • Azure SQL Server 2019 Big Data Cluster
  • Cosmos DB
    • Analytical Storage (Review)
    • サブスクリプション全体のCosmosリソースに適用される

Azure Big Data Services を俯瞰的に眺める

www.slideshare.net

Database

  • SQL Server 2019
    • GA
    • Intelligent Adaptive Query Processing
      • 最適化シナリオが追加
      • 行ストアでも動作。インデックス追加なく対象となる可能性がある
    • セキュリティ強化(一部紹介)
      • セキュアエンクレーブ
      • Advanced Data Security
      • Private Link
    • Big Data Cluster (BDC)
      • K8s
      • HDFS
      • Spark
  • Azure Database for PostgreSQL Hyperscale (Citus)
    • 日本にはまだ来てない。試してみたいならプレビュー申し込み
    • PostgreSQLを複数ノードにまたがってシャーディング
    • ワーカーノードを簡単に増やす

Data + Analytics

  • Cosmos DB
    • 集合関数と GROUP BY 句のパフォーマンス改善
    • Auto Pilot Containers
      • オートスケール対応
      • 最大RU設定
      • 最初から最大RU上限設定しておく使い方も可能に
  • Azure Data Factory
    • 今後アップデートあり
  • SQL Analytics (Data Warehouse)
    • Materialized Views
      • 利用料金は据え置きでクエリー実行時間が改善
    • Result Set の Cache
    • 機械学習の推論組み込み (Private Preview)
      • データ移動が不要
      • データが有る場所でセキュアに推論を実行可能に
  • Power BI デモ
    • 6 trillionデータ
    • DirectQuery & インポート
    • Data Warehouse は占有サービス。キャッシュが効く
  • Azure Synapse Analytics (Preview)
    • Synapse Studio
      • Data Warehouse が入っているので Intellisense が効く
      • Notebook
      • Spark
      • Power BI
    • Data Lake 統合
      • Parquet Direct
    • Cosmos DB と連携
      • Transactional Storage
      • Analytical Storage (new)
        • Cosmos DB 作成時に指定 (Notebooks with Apache Spark)

Azure Hybrid

  • Azure Arc
    • Multicloud
    • On-premises
    • Edge
  • 全てのサーバ管理
  • k8sを管理
  • どこでもAzure Database Serviceを動かす

f:id:hawa9:20191128155505j:plain

クラウドインフラ屋としてはこれで酒が呑めますね。