こんにちは。機械学習よわよわ勢の森田です。2019/11/27開催された「Ignite 2019 最新アップデート AI & BigData」に参加してきました。DEEP LEARNING LAB さんのイベントには初参加です。
Azure Machine Learning - ML/DL 全般 -
www.slideshare.net
Azure ML概要
- Azure AI にはいくつかある
- ML ← 今日はこの話
- Knowledge mining
- AI Apps and agents
- MLの進歩
- オープンソースの台頭
- 民主化 (AutoML, GUI)
- データドリブンなカルチャー
- 機会学習のプロセスを早く回して行く
- 実験
- データ取得
- ビジネス要件
- モデル学習 (PcC)
- モデル
- Code & Data テスト
- モデル学習 (再現)
- モデルのパッケージ化 (Dockerなど)
- 運用
- デプロイ (Cloud, Edge)
- 監視
- モデル再学習・再作成
- 実験
Azure Machine Learningの4つの特徴
誰でも活用得きる機械学習プラットフォーム
- Automated ML
- データソースから複数のMLアルゴリズムを全自動で実施
- 機械学習のプロセスを全自動で構築する
- Azure ML Designer
- ビジュアルワークフローツール
- Machine Learning Algorithm Cheat Sheet - Azure Machine Learning | Microsoft Docs
- MLに知識があるかた向け。ない方はAutomated MLがおすすめ。
- Azure ML Python & R SDK
- ML Compute
- マネージドなML環境
- VMスペックを選択
- 自動スケール
- ジョブ管理・スケージュール管理
- 自動でライブラリ・データを準備
- 低優先度オプションで80%割引で利用可能
- Automated ML も Designer もこれ上で動く
- Azure ML Studio
効率的なモデル学習
- MLOps
- 機械学習ライフサイクルを実現
- MLOps on Azure
- Azure ML + Azure DevOps
- モデル学習&デプロイのトレーサビリティ
- モデルが公開されるまでの履歴・ログをトレースできる仕組み
- 資産管理
- モデルの再現性
- ライフサイクルの自動化
- データサイエンティストと IT エンジニアのコラボ
- データセット管理
- 各データソースのデータセットを仮想的に管理
- セキュリティ設定
- バージョン管理、スナップショット
- ドリフト検知 (モニタリング)
- Azure ML Data Labeling
- 深層学習に必要な画像へのラベリング
- チーム作業
- エクスポート
- 自動ラベリングアシスト機能 (coming soon)
オープン & 相互運用性
- オープンなテクノロジーを採用し生産性を向上
- Azure ML SDKが入れば開発環境には縛りはない
- LightGBM Estimator
- kaggle で人気
- 例: 競馬予測
- 多言語対応
- Scikit-learn 準拠のAPI
- kaggle で人気
- ONNX による AI モデルの相互運用性の実現
- ONNX モデルの推論環境の構築
- ONNX にすると C# でアプリ開発ができる
セキュリティ・ガバナンスを備えたエンタープライズ対応
- AI モデルへの信頼
- モデ解釈可能性
- 公平性
まとめ
- Azure ML は企業におけるMLプロジェクトのプラットフォーム
- Automated MLによる生産性の向上
- MLOpsによる自動化・効率化
- エンタープライズ対応のインフラとセキュリティ
Azure Cognitive Services - AI App -
www.slideshare.net
概要
- ビジネス革新 = AI コストがさがる
- 成長した企業は「まずやってみている」
- アイディア × スピード
- AI を活用する方法としてCognitive推し
- Azure Cognitive Serviceの特徴
- 学習済み
- あらゆるOS、言語で使える
- 従量課金
- Azure Cognitive Services
- Vision
- Speech
- Language
- Decision
- Web Search
- すぐつかえるCognitive Servicesデモアプリ
- Intelligent Kiosk
- Custom Vision Service 活用
- たとえば会議室の混雑常用
- 人数をカウントする必要はない
- 会議室が空いてる写真〜混んでる写真 4段階ぐらいを覚えさせて判定
Ignite アップデート
Form Recognizer
- 画像からOCR & フォーム読み取り
- 今のところ英数字
- Key / Value で取得可能 (json)
- Logic Apps でデモ
- レシードを BLOB アップする -> 取得する -> Form Recognizer -> 出力
- プライベートプレビュー
- 画像からOCR & フォーム読み取り
Custom Neural Voice
- オリジナル音声による読み上げ機能
- 日本語はまだ未対応
Personalizer
- パーソナライズエンジンの構築
- 再学習を自動化
- GA
Text Analytics
- Sentiment V3 にアップデート
- ネガポジが改善
Language Understanding
- 自然言語の文章を分析し、エンティティ抽出をクラス分けを行う
- Prebuit Domains (ja) に対応
Cognitive Search
- Azure Search -> Cognitive Search へ名称変更
- Swatch Bot デモ
- GitHub - ayako/JPC2019-AI-Demos: Microsoft Japan Partner Conference 2019 : Azure AI Demos
Cognitive Service with Azure VNET
- エンドポイントをAzure VNET または IP で制限可能に
Spark Analytics - スケーラブルな分散並列処理 -
www.slideshare.net
- Big Data & AI における課題
- Silo 化するテクノロジー
- Azure Databricks で解決
- Azure Databricks
- Big Data + AI
- Apache Spark ベースの分析プラットフォーム
- AWS でも Databricks は使えるが要契約。Azure では Azure の一つのサービスとして組み込まれている
- なぜ Apache Spark か?
- パフォーマンス
- 開発生産性
- 提供された関数をつかえば大規模データセットを簡単に利用できる
- 統一エンジン
- エコシステム
- Apache Spark on Azure
- VM
- Azure HDinsight
- Spark 以外も利用可能
- Azure Databricks
- AI に特化した Spark
- Azure の AI 用にカスタマイズされている
- HDinsight より 7倍速い
- Delta Lake
- Parquet ファイル + トランザクションログ
- 高品質で高信頼なデータ
- ACID トランザクジョン
- スキーマーエンフォース
- Time Travel / スナップショット
- 統合 Batch & Streaming
- ZORDER
- Parquet ファイル + トランザクションログ
- Managed MLflow
- Apache Spark 3.0
- Dynamic Partition Pruning
- Apache Spark を内包する Azure サービス
- Azure Synapse Analytics
- Azure Data Factory - Mapping Data Flow (Azure Databricks を使用)
- Azure Data Factory - Wrangling Data Flow
- Azure SQL Server 2019 Big Data Cluster
- Cosmos DB
- Analytical Storage (Review)
- サブスクリプション全体のCosmosリソースに適用される
Azure Big Data Services を俯瞰的に眺める
www.slideshare.net
Database
- SQL Server 2019
- GA
- Intelligent Adaptive Query Processing
- 最適化シナリオが追加
- 行ストアでも動作。インデックス追加なく対象となる可能性がある
- セキュリティ強化(一部紹介)
- セキュアエンクレーブ
- Advanced Data Security
- Private Link
- Big Data Cluster (BDC)
- K8s
- HDFS
- Spark
- Azure Database for PostgreSQL Hyperscale (Citus)
- 日本にはまだ来てない。試してみたいならプレビュー申し込み
- PostgreSQLを複数ノードにまたがってシャーディング
- ワーカーノードを簡単に増やす
Data + Analytics
- Cosmos DB
- 集合関数と GROUP BY 句のパフォーマンス改善
- Auto Pilot Containers
- オートスケール対応
- 最大RU設定
- 最初から最大RU上限設定しておく使い方も可能に
- Azure Data Factory
- 今後アップデートあり
- SQL Analytics (Data Warehouse)
- Materialized Views
- 利用料金は据え置きでクエリー実行時間が改善
- Result Set の Cache
- 機械学習の推論組み込み (Private Preview)
- データ移動が不要
- データが有る場所でセキュアに推論を実行可能に
- Materialized Views
- Power BI デモ
- 6 trillionデータ
- DirectQuery & インポート
- Data Warehouse は占有サービス。キャッシュが効く
- Azure Synapse Analytics (Preview)
- Synapse Studio
- Data Warehouse が入っているので Intellisense が効く
- Notebook
- Spark
- Power BI
- Data Lake 統合
- Parquet Direct
- Cosmos DB と連携
- Transactional Storage
- Analytical Storage (new)
- Cosmos DB 作成時に指定 (Notebooks with Apache Spark)
- Synapse Studio
Azure Hybrid
- Azure Arc
- Multicloud
- On-premises
- Edge
- 全てのサーバ管理
- k8sを管理
- どこでもAzure Database Serviceを動かす
クラウドインフラ屋としてはこれで酒が呑めますね。