はじめに #
以下にAWSから「データ統合の将来像」のドキュメントが公開されています。2024年度のドキュメントなのでちょっと古いですが読んでみます。自分向けのメモとして記載しています。興味がある方は原典をお読みください。
データ統合の将来像 #
はじめに #
ここではデータドリブンインサイトの必要性と困難さの解説がされていました。例としてホテルチェーンのデータ解析の話があります。以下3つのデータが別れていてデータ解析が困難。というシナリオです。
- 顧客の購入履歴@リレーショナルデータベース
- ウェブサイトのクリックストリーム@分析システム
- 顧客チャット履歴@サポートシステム
これを解析するには ETL(Extract, Transform, Load)
という処理が必要になりますが、これが結構大変で特にメンテナンスに手間がかかるために意思決定を行うスピードとマッチしていない問題があります。
その問題を解決するために4つの柱を据えています。
1. ゼロETL #
AWSのサービス間を直接統合しETL無し、つまり「データの移動、ロード、前処理」なしで「分析、機械学習、ビジネスインテリジェンス」を行うことができるようになります。
2. AWS Glue による付加価値をつけたETL #
ゼロETLで対応できず変換で付加価値をつけるなどが必要な場合は `AWS Glue`` を使ってETLを行うことができます。
3. すべてのデータを活用 #
サードパーティのSaas、オンプレミス、その他のクラウドなど、多くのデータに接続してフェデレートすることでデータをシームレスに統合できます。
4. データ共有を安全かつ簡単に行う #
AWSでデータを共有して読み書きができるので、複数のチームが同じ場所にあるデータを活用できます。これによりワークロードの分散によるパフォーマンス向上や、チームのコラボレーションの促進ができます。
1. ゼロETL #
以下にゼロETLとはなにかは以下に詳細に記載されています。
本ドキュメントでは4つの分類でゼロETLについて説明しています。
横串検索 #
Amazon RedshiftとAmazon Athenaを使ってデータベース、データウェアハウス、データレイクを横断的に検索できます。検索結果はS3に保存することで、処理のループを回すことができます。横断的な検索によりETLパイプラインを減らすことができます。
データストアで直接使用できる機械学習モデル #
Amazon SageMaker はAWSのデータベース、データウェアハウス、データレイクと統合されるので、ETLパイプラインを組まずに学習や解析をすることができます。
リアルタイムのストリーミング取り込み #
Amazon Redshiftにストリーミングデータを取り込む 事ができます。 取り込みはAmazon Kinesis や Amazon Managed Streaming for Apache Kafka (Amazon MSK) で行うことができます。これにより迅速なデータ分析、アクションができるようになります。
ゼロ ETL 統合 #
AWSの代表的なデータストアでゼロETL統合と呼ばれるサービス間の統合機能があります。今のところ Amazon Redshift
と AMAZON OPENSEARCH SERVICE
対応しているのは以下です。
AMAZON REDSHIFT とのゼロ ETL 統合 #
ユースケースは以下です。
- コンテンツターゲティング
- 最適化されたゲーム体験
- データ品質のモニタリング
- 不正行為の検出
- 顧客行動分析
ゼロ ETL 統合 | 説明 | 特長 |
---|---|---|
Amazon Aurora MySQL 互換および PostgreSQL 互換 | ニアリアルタイム分析や機械学習が可能で、Aurora からのペタバイト規模のトランザクションデータを分析できます。 | - 複数の Aurora クラスターから 1 つの Amazon Redshift ウェアハウスにデータをレプリケートする - 本番環境のワークロードに影響を与えることなく、アプリケーション全体の包括的なインサイトを取得する - ソースの Aurora クラスターで行われたスキーマの変更を Amazon Redshift に自動的に反映するアプローチであるため、ETL よりも適応力があり安定性が非常に高い |
Amazon RDS for MySQL | RDS for MySQL データを簡単に分析できます。 | - RDS for MySQL データを Amazon Redshift にシームレスに複製し、初期データロード、進行中の変更の同期、スキーマのレプリケーションを自動的に処理する - ワークロードを分離して最適なパフォーマンスを実現する |
Amazon DynamoDB | DynamoDB からのデータを Amazon Redshift での分析に使用するフルマネージド型のソリューションが可能になります。 | - DynamoDB 読み取り容量ユニット (RCU) を消費することなく、DynamoDB データを Amazon Redshift に複製して分析する - 本番環境のワークロードに影響を与えることなく、アプリケーション全体の包括的なインサイトを取得する - 高速 SQL クエリ、機械学習統合、高速集計のためのマテリアライズドビュー、安全なデータ共有など、強力な Amazon Redshift 機能を DynamoDB データに活用できる |
AMAZON OPENSEARCH SERVICE とのゼロ ETL 統合 #
ゼロ ETL 統合 | 説明 | 特長 | ユースケース |
---|---|---|---|
Amazon DynamoDB | DynamoDB に保存されたデータに対するウェブサイト検索や製品検索など、アプリケーション検索が構築できます。 | - 強力なフルテキストクエリやベクター検索クエリを DynamoDB データにニアリアルタイムで簡単に実行する - DynamoDB に書き込まれるデータを数秒以内に OpenSearch Service に複製する - 複数の DynamoDB テーブルのデータを 1 つの OpenSearch Service マネージドクラスターまたはサーバーレスコレクションに同期して、複数のアプリケーションにわたる包括的なインサイトを取得し、検索アセットを統合する |
- 品質の高い検索エクスペリエンスを創出する |
Amazon S3 | S3 に保存されているクエリ頻度の低いログデータを分析して、すべてのデータに対してセキュリティ分析や運用分析を実行できます。 | - クエリのパフォーマンスを強化する - 組み込みのクエリアクセラレーション機能を使用して高速でロードするダッシュボードを構築できる - データを移動せずに、複雑なクエリと視覚化を実行する |
- セキュリティとログデータを分析する - 機密データを保護する |
2.AWS Glue による付加価値をつけたETL #
ゼロELTが効果的とは言え特定のユースケースではETLパイプラインの構築が必要になります。データのクレンジングや複数データセットの組み合わせなどです。このような場合にサーバレスでスケーラブルなデータ移動と変換を行うのがAWS Glue
です。
AWS Glueでは Amazon CodeWhisperer
と統合することにより AWS Glue Studio
でコードの提案や構文の修正を行うことができますし、Amazon Q
のデータを統合すると自然言語を使用してデータ統合パイプラインを作れます。
3. すべてのデータを活用 #
以下のサービスにより様々なデータとの統合ができます。
- Amazon AppFlow データレイクとデータウェアハウスを 50 種類以上のSaaS アプリケーションに接続します
- Amazon Kinesis Data Firehouse 30 を超える AWS およびサードパーティーのソースから、データをリアルタイムでストリーミングします
- Amazon Athena 25 を超えるデータソースにクエリを実行します
- Amazon SageMaker Data Wrangler 40 を超えるソースのデータにアクセスして、機械学習モデルを構築できます
- Amazon QuickSight 30 を超えるソースを使用してインタラクティブなダッシュボードを構築できます
- AWS DataSync データの AWS 内への移動および AWS 外への移動を高速化し、ハイブリッド環境での処理を支援します
- AWS Glue 無数のデータソースからデータを取り込みます
- Amazon Managed Workflows for Apache Airflow (Amazon MWAA) コミュニティが提供する多数の Airflow オペレーターやセンサーからのデータパイプラインを定義します
サードパーティデータは AWS Data Exchange
で購入することができます。AWS Data Exchange
はAWSにネイティブ統合されるのでS3にダイレクトにデータを取り込んだり、Amazon Redshiftテーブルによるデータ配信などもできます。
4. データ共有を安全かつ簡単に行う #
AWS Clean Rooms #
AWS Clean Rooms は、企業とそのパートナーが、基になるデータを互いに共有したりコピーしたりすることなく、集合データセットをより簡単かつ安全に分析し、コラボレーションできるよう支援します。AWS Clean Rooms を利用すると、お客様は安全なデータクリーンルームを数分で作成し、他の企業と協力して、広告キャンペーン、投資についての意思決定、および研究開発に関する独自のインサイトを得ることができます。
AWS B2B Data Interchange 柔軟でコスト効率が高い方法で、ビジネスクリティカルな EDI トランザクションの大規模な変換を自動化します。B2B Data Interchange の生成 AI 支援マッピング機能により、双方向の EDI 実装に関連する時間、複雑さ、コストが削減されるため、ビジネスに有意義な影響を与えるための貴重なインサイトを得ることに集中できます。
さいごに #
AWSの提唱する「データ統合の将来像」についてサラッと知ることができました。使ったことがないサービスや、そもそも読んでもよくわからないサービス(AWS B2B Data Interchange)もありました。全体像を知り具体的なアーキテクチャを考える時の足がかりになったと思います。
参考書籍 |
---|
 |