AWSの基礎力をつけるためにAWS What’s Newを毎日目を通す事を始めました。 最初は日本語訳されたものを見ていたのですが、1週間ほど遅れて訳されるようなので、英語の情報を訳して整理することにしました。
本情報が役立つ人もいるかなと思い公開します。 個人的な理解なので、実際の情報は原典をあたってください。
¥3,520 Amazonで見る
AWS運用入門 改訂第2版 押さえておきたいAWSの基本と運用ノウハウ [AWS深掘りガイド] 単行本(ソフトカバー) – 2025/7/11
感想
今日は機械学習計特にSageMakerに関する更新が主でした。最近機械学習に触れる機会が無いですが、LLM登場によって大きく世界が変わるかと思いましたが、以外に変わりませんね。残念に感じるとともに、ソフトウェアエンジニアの仕事が残りそうで安心したりもします。
Amazon Athena for Apache SparkがAmazon SageMaker Notebooksで利用可能に #
投稿日: 2025年11月23日
何ができるようになったのか #
Amazon SageMakerがAmazon Athena for Apache Sparkをサポートし、新しいノートブック体験と高速なサーバーレスSpark体験を統合されたワークスペース内で提供するようになりました。これにより、データエンジニア、アナリスト、データサイエンティストは、インフラ管理なしで、データクエリ、Pythonコードの実行、ジョブ開発、モデルトレーニング、データ可視化、AI連携をすべて一箇所で行うことができます。
Athena for Apache Sparkは、インタラクティブなクエリからペタバイト規模のジョブまで、あらゆるワークロードを秒単位でスケーリングします。Spark 3.5.6で動作し、Apache IcebergやDelta Lakeを含むオープンテーブルフォーマットに最適化されています。また、新しいデバッグ機能、Spark UIでのリアルタイムモニタリング、Spark Connectを介したセキュアなインタラクティブクラスター通信を提供します。データ操作時には、AWS Lake Formationで定義されたテーブルレベルのアクセスコントロールが適用されます。
何が嬉しいのか #
統一されたワークスペースで、データ関連の多様なタスク(クエリ、開発、トレーニング、可視化、AI連携)を効率的かつシームレスに実行できるようになります。インフラ管理の負担がなくなり、秒単位の課金でコスト効率も向上します。高性能なSparkエンジンとオープンテーブルフォーマットの最適化により、大規模データ処理が高速化され、新しいデバッグ機能やリアルタイムモニタリングによって開発・運用が容易になります。さらに、AWS Lake Formationとの連携により、データアクセスがセキュアに管理され、コンプライアンス要件を満たしやすくなります。
これまでとどう変わるのか #
- これまで: データクエリ、Sparkジョブの実行、SageMakerノートブックでの機械学習モデル開発といった作業が、それぞれ異なるツールや環境で行われることが多く、インフラの管理が必要な場合もありました。
- これから: Amazon SageMakerノートブック内でAmazon Athena for Apache Sparkを直接利用することで、データクエリからモデルトレーニング、AI連携までの一連のワークフローを、サーバーレス環境でシームレスに実行できるようになります。
具体的なユースケース #
- データエンジニアが、Amazon S3に保存された大規模なデータセットに対してインタラクティブなクエリを実行し、ETL(Extract, Transform, Load)ジョブを開発・実行する。
- データサイエンティストが、SageMakerノートブック内で直接Sparkを利用してデータの前処理、特徴量エンジニアリング、機械学習モデルのトレーニングを行う。
- ビジネスアナリストが、Sparkでデータを集計・分析し、その結果を可視化ツールやAIアプリケーションに連携させてインサイトを得る。
Apache Sparkは「大規模データ処理のためのオープンソースの分散処理フレームワーク」です。 Amazon SageMakerは「機械学習モデルの構築、トレーニング、デプロイを支援するフルマネージドサービス」です。 Amazon Athenaは「標準SQLを使用してAmazon S3内のデータを直接分析できるインタラクティブなクエリサービス」です。 AWS Lake Formationは「データレイクの構築、セキュリティ、管理を簡素化するサービス」です。 主な特徴は以下の通りです。
- Spark 3.5.6のサポート
- Apache IcebergおよびDelta Lakeなどのオープンテーブルフォーマットに最適化
- 新しいデバッグ機能とSpark UIでのリアルタイムモニタリング
- Spark Connectを介したセキュアなインタラクティブクラスター通信
- AWS Lake Formationによるテーブルレベルのアクセスコントロール適用
Amazon SageMaker Data Agentの導入:分析およびAI/ML開発を加速 #
投稿日: 2025年11月23日
何ができるようになったのか #
Amazon SageMakerに、データ分析および機械学習(ML)アプリケーションの開発を加速する組み込みAIエージェント「SageMaker Data Agent」が導入されました。SageMaker Data Agentは、Amazon SageMaker Unified Studioの新しいノートブックエクスペリエンスで利用可能です。
何が嬉しいのか #
データエンジニア、アナリスト、データサイエンティストが、分析およびMLアプリケーションの構築時に手動のセットアップタスクや定型コードに費やす時間を大幅に削減できます。このエージェントは自然言語プロンプトからコードと実行計画を生成し、データカタログやビジネスメタデータと統合することで、開発プロセスを効率化します。
これまでとどう変わるのか #
- これまで: データエンジニア、アナリスト、データサイエンティストは、分析およびMLアプリケーションの構築において、手動のセットアップタスクや定型コードに多くの時間を費やしていました。複雑な分析やMLタスクは、手動で管理可能なステップに分解する必要がありました。
- これから: SageMaker Data Agentが自然言語プロンプトからコードと実行計画を生成し、開発プロセスを効率化します。複雑なタスクを管理可能なステップに分解し、詳細な実行計画を作成し、必要なSQLおよびPythonコードを生成します。ノートブックのコンテキスト(利用可能なデータソースやカタログ情報を含む)を認識し、データ変換、統計分析、モデル開発などの一般的なタスクを加速します。
具体的なユースケース #
- 自然言語で目的を記述し、データ変換、統計分析、モデル開発のための実行計画とSQL/Pythonコードを生成する。
Amazon SageMakerへの既存データセットのワンクリックオンボーディング導入 #
投稿日: 2025年11月23日
何ができるようになったのか #
Amazon SageMaker Unified Studioに既存のAWSデータセットをワンクリックでオンボーディングできるようになりました。これにより、既存のAWS Identity and Access Management (IAM) ロールと権限を使用して、数分でデータ作業を開始できます。SQL、Python、Spark、または自然言語をサポートする組み込みAIエージェント付きの新しいサーバーレスノートブックを使用して、データにアクセスできます。
何が嬉しいのか #
データエンジニア、アナリスト、データサイエンティストは、既存のデータセットをSageMaker Unified Studioに迅速に統合し、SQLクエリとコードの両方を開発・実行するための単一の高性能インターフェースを利用できます。これにより、データ作業の開始が加速され、生産性が向上します。
これまでとどう変わるのか #
- これまで: 既存のAWSデータセットをSageMakerで利用するには、手動での設定や統合作業が必要でした。
- これから: Amazon SageMaker、Amazon Athena、Amazon Redshift、Amazon S3 Tablesのコンソールページから直接「Get started」をクリックするだけで、既存のデータセットをSageMaker Unified Studioにワンクリックでオンボーディングできます。
具体的なユースケース #
- データエンジニアがAmazon S3に保存されている既存のデータレイクのデータを、SageMaker Unified Studioで即座に分析・処理を開始する。
- データサイエンティストがAmazon AthenaやAmazon Redshiftに格納されたデータに対して、サーバーレスノートブックと組み込みAIエージェントを使用して、SQLクエリやPythonコードで機械学習モデルの開発を行う。
- 既存のAWS Glue Data Catalog、AWS Lake Formation、Amazon S3のデータ権限を自動的に引き継ぎ、セキュリティを維持しながらデータアクセスを簡素化する。
Amazon SageMakerは「Amazon SageMaker」の略です。 機械学習モデルの構築、トレーニング、デプロイをエンドツーエンドでサポートするフルマネージドサービスです。 主な特徴は以下の通りです。
- 統合開発環境 (SageMaker Studio)
- 様々なデータソースとの連携
- 組み込みアルゴリズムとフレームワークのサポート
- モデルのデプロイと監視
AWS GlueがAmazon DynamoDBコネクタとSpark DataFrameサポートを開始 #
投稿日: 2025年11月23日
何ができるようになったのか #
AWS Glueは、Apache Spark DataFrameとネイティブに連携する新しいAmazon DynamoDBコネクタのサポートを開始しました。これにより、Spark開発者はSpark DataFrameを直接操作し、AWS Glue、Amazon EMR、およびその他のSpark環境間でコードを容易に共有できるようになります。
何が嬉しいのか #
開発者は既存のSpark DataFrameコードを最小限の変更で再利用できます。これにより、ジョブのAWS Glueへの移行が効率化され、データパイプラインの開発が簡素化されます。また、Spark DataFrameの全操作と最新のパフォーマンス最適化を利用できるようになります。
これまでとどう変わるのか #
- これまで: AWS GlueでDynamoDBデータを扱う開発者は、Glue固有のDynamicFrameオブジェクトを使用する必要がありました。
- これから: 既存のSpark DataFrameコードを最小限の変更で再利用できるようになります。
具体的なユースケース #
- 既存のSpark DataFrameベースのデータパイプラインをAWS Glueに移行し、DynamoDBデータを効率的に処理する際。
Amazon SageMakerでAIエージェント内蔵ノートブックを発表 #
投稿日: 2025年11月23日
何ができるようになったのか #
Amazon SageMakerは、データおよびAIチーム向けに、分析および機械学習(ML)ジョブ用の高性能なサーバーレスプログラミング環境を提供する新しいノートブックエクスペリエンスを導入しました。これにより、データ処理インフラストラクチャを事前にプロビジョニングすることなく、迅速にデータ作業を開始できます。この新しいノートブックは、データエンジニア、アナリスト、データサイエンティストがSQLクエリの実行、Pythonコードの実行、大規模データジョブの処理、MLワークロードの実行、視覚化の作成を1か所で行えるようにします。内蔵のAIエージェントは、自然言語プロンプトからコードやSQLステートメントを生成することで開発を加速し、ユーザーのタスクをガイドします。このノートブックは、Amazon Athena for Apache Sparkによって支えられており、インタラクティブなSQLクエリからペタバイト規模のデータ処理までスケーリングする高性能な結果を提供します。Amazon SageMaker Unified Studioの新しいワンクリックオンボーディングエクスペリエンスで利用可能です。
何が嬉しいのか #
AIエージェントが開発を加速します。 ワークロードに応じて異なるツールを切り替える必要がなくなります。 インタラクティブなSQLクエリからペタバイト規模のデータ処理までスケーリングする、高性能な結果が得られます。
これまでとどう変わるのか #
- これまで: データ処理インフラストラクチャの事前プロビジョニングが必要で、SQL、Python、MLなどのタスクに応じて複数のツールを切り替える必要がありました。
- これから: 高性能なサーバーレスノートブックが利用でき、内蔵AIエージェントがコード生成を支援します。SQL、Python、ML、視覚化を統合されたワークスペースで実行でき、Amazon Athena for Apache Sparkによる大規模データ処理が可能です。
具体的なユースケース #
- SQLクエリからデータ探索を開始する。
- Pythonを使用して高度な分析を実行したり、MLモデルを構築する。
- 内蔵AIエージェントを使用して自然言語プロンプトからコードを自動生成する。