2012年11月28日T1
Amazon Redshift 発表 ── クラウド DWH 時代の幕開け
AWS が re:Invent 2012 で Amazon Redshift を発表(GA は 2013 年 2 月)。 ParAccel 社の MPP 技術をベースにしたカラム指向の分析データウェアハウスで、 ペタバイト級のクエリを Teradata・Netezza・Oracle Exadata 等の従来オンプレ DWH の約 1/10 のコストで提供することを売り文句にした。 「DWH は専用ハードを買って構築する」という前提を覆し、 BigQuery(2010 年 GA)と並んで「クラウド DWH」というカテゴリを成立させ、 後の Snowflake・Databricks による解体・再構築へと続く流れの起点となる。
メタデータ
- 日付
- 2012年11月28日
- 年代
- 2010s
- Tier
- T1
- 参照年表
- データベースの歴史
- 出典数
- 04
- 関連項目
- 00
Amazon Redshift 発表 ── クラウド DWH 時代の幕開け
2012年11月28日、 ラスベガスで開催された AWS の年次カンファレンス re:Invent の初回開催で、 Andy Jassy(当時 AWS シニアバイスプレジデント、 後の Amazon CEO) は新サービスを発表した。 名前は Amazon Redshift ── ペタバイト級の分析を「Teradata の 1/10 のコスト」で提供すると謳う、 クラウド ネイティブのデータウェアハウス(DWH) である。
データ分析という、 オンプレ専用機ベンダーが王者として君臨していた領域に、 クラウドが本格進出した瞬間だった。
2012 年の DWH 業界 ── 高価な専用機の寡占
2010 年代初頭の DWH 市場は、 専用ハードウェアを売る数社の寡占だった。 Teradata が最大手、 Netezza(2010 年 IBM が買収)、 Greenplum(2010 年 EMC が買収)、 Vertica(2011 年 HP が買収)、 そして Oracle Exadata。
これらの DWH に共通するのは、 MPP(Massively Parallel Processing)アーキテクチャ と カラム指向ストレージ だった。 MPP はクエリを多数のノードに分散実行する仕組み。 カラム指向は、 行ではなく列単位でデータを格納することで分析クエリ(GROUP BY、 集計、 範囲スキャン) の I/O を 1/10 以下に削減する。
ただし、 これらは「1 ラック数億円、 設置工事数ヶ月、 運用 DBA 数人」というオンプレ前提の重量級ハードウェアだった。 「分析したいデータ量が増えるたびに、 ラックを追加発注して半年待つ」 ── これが当時の DWH の常識だった。
ParAccel の買収(ライセンス契約)と Redshift の誕生
AWS は 2010 年頃から、 内部で DWH サービスの構築を検討していた。 ベースとして選んだのは、 カリフォルニアの DWH ベンダー ParAccel の MPP・カラム指向技術である。 ParAccel は PostgreSQL 8.0 をフォークしてカラム指向化と並列実行エンジンを乗せた製品 PADB を持っていた。
2011 年、 AWS は ParAccel にライセンス料と少額の出資を払い、 技術を取り込んだ。 ParAccel のコードを Amazon の S3・EC2・VPC インフラに統合し、 マネージドサービスとしてラッピング ── これが Redshift である。 PostgreSQL 8.0 互換の SQL を喋るので、 既存の psql・ODBC/JDBC ドライバ・BI ツール(Tableau、 Looker) がそのまま接続できた。
2012 年 11 月 28 日 ── re:Invent での発表
re:Invent 2012 は AWS が初めて開催した自社カンファレンスで、 約 6000 人が集まった。 そこで発表された Redshift のプレビュー版は、 業界に衝撃を与える価格を提示した ── 1 TB あたり 1000 ドル/年。
当時の Teradata 等の DWH は、 同じ 1 TB を保持するのに数十万ドル規模のハードウェアが必要だった。 加えて電力・冷却・データセンター スペース・DBA の人件費。 すべて込みで比較すると、 Redshift は 既存 DWH の約 1/10 のコスト を実現していた。
加えてクラウドネイティブの利点 ── 数クリックでクラスタを起動できる、 ノード数を後から増減できる、 ストレージは S3 にバックアップされる、 物理機材の購入も設置工事も不要。 2013 年 2 月に General Availability(GA) となり、 一般顧客にも開放された。
「クラウド DWH」というカテゴリの誕生
Redshift は単独のプロダクトという以上に、 「クラウド DWH」 という新しいカテゴリを成立させたことに意味がある。 同じタイミングで、 Google は 2010 年に BigQuery(Dremel の商用化、 サーバーレス・ストレージとコンピュート分離) を GA、 Microsoft は 2014 年に Azure SQL Data Warehouse(後の Synapse Analytics) を投入。
クラウド 3 社の DWH 競争は、 オンプレ DWH ベンダーの地殻変動を引き起こす。 Teradata の株価は 2014 年から 2020 年にかけて約 70% 下落、 Netezza は 2019 年に IBM が販売停止、 Greenplum・Vertica もエンタープライズ ニッチに後退する。
Redshift の進化 ── 2017 年以降
初期の Redshift は「ストレージとコンピュートが結合した」アーキテクチャで、 容量を増やすにはノードを追加する必要があった。 これは Snowflake(2014 年 GA) がストレージとコンピュートを分離する設計で攻撃するポイントとなる。
AWS は対抗して 2017 年に Redshift Spectrum ── S3 上のデータを直接クエリする機能 ── を、 2019 年に RA3 ノード(Managed Storage、 ストレージとコンピュートを実質分離) を、 2021 年に Redshift Serverless を投入。 Snowflake の設計思想を取り込みながら、 AWS エコシステムとの統合という強みで戦い続けている。
2024 年現在、 Redshift・Snowflake・BigQuery の三強が「クラウド DWH」市場を分け合っている。 オンプレ DWH の旗手だった Teradata も VantageCloud としてクラウド化を進めるが、 主役は完全にクラウド側に移った。
2012 年 11 月 28 日が意味するもの
Amazon Redshift の発表は、 「DWH を買う」から「DWH を時間借りする」への転換点 だった。 数十年間「専用ハードを買って、 半年待って、 DBA を雇って稼働させる」というモデルで動いていた業界が、 「クレジットカードを登録して、 10 分後にクエリを投げ始める」モデルへと変わった。
そして数年後、 同じクラウド ネイティブの土台の上で、 Snowflake がストレージとコンピュートを完全分離するアーキテクチャを掲げて Redshift を追い上げる ── クラウド DWH の進化は、 Redshift が開いたこの扉から始まった。