BERT 公開 ── Transformer 双方向事前学習が NLP を塗り替える

Name: BERT 公開 ── Transformer 双方向事前学習
Start: 2018-10-11

2018年10月11日、 Google AI の Jacob Devlin らが論文「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」を arXiv に投稿した（arXiv:1810.04805）。

公開と同時に、 11種類の自然言語処理タスクで一斉に最高記録を更新。 GLUE スコアは 80.5%（+7.7 ポイント）、 SQuAD v1.1 の F1 は 93.2（人間の 91.2 を上回る）、 SQuAD v2.0 の F1 は 83.1（+5.1 ポイント）。 NLP のリーダーボードが一夜にして書き換わった。

BERT の中身

BERT（Bidirectional Encoder Representations from Transformers）は、 2017年の Transformer 論文（Vaswani et al.）から派生した、 エンコーダのみ のモデル。つまり、入力文をベクトル表現に変換することに特化している。

主な技術的貢献は二つ。

1. 双方向の事前学習。同時期に登場していた GPT は左から右への自己回帰モデル（次の単語を予測する）で、ある単語を処理するとき右側の文脈を見られなかった。 BERT は マスクド言語モデル（MLM） を採用 ── 入力文の15%程度の単語を [MASK] トークンで隠し、周囲の文脈から元の単語を推定する。結果、各単語が左右両方の文脈に同時にアクセスできる。

2. 「事前学習＋ファインチューニング」のパラダイム。 BookCorpus（8億語）と英語版 Wikipedia（25億語）で大規模に事前学習しておき、個別タスク（質問応答、感情分析、文書分類など）には軽い微調整を加えるだけで済む。タスク専用アーキテクチャを設計する時代が終わった。

モデルサイズは2種類。 BERT-Base（110M パラメータ、 12層）と BERT-Large（340M パラメータ、 24層）。当時としては巨大だったが、 GPT-3（175B）に比べれば三桁小さい。

業界の反応

論文公開から1ヶ月後の2018年11月、 Google は事前学習済みモデルと TensorFlow コードを GitHub で公開した。オープンソース化により、研究者・企業が自社データで微調整できるようになり、 NLP の現場が一気に動いた。

直後に派生モデルが続々と登場 ── RoBERTa（Facebook、 2019年7月、訓練レシピ改善）、 DistilBERT（Hugging Face、 2019年10月、サイズ40%減・速度60%増）、 ALBERT（Google、 2019年9月、パラメータ共有で軽量化）、 XLNet、 ELECTRA、さらに多言語版 mBERT、日本語版、医療版 BioBERT、法律版 LegalBERT …。「BERT 系」が NLP 研究の標準語彙になった。

Google Search への統合

2019年10月、 Google は BERT を検索エンジンに本番投入したと発表した。当初は英語クエリの約 10%（1日あたり約5.6億クエリ）に影響。「Google が過去5年で行った検索アルゴリズム最大の更新」と Google 自身が位置づけた。 12月には70言語に拡大。 1年後にはほぼすべての英語クエリで BERT が使われていた。

「research → production まで1年」という速度は、当時としては破格だった。 NLP の学術成果が、数十億人が毎日使うサービスに直接落ちる経路が示された。

なぜ画期的だったか

BERT 以前の NLP は、タスクごとに専用モデルを設計・訓練するのが当たり前だった。翻訳には Seq2Seq、質問応答には別の構造、感情分析にはまた別 ── という具合に。

BERT が示したのは、 「大規模な汎用モデルを一度訓練し、軽い微調整で何にでも使える」 という設計思想。これは現代のあらゆる LLM（GPT-3、 ChatGPT、 Claude、 Gemini）の基盤的アイデアであり、 2018年の時点で確立された。

GPT（OpenAI）と BERT（Google）の対比も象徴的だった ── GPT は デコーダのみ（生成に強い）、 BERT は エンコーダのみ（理解に強い）。両者はその後、 T5、 BART などのエンコーダ・デコーダ型を経て、最終的に GPT 系の デコーダのみ＋スケール拡大 が主流になっていく。だが2018-2022年の NLP は、間違いなく BERT 系が主役だった。

何が残ったか

BERT の論文は2026年現在、引用数 10万件超。単一論文としては機械学習史上トップクラスの被引用数。

技術的には、 ChatGPT（2022年11月）以降の生成モデル全盛で BERT 系の存在感は相対的に下がった。しかし、「事前学習＋ファインチューニング」「Transformer ベースの汎用言語モデル」「オープン重みで研究コミュニティ全体を加速させる」 ── これら現代 AI の前提は、すべて BERT が2018年に敷いたレールの上にある。

ChatGPT が世間を驚かせる4年前に、 NLP の研究現場では既にパラダイムが切り替わっていた。 BERT はその切り替えの瞬間そのものだった。

BERT 公開 ── Transformer 双方向事前学習

メタデータ