2018年10月T1
BERT 公開 ── Transformer 双方向事前学習
Google AI の Jacob Devlin らが、Transformer エンコーダを双方向にマスクド言語モデルとして事前学習する手法 BERT(Bidirectional Encoder Representations from Transformers)を arXiv に投稿。GLUE などの自然言語処理ベンチマークを一斉に塗り替え、「事前学習+ファインチューニング」という現代 LLM のパラダイムを確立した。GPT 系(左→右の自己回帰)とともに、Transformer 系言語モデルの二大潮流を成す。

BERT 公開 ── Transformer 双方向事前学習が NLP を塗り替える
2018年10月11日、 Google AI の Jacob Devlin らが論文「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」を arXiv に投稿した(arXiv:1810.04805)。
公開と同時に、 11種類の自然言語処理タスクで一斉に最高記録を更新。 GLUE スコアは 80.5%(+7.7 ポイント)、 SQuAD v1.1 の F1 は 93.2(人間の 91.2 を上回る)、 SQuAD v2.0 の F1 は 83.1(+5.1 ポイント)。 NLP のリーダーボードが一夜にして書き換わった。
BERT の中身
BERT(Bidirectional Encoder Representations from Transformers)は、 2017年の Transformer 論文(Vaswani et al.)から派生した、 エンコーダのみ のモデル。 つまり、 入力文をベクトル表現に変換することに特化している。
主な技術的貢献は二つ。
1. 双方向の事前学習。 同時期に登場していた GPT は左から右への自己回帰モデル(次の単語を予測する)で、 ある単語を処理するとき右側の文脈を見られなかった。 BERT は マスクド言語モデル(MLM) を採用 ── 入力文の15%程度の単語を [MASK] トークンで隠し、 周囲の文脈から元の単語を推定する。 結果、 各単語が左右両方の文脈に同時にアクセスできる。
2. 「事前学習+ファインチューニング」のパラダイム。 BookCorpus(8億語)と英語版 Wikipedia(25億語)で大規模に事前学習しておき、 個別タスク(質問応答、 感情分析、 文書分類など)には軽い微調整を加えるだけで済む。 タスク専用アーキテクチャを設計する時代が終わった。
モデルサイズは2種類。 BERT-Base(110M パラメータ、 12層)と BERT-Large(340M パラメータ、 24層)。 当時としては巨大だったが、 GPT-3(175B)に比べれば三桁小さい。
業界の反応
論文公開から1ヶ月後の2018年11月、 Google は事前学習済みモデルと TensorFlow コードを GitHub で公開した。 オープンソース化により、 研究者・企業が自社データで微調整できるようになり、 NLP の現場が一気に動いた。
直後に派生モデルが続々と登場 ── RoBERTa(Facebook、 2019年7月、 訓練レシピ改善)、 DistilBERT(Hugging Face、 2019年10月、 サイズ40%減・速度60%増)、 ALBERT(Google、 2019年9月、 パラメータ共有で軽量化)、 XLNet、 ELECTRA、 さらに多言語版 mBERT、 日本語版、 医療版 BioBERT、 法律版 LegalBERT …。 「BERT 系」が NLP 研究の標準語彙になった。
Google Search への統合
2019年10月、 Google は BERT を検索エンジンに本番投入したと発表した。 当初は英語クエリの約 10%(1日あたり約5.6億クエリ)に影響。 「Google が過去5年で行った検索アルゴリズム最大の更新」と Google 自身が位置づけた。 12月には70言語に拡大。 1年後にはほぼすべての英語クエリで BERT が使われていた。
「research → production まで1年」という速度は、 当時としては破格だった。 NLP の学術成果が、 数十億人が毎日使うサービスに直接落ちる経路が示された。
なぜ画期的だったか
BERT 以前の NLP は、 タスクごとに専用モデルを設計・訓練するのが当たり前だった。 翻訳には Seq2Seq、 質問応答には別の構造、 感情分析にはまた別 ── という具合に。
BERT が示したのは、 「大規模な汎用モデルを一度訓練し、 軽い微調整で何にでも使える」 という設計思想。 これは現代のあらゆる LLM(GPT-3、 ChatGPT、 Claude、 Gemini)の基盤的アイデアであり、 2018年の時点で確立された。
GPT(OpenAI)と BERT(Google)の対比も象徴的だった ── GPT は デコーダのみ(生成に強い)、 BERT は エンコーダのみ(理解に強い)。 両者はその後、 T5、 BART などのエンコーダ・デコーダ型を経て、 最終的に GPT 系の デコーダのみ+スケール拡大 が主流になっていく。 だが2018-2022年の NLP は、 間違いなく BERT 系が主役だった。
何が残ったか
BERT の論文は2026年現在、 引用数 10万件超。 単一論文としては機械学習史上トップクラスの被引用数。
技術的には、 ChatGPT(2022年11月)以降の生成モデル全盛で BERT 系の存在感は相対的に下がった。 しかし、 「事前学習+ファインチューニング」「Transformer ベースの汎用言語モデル」「オープン重みで研究コミュニティ全体を加速させる」 ── これら現代 AI の前提は、 すべて BERT が2018年に敷いたレールの上にある。
ChatGPT が世間を驚かせる4年前に、 NLP の研究現場では既にパラダイムが切り替わっていた。 BERT はその切り替えの瞬間そのものだった。