Tagged

BERT

Oct 21, 2025 NLP 14 min read

BERT 如何让双向预训练成为 NLP 的默认范式：从架构到 80/10/10 掩码规则，到微调技巧，再到 RoBERTa/ALBERT/ELECTRA 全家桶，并附完整 HuggingFace 代码。

May 7, 2025 Transfer Learning 14 min read

预训练如何从无标注数据中学到强大的先验，微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA，以及一个工业级 BERT 微调实现。