浏览器如何解析 HTML？

译自 HTML parsing。

浏览器渲染引擎从网络层取得请求的文档，一般情况下文档会分成 8KB 大小的分块传输。

HTML 解析器的主要工作是对 HTML 文档进行解析，生成解析树。

解析树是以 DOM 元素以及属性为节点的树。DOM 是**文档对象模型（Document Object Model）**的缩写，它是 HTML 文档的对象表示，同时也是 HTML 元素面向外部（如 JavaScript）的接口。树的根部是 Document 对象。整个 DOM 和 HTML 文档几乎是一对一的关系。

解析算法：

HTML 不能使用常见的自顶向下或自底向上方法来进行分析。主要原因有以下几点:

语言本身的“宽容”特性
HTML 本身可能是残缺的，对于常见的残缺，浏览器需要有传统的容错机制来支持它们
解析过程需要反复。对于其他语言来说，源码不会在解析过程中发生变化，但是对于 HTML 来说，动态代码，例如脚本元素中包含的 document.write() 方法会在源码中添加内容，也就是说，解析过程实际上会改变输入的内容

由于不能使用常用的解析技术，浏览器创造了专门用于解析 HTML 的解析器。解析算法在 HTML5 标准规范中有详细介绍，算法主要包含了两个阶段：标记化（tokenization）和树的构建。

解析结束之后：

浏览器开始加载网页的外部资源（CSS，图像，JavaScript 文件等）。

此时浏览器把文档标记为可交互的（interactive），浏览器开始解析处于推迟（deferred）模式的脚本，也就是那些需要在文档解析完毕之后再执行的脚本。之后文档的状态会变为完成（complete），浏览器会触发**加载（load）**事件。

注意解析 HTML 网页时永远不会出现**无效语法（Invalid Syntax）**错误，浏览器会修复所有错误内容，然后继续解析。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

浏览器如何解析 HTML？.md

浏览器如何解析 HTML？.md

浏览器如何解析 HTML？

Files

浏览器如何解析 HTML？.md

Latest commit

History

浏览器如何解析 HTML？.md

File metadata and controls

浏览器如何解析 HTML？