一、理解数据源:结构化的混乱
在开始编写提取代码之前,我们必须理解携程页面数据的构成。现代网页大量使用JavaScript动态渲染,数据通常以JSON格式直接嵌入在HTML中,而非简单的静态文本。
- 价格信息:通常不在静态HTML里,而是通过AJAX请求从后端API获取的一个JSON数据包。这个数据包结构复杂,包含原价、现价、折扣、房型、是否含早餐等大量信息。
- 评分与评论摘要:如总评分、分项评分(位置、卫生、服务、设施)、评论总数等,常以嵌套的JSON对象形式存在于页面的
一、理解数据源:结构化的混乱
在开始编写提取代码之前,我们必须理解携程页面数据的构成。现代网页大量使用JavaScript动态渲染,数据通常以JSON格式直接嵌入在HTML中,而非简单的静态文本。