基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

简介: 基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

  • 项目构成
    • 本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:
    • news_spider:基于scrapy的游记采集脚本
    • event_graph:基于依存句法与顺承模式的顺承事件抽取脚
    • image:游记顺承事件图谱效果图

1.出行领域语料的获取

1) 语料来源:携程出行攻略
2) 时间范围:2018年7月14日之前
3) 采集方式:使用scrapy编写爬虫脚本进行抓取
4) 采集规模:共采集505767篇,量级50W  
5) 采集脚本目录:news_spider/travelspider
6) 语料举例:

        107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】
        107331 彩云之南—云上的蜜月之旅 - 丽江游记攻略【携程攻略】
        107332 甘肃游记之玛曲郎木寺 - 碌曲游记攻略【携程攻略】
        107333 拍客白沙行 - 舟山游记攻略【携程攻略】
        107334 九华山-沐浴在佛恩下的XXX - 九华山游记攻略【携程攻略】
        107335 垦丁夏季活动 - 垦丁游记攻略【携程攻略】
        107336 行走在台湾(向隅版)---世外桃源之我们的家(九份民宿) - 九份游记攻略【携程攻略】
        107337 卫赛节马来西亚行 - 马六甲州游记攻略【携程攻略】
        107338 蓝天下的嘉峪关 - 嘉峪关游记攻略【携程攻略】
        107339 人生一定要登一次雪山---都日峰 - 四川游记攻略【携程攻略】
        107340 八月,青海湖不远 - 海北游记攻略【携程攻略】
        107341 #冬季北京# 帝都极冷天去首富的酒店避避寒 - 北京游记攻略【携程攻略】
        107342 圣地西藏 - 青海湖游记攻略【携程攻略】
        107343 孩子,妈妈想让你见识更多的繁华世界 - 深圳游记攻略【携程攻略】
        107344 顶级奢华,舍我其谁! - 澳门游记攻略【携程攻略】
        107345 旅行、不需要走远!美景就在身边 - 江门游记攻略【携程攻略】
        107346 安安静静,不言不语都是好风景 - 厦门游记攻略【携程攻略】
        107347 邂逅则天故里 行走美丽利州 体验师带你看中国女儿节 - 广元游记攻略【携程攻略】
        107348 台湾,可以这样玩--15日环岛自由行全记录 - 台北游记攻略【携程攻略】
        107349 让我记忆深刻的厦门--详细版 - 厦门游记攻略【携程攻略】
        107350 上海地鐵站 - 上海游记攻略【携程攻略】
        107351 逃离雾霾,带着“马拉多纳”去腾冲 - 腾冲游记攻略【携程攻略】
        107352 在我心上用力地开一 - 四川游记攻略【携程攻略】
        107353 冬季到鄱阳湖边的余干县看鸟,多张美图记录环湖游全过程 - 余干游记攻略【携程攻略】
        107354 2014.十一沈阳,本溪老边沟,枫叶大道,丹东,不走重复路,古迹,景色5日穷游 - 沈阳游记攻略【携程攻略】
        107355 库不齐老牛湾之户外行走 - 库布齐沙漠游记攻略【携程攻略】

2.基于出行语料的顺承事件图谱构建

2.1, 顺承事件的抽取

  • event_extract.py, 思想步骤如下:
    1) 输入游记文本
    2) 对游记进行长句切分
    3) 基于构造的顺承关系模板,进行顺承前后部分提取, 转入4)
    4) 对3)得到的部分进行短句处理,转入5)
    5) 对4)得到的短句进行谓词性短语提取
    6) 对5)得到的谓词性短语向上汇聚,得到一个长句的谓词性短语有序集合
    7) 对6)步骤得到的谓词性短语集合,以滑窗方式构造顺承关系事件对
    8) 对步骤7)得到的顺承事件对进行汇总,最终得到顺承事件库
    9) 对8)进行事件进行整合,去除过低频次的事件,构造标准顺承关系库

2.2, 顺承事件图谱的展示

10)使用VIS插件进行顺承关系图谱构建与展示, event_graph.py
11)由于VIS作为一个封装的JS库,因此生成的顺承图谱在项目中暂时设置到500,见travel_event_graph.html

3.顺承关系图谱效果

3.1 总体图谱样式

以500个顺承事件, 进行顺承事件图谱展示,结果是一张事件网络,这是一个大的顺承关系图谱,由众多小子图谱构成

3.2 去丽江子图谱

该子图谱围绕"去丽江旅游"这一出行事件为核心形成的事件群:

3.3飞机路线子图谱

该子图谱显示了选择飞机进行出行形成的事件序列

3.4火车路线子图谱

该子图谱显示了选择火车进行出行形成的事件序列

3.5订酒店事件图谱

该子图谱描述了一个"预定酒店不愉快事件",从预定到失望到总结,在这条顺承事件链表现出来

3.6做饭事件图谱

该子图谱表示了一个"做饭"场景下的顺承事件,感觉也很有意思

4.总结

1) 该项目只是一个基于50W文章领域语料,运用简单提取方式形成的顺承关系图谱demo,还有很多不足
2) 该项目目前是形成了事件节点为326781个, 顺承事件对为543580条,分别为30W和50W的图谱规模
3) 对于谓词性短语进行事件表示是事件表示的一种方式,本方法只采用VOB关系进行提取,这种方式还有待改进
4) 以3)得到的结果中,还存在大量噪声,这一方面准确率受依存句法的准确性限制,另一方面该依存关系可能还相对单一,不够准确
5) 在构造顺承事件序列的方法,本项目采用的是长句为单位下的滑窗方式进行构造,这个方式还有待改进
6) 基于目前形成的顺承关系图谱还有待于进一步挖掘,可以在此基础上完成更多有价值的信息挖掘

项目码源链接

链接跳转

相关文章
|
4月前
|
搜索推荐 API 定位技术
解锁携程美食与景点数据接口:打造个性化旅行体验的秘密武器
携程API助您探索旅游信息,虽无专门“美食列表”接口,但可通过景点详情接口获取周边美食推荐。结合地图或餐饮API,丰富美食数据一手掌握。景点列表接口帮助搜索景点详情,包括名称、位置等。使用流程包括注册账号、获取密钥、构造请求及解析响应数据。记得查阅最新文档,确保合规使用。体验API:[链接]。
|
新零售 运维 供应链
案例酷丨良品铺子:披上全渠道整合数据机甲,开辟零食海域新航路
编者按: 诗人萧伯纳曾经说过,任何一种爱都不比对美食的热爱真切。而休闲零食的高频、刚需决定了它植根于生活,带着人间烟火气,成为一个能够给消费者幸福感的品类。在休闲零食领域,良品铺子是一个特殊的存在。它的企业使命是:提供高品质食品,用美味感动世界,何尝不是一种对全世界的深情。 本文约7693字,建议阅读时间20分钟。
2269 0
|
人工智能 搜索推荐 数据挖掘
情人节酒店数据分析:ChatGPT 揭示的爱情商机
情人节酒店数据分析:ChatGPT 揭示的爱情商机
|
开发框架 Rust 安全
Stepn跑鞋趣步跑步运动系统开发(开发逻辑)丨Stepn跑鞋链游项目系统开发(详情及玩法)/成熟技术/源码版
在DApp开发中,智能合约是不可或缺的一部分。智能合约通常使用Solidity语言编写,并且运行在以太坊或其他区块链平台上。在智能合约中,开发人员可以编写代码来定义合约的逻辑和执行流程。智能合约的执行是通过区块链网络的节点共识机制来完成的,保证了其不可篡改性和安全性。
|
双11 开发者
阿里云手办云小宝A计划完成5个任务收集手办组装件带回家
阿里云全网首推云小宝手办,完成5个任务即可带回家,限量3000个云小宝手办,阿小云来说下云小宝领取攻略
1269 0
阿里云手办云小宝A计划完成5个任务收集手办组装件带回家
|
机器学习/深度学习 数据采集 自然语言处理
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?
小叽导读:买家评价是消费者购物后对商品的真实反馈。多数买家评价中包含了“消费者常问问题”的回答。比如冰箱,大家可能关心“声音大吗?”、“耗电吗?”、“容量大不大?”,这些问题通常可以在评论区找到其他消费者的使用反馈。这部分信息能够有效地帮助消费者购买到心仪的产品,那么,如何让这些评论匹配到不同人的需求?接下来, 天猫的“大家最关心”告诉你答案。
1433 0
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?
「镁客·请讲」观远数据苏春园:“人、货、场”之外还需有“脑”,打通各环节让决策更智能
苏春园表示,过去的实体零售是“粗放”状态,它们需要学会用数据“精耕细作”。
727 0
|
大数据
零售数据观(一):如何花30分钟成为一个标签设计“达人”
作者简介:铁叫兽,10年+数据相关经验,曾在电信、阿里从事过DBA,数仓,解决方案,目前从事零售行业的解决方案。 序言:是否碰到大量的人力投入基于流程管理的信息化系统建设,也运行了好几年了,同时大数据也热了好几年了,但企业IT部门还是无从下手,既不确信大数据是否可以真的带来业务价值也不清楚从哪着手更容易推动大数据项目落地,本文就是通过“标签”,一种基于具体业务场景但同时又是业务人员看的懂的数据的方式,帮助企业从点做起,循序渐进,让大数据真正落地。
|
算法 定位技术 数据安全/隐私保护
全面解读流程图|附共享单车摩拜ofo案例分析
梗概 对于任何产品设计来说,构建流程都是一个绕不开的环节。其奠定了后续的产品框架,是用户体验的基石。
1807 0