据中研产业研究院《2020-2025年中国物流行业全景调研与发展战略研究咨询报告》显示: 我国快递行业迈入成长期,同时国内网络购物逐渐普及,线上零售业务快速发展带动电商快递服务需求提升,快递行业空间不断加大,业务总量显著提升。2009年至2019年,我国规模以上快递业务量从 18.58 亿件增长至 635.20 亿件,年复合增长率42.36%。 根据《2019 年中国快递发展指数报告》预计,2020 年疫情影响下快递业务量增速为 18%,全年业务量超过 740 亿件。
在物流数据变化的背后,足以看出消费者从线下往线上迁移的速度。中国电商起步之初,面对消费者的诸多不信任让商家望而却步,但第一批商家早已赚的盆地满钵;原先的消费思维是网上只能购买廉价的产品,而现在智能科技等产品皆开通各种线上渠道抢占市场,这是互联网带动了中国商业格局的变化。在这样的商业环境下,尤其是面对今年的突发疫情,坚持传统的企业败下阵来,损失惨重,提早布局线上的企业得以存活,经历了一轮行业颠覆性洗牌。企业转型线上后面临的“双流“问题,即”流量“和”物流“,其中流量可通过各大平台获取,包括以淘宝、天猫等的”公域流量“和抖音、快手等的”私域流量“;而物流环节中用户数据地址的问题同样不容忽视,主要会面对以下几种问题:
1.各省市行政区划变更速度快,如撤县设区、撤县设市、乡/镇改为街道,消费者对地址变更信息获取不及时,导致填写收货地址时多种地址被同时使用,给商家带来较大困扰;
2.当前农村电商较为火爆,但各地行政等级划分标准不一,如“弄、组、巷、队、街道、镇、乡、自然村“等,导致用户填写的地址格式各种各样;
3.用户从APP上复制了一段地址,其格式是一段连续文本,如“张某15126353428北京市清华大学7号楼306“,而作为商家,希望得到的地址是”姓名:张某;电话:15126353428 ;详细地址:北京市 海淀区 清华大学 7号楼 306“;
4.用户填写的地址重复,如“北京海淀北京市海淀区清华大学”,其中重复的地址需要商家去重,并将地址补全结构化,基数大的情况下操作较为繁琐;
5.同一地址的用户填写收货地址时叫法多样,如“清华大学”、“双清路30号”等,是否可以通过人工智能高效判定为同一地址;
6.用户地址写法不规范,如“全境国定路408弄4号209”<—>“国定路路口复旦教师公寓408弄4号209”<—>“全境国定路四零八弄4-209”,能否通过系统将用户地址规范化;
7.部分用户会出现地址填写错误的情况,如“北京市 朝阳区 清华大学”,是否能通过系统自动纠正为“北京市 海淀区 清华大学”,诸如此类的问题电商卖家已是屡见不鲜;
8.类似空调等产品需要上门安装,用户在按照自己习惯填写地址后,可能出现的地址不全、地址不精确、参照物无法找到等情况导致安装师傅不能快速定位,提高人工成本;
以上仅仅是实际场景中出现的部分问题,更多层出不穷且让人难以置信的地址问题使电商物流行业的从业者头疼不已。面对这种情况,第一,小商家依靠人工处理;第二,大商家自研地址系统,但由于算法问题,导致系统处理结果仍有较多误差;第三,第三方地址服务公司代为处理,但支出费用较高;
针对于此,阿里云通过超强的NLP算法实力所沉淀出的高性能及高准确率的标准地址算法服务。这套超强的算法能够实现对杂乱,非结构化的原始地址数据进行清洗,抽取,纠错优化,然后将整理完成的结构化,标准化地址数据输出,让处理后的地址能够满足多业务及应用场景的需求。
阿里云地址标准化产品,识别精准迅速,调用简单明确,无需任何算法基础即可随调随用,更无需自行进行任何语料算法的训练。地址服务分为基础版本和高级版本,其中基础服务包括地址抽取、姓名抽取、电话号码抽取、行政区划补全识别、邮编识别;高级服务在基础版本基础上新增地址结构化、POI地址类型识别、地址纠错、地址相似层级判断,用户可根据实际需求选择相应功能:
1.姓名抽取
有些业务场景需要从物流单据的地址信息中提取出收件人和寄件人的姓名信息使用,这样的需求可以通过姓名抽取功能完成。该服务可以从物流运单中精准识别,并且抽取姓名片段,直接剔除除了真人姓名之外的其他地址信息。
2.电话号码抽取
和姓名抽取类似,一些场景中,需要提取收件人和寄件人的联络电话号码,此种需求则可以通过电话号码抽取来满足。该服务可以从物流运单中精准识别,抽取手机或者固话文本信息。将其他的信息都剔除干净。电话号码抽取以及姓名抽取两项服务经常会联用,抽取收寄件人名以及联系方式。
3.地址抽取
从案件卷宗、文章、聊天记录、物流面单等非结构文本中提取地址信息。挖掘潜在地址数据,减少人力成本。
4.行政区划识别
该项服务可以根据输入的地址(可以是完整的地址信息或不完整的地址信息)或者POI信息(如小区名称,酒吧商店名称等等),识别出所对应的行政区划。同时,行政区划识别支持对缺失的行政区划进行补全,最终系统会输出的内容是:行政区划编码 + 省+ 市 + 区+ 街道等。
5.地址结构化
对输入的地址进行结构化解析,将一整段长地址按照省,市,区,路,街,最终精确到POI来进行结构化分解,甚至能够做到几号,楼栋号等等,精细度非常之高。将地址的每个要素剥离出来分类归纳,让地址清晰,有结构,更方便用于输出到应用层调用。如下图例子:输入张三18827659376杭州市滨江金茂府7栋1201,服务会将地址按照标准结构把地址的每个部分都截断,然后根据结构,输出结构化地址文本。
6.POI画像
POI分类:输入地址,识别地址类型(比如是小区,还是国家机关或者商场);
POI预测:输入地址,预测出具体的商户名称或者地点名称;
POI统一:把一个地点的不同描述方式进行统一。
目前阿里云地址标准化产品已为多家企业提供地址数据清理服务,同时地址标准化解决方案也向第三方合作伙伴开放,更多功能服务请登录阿里云官网了解: https://addrp.console.aliyun.com/overview