分析人的网络轨迹和碎片之四大模式

简介:

郑昀  20090830

人,尤其是活跃的互联网用户,都会在互联网上留下很多碎片,这些碎片也许是他自己产生的,也许是来自于新闻媒体,也许是来自他的互联网好友。这些碎片之间,通常会有某种联系。

自动收集这些碎片,可以从中拼凑出一个关于这个人的视图。理论上,可以自动建立一个知识库,像 Wikipedia 一样。

下面我们列出国际上通行的四个模式。


一、基于Email地址的用户数据自动聚合模式

Spokeo 可以根据输入的Email地址(比如遍历你的Gmail所有好友),从以下知名或不知名的Web2.0服务找到邮箱所对应的用户几乎所有公开数据:

Amazon、Blogger、Digg、Facebook、Flickr、Last.fm、LinkedIn、MySpace、Stumbleupon、Twitter、PhotoBucket、Picasa、Windows Live Spaces等等。

我试验过,在不付费的情况下,还是可以看到一部分GMail好友的常见Web2.0服务上的数据,照片居多。但老实说,在中国做到这一点不容易,要求用户始终用一个Email地址注册各种服务,而且这种数据实际上很难从服务提供商那里拿到,只能去hack。


二、基于语义分析的实体关联模式

本模式通常是分析可靠的文字数据,比如新闻资讯,尤其是来自于权威新闻网站。

如果文字来源不可靠,那就意味着你要做大量的工作去噪了,最常见的就是语法错误或者拼写错误。比如 中国雅虎人际关系 收集的语料,如果还包括论坛或博客写手的文章,那么就会被逼着写代码来矫正大量的语法不通顺、成堆的错别字。

它的主要原理还是收集整理以下数据:

实体名称专用词典(人名、地名、组织名);

实体名称在句子中出现时常见的联接词(动词、形容词、名词),尤其是描述关系的名词,比如“谁的女朋友谁”中的“女朋友”,“谁除了老搭档谁外,” 中的“搭档”。简单的做法是寻找两个实体名前后距离最近的、能表述关系的词,根据预先设定的词语权重,决定这句语料要表达的是什么“关联”。

再复杂的考虑就是如何解决“重名”,比如叫李伟或王伟的人太多了。

但说到底,这种模式还是通过实体识别和模式匹配,找到公开的权威资料中实体之间的关联,通过统计以及后期加工,得到的一个人际关系知识库。

中国雅虎的人际关系就是这么一个产品,请点击“刘德华_雅虎人物搜索 ”和“刘德华的人际网 ”查看。微软亚洲研究院的人立方 亦如是,请点击“陈·希·同和陈小同 ”查看。

Evri  最开始面世时,不单单能够看到一个人和其他人之间的关联远近和关联资讯,还可以按照人与人之间的动作做查询,比如你可以查询都有谁赞扬过MJ,查询Obama都批评过哪些机构,或者Obama对希拉里·克林顿都有过哪些情感表述。这都表明 Evri 对实体之间的语义处理达到了炉火纯青的地步。你可以进一步阅读我的文章《情感分析方向近况·0908 》了解 Evri 。请点击 “MJ ”查看。

Google 在前几年推出的 “In Quotes”  能够自动罗列你所选择的两个政治人物对某些关键问题的表述,比如默认的Obama和McCain。这个可能稍微简单些,因为它并不需要分析政治人物之间的关联,也不需要分析人和物之间的关联到底是什么,只需要优选罗列即可。


三、基于语义分析的特征抽取模式

本模式的主要目的是分析给定用户名的行为特征,试图用某些预置的模式去涵盖或描述该用户。

基于此模式所得到的结果,可以帮助某些系统更好地理解用户,从而可以做到个性化推送。

这个模式更像是自然语言处理中的“自动分类”之“软分类”。

MIT出品的 http://personas.media.mit.edu/  ,它利用自然语言处理技术,收集足够多的数据,期望成为一个online persona creator。
比如你输入一个人名,它能尽可能地找到线上数据,以便特征化这个人,最终生成这样的一张图:

persona of isaac mao

personas 计算过程的动画展示比结果更有意思,
毕竟靠语义技术寻找人的互联网轨迹和碎片并拼接出人的特征,出错率太高,即使是对名人都如此,何况普通人。
personas 计算完毕后,你很难估计这个结果到底不靠谱程度有多大,只能通过看中间计算过程显示的那一篇篇语料来估摸。
有兴趣的人可以在 http://personas.media.mit.edu/personasWeb.html  输入isaac mao,shizhao,zuola等名id测试。


四、基于Social关系的连接分析模式

这个模式的初级阶段,其实有无数的服务都曾做过,也就是根据一个Social Media服务的好友关系,绘制出一个大节点图,画出几乎所有人之间的关系。

Twitter上的这种服务有:

http://twitnest.appspot.com

http://twitter.mailana.com/

实际上利用Social Graph 的数据也可以绘制出类似的连接图。


以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。

郑昀(follow zhengyun) 北京报道 20090830

目录
相关文章
|
2天前
|
监控 网络协议 安全
Socket网络编程中的常见应用场景与实例分析
Socket网络编程中的常见应用场景与实例分析
|
2天前
|
安全 算法 Java
扩散模型在社交网络分析中的实际应用案例
扩散模型在社交网络分析中的实际应用案例
|
5天前
|
JSON 数据可视化 API
技术心得:如何用Python和API收集与分析网络数据?
技术心得:如何用Python和API收集与分析网络数据?
11 2
|
15天前
|
存储 SQL 安全
网络安全与信息安全:漏洞分析与加密技术探讨
在当今数字化时代,网络安全与信息安全日益成为全球关注的焦点。本文深入探讨了网络安全中的常见漏洞类型及其影响,并介绍了当前流行的加密技术和提升安全意识的方法,旨在为读者提供系统的知识分享与技术探讨。
21 3
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在网络安全中的威胁情报分析与响应的应用
人工智能在网络安全中的威胁情报分析与响应的应用
|
16天前
|
监控 网络协议 安全
Verilog代码在上网行为管理软件中的网络设备控制与协议分析
**Verilog摘要:** Verilog是硬件描述语言,用于数字电路设计和网络设备控制。它在上网行为管理软件中用于控制路由器、交换机等,例如通过简单模块控制端口状态。此外,Verilog还支持协议分析,如解析以太网帧提取MAC地址。监控数据可结合Verilog实现自动化提交,例如通过HTTP发送请求到服务器,实现实时监控和响应。这些示例展示了Verilog在网络安全和性能优化中的应用潜力。
73 1
|
2天前
|
安全 算法 Java
扩散模型在社交网络分析中的实际应用案例
扩散模型在社交网络分析中的实际应用案例
|
2天前
|
Java 物联网 应用服务中间件
Socket网络编程中的常见应用场景与实例分析
Socket网络编程中的常见应用场景与实例分析
|
5天前
|
机器学习/深度学习 JSON Kubernetes
一篇文章讲明白k8s网络插件flannel模式剖析:vxlan、host
一篇文章讲明白k8s网络插件flannel模式剖析:vxlan、host
|
5天前
|
机器学习/深度学习 JSON Kubernetes
一篇文章讲明白k8s网络插件flannel模式剖析:vxlan、host
一篇文章讲明白k8s网络插件flannel模式剖析:vxlan、host