分析人的网络轨迹和碎片之四大模式

简介:

郑昀  20090830

人,尤其是活跃的互联网用户,都会在互联网上留下很多碎片,这些碎片也许是他自己产生的,也许是来自于新闻媒体,也许是来自他的互联网好友。这些碎片之间,通常会有某种联系。

自动收集这些碎片,可以从中拼凑出一个关于这个人的视图。理论上,可以自动建立一个知识库,像 Wikipedia 一样。

下面我们列出国际上通行的四个模式。


一、基于Email地址的用户数据自动聚合模式

Spokeo 可以根据输入的Email地址(比如遍历你的Gmail所有好友),从以下知名或不知名的Web2.0服务找到邮箱所对应的用户几乎所有公开数据:

Amazon、Blogger、Digg、Facebook、Flickr、Last.fm、LinkedIn、MySpace、Stumbleupon、Twitter、PhotoBucket、Picasa、Windows Live Spaces等等。

我试验过,在不付费的情况下,还是可以看到一部分GMail好友的常见Web2.0服务上的数据,照片居多。但老实说,在中国做到这一点不容易,要求用户始终用一个Email地址注册各种服务,而且这种数据实际上很难从服务提供商那里拿到,只能去hack。


二、基于语义分析的实体关联模式

本模式通常是分析可靠的文字数据,比如新闻资讯,尤其是来自于权威新闻网站。

如果文字来源不可靠,那就意味着你要做大量的工作去噪了,最常见的就是语法错误或者拼写错误。比如 中国雅虎人际关系 收集的语料,如果还包括论坛或博客写手的文章,那么就会被逼着写代码来矫正大量的语法不通顺、成堆的错别字。

它的主要原理还是收集整理以下数据:

实体名称专用词典(人名、地名、组织名);

实体名称在句子中出现时常见的联接词(动词、形容词、名词),尤其是描述关系的名词,比如“谁的女朋友谁”中的“女朋友”,“谁除了老搭档谁外,” 中的“搭档”。简单的做法是寻找两个实体名前后距离最近的、能表述关系的词,根据预先设定的词语权重,决定这句语料要表达的是什么“关联”。

再复杂的考虑就是如何解决“重名”,比如叫李伟或王伟的人太多了。

但说到底,这种模式还是通过实体识别和模式匹配,找到公开的权威资料中实体之间的关联,通过统计以及后期加工,得到的一个人际关系知识库。

中国雅虎的人际关系就是这么一个产品,请点击“刘德华_雅虎人物搜索 ”和“刘德华的人际网 ”查看。微软亚洲研究院的人立方 亦如是,请点击“陈·希·同和陈小同 ”查看。

Evri  最开始面世时,不单单能够看到一个人和其他人之间的关联远近和关联资讯,还可以按照人与人之间的动作做查询,比如你可以查询都有谁赞扬过MJ,查询Obama都批评过哪些机构,或者Obama对希拉里·克林顿都有过哪些情感表述。这都表明 Evri 对实体之间的语义处理达到了炉火纯青的地步。你可以进一步阅读我的文章《情感分析方向近况·0908 》了解 Evri 。请点击 “MJ ”查看。

Google 在前几年推出的 “In Quotes”  能够自动罗列你所选择的两个政治人物对某些关键问题的表述,比如默认的Obama和McCain。这个可能稍微简单些,因为它并不需要分析政治人物之间的关联,也不需要分析人和物之间的关联到底是什么,只需要优选罗列即可。


三、基于语义分析的特征抽取模式

本模式的主要目的是分析给定用户名的行为特征,试图用某些预置的模式去涵盖或描述该用户。

基于此模式所得到的结果,可以帮助某些系统更好地理解用户,从而可以做到个性化推送。

这个模式更像是自然语言处理中的“自动分类”之“软分类”。

MIT出品的 http://personas.media.mit.edu/  ,它利用自然语言处理技术,收集足够多的数据,期望成为一个online persona creator。
比如你输入一个人名,它能尽可能地找到线上数据,以便特征化这个人,最终生成这样的一张图:

persona of isaac mao

personas 计算过程的动画展示比结果更有意思,
毕竟靠语义技术寻找人的互联网轨迹和碎片并拼接出人的特征,出错率太高,即使是对名人都如此,何况普通人。
personas 计算完毕后,你很难估计这个结果到底不靠谱程度有多大,只能通过看中间计算过程显示的那一篇篇语料来估摸。
有兴趣的人可以在 http://personas.media.mit.edu/personasWeb.html  输入isaac mao,shizhao,zuola等名id测试。


四、基于Social关系的连接分析模式

这个模式的初级阶段,其实有无数的服务都曾做过,也就是根据一个Social Media服务的好友关系,绘制出一个大节点图,画出几乎所有人之间的关系。

Twitter上的这种服务有:

http://twitnest.appspot.com

http://twitter.mailana.com/

实际上利用Social Graph 的数据也可以绘制出类似的连接图。


以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。

郑昀(follow zhengyun) 北京报道 20090830

目录
相关文章
|
2月前
|
人工智能 边缘计算 物联网
蜂窝网络未来发展趋势的分析
蜂窝网络未来发展趋势的分析
84 2
|
2月前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
27天前
|
NoSQL 关系型数据库 MySQL
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
159 56
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
|
19天前
|
存储 安全 物联网
浅析Kismet:无线网络监测与分析工具
Kismet是一款开源的无线网络监测和入侵检测系统(IDS),支持Wi-Fi、Bluetooth、ZigBee等协议,具备被动监听、实时数据分析、地理定位等功能。广泛应用于安全审计、网络优化和频谱管理。本文介绍其安装配置、基本操作及高级应用技巧,帮助用户掌握这一强大的无线网络安全工具。
51 9
浅析Kismet:无线网络监测与分析工具
|
21天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
101 13
|
1月前
|
安全 Docker 容器
docker的默认网络模式有哪些
Docker 默认网络模式包括:1) bridge:默认模式,各容器分配独立IP,可通过名称或IP通信;2) host:容器与宿主机共享网络命名空间,性能最优但有安全风险;3) none:容器隔离无网络配置,适用于仅需本地通信的场景。
43 6
|
25天前
|
安全 网络协议 网络安全
网络不稳定导致HTTP代理频繁掉线的分析
随着数字化时代的加速发展,网络安全、隐私保护及内容访问自由成为用户核心需求。HTTP代理服务器因其独特技术优势受到青睐,但其掉线问题频发。本文分析了HTTP代理服务器不稳定导致掉线的主要原因,包括网络问题、服务器质量、用户配置错误及IP资源问题等方面。
74 0
|
2月前
|
安全 网络协议 网络安全
【Azure 环境】从网络包中分析出TLS加密套件信息
An TLS 1.2 connection request was received from a remote client application, but non of the cipher suites supported by the client application are supported by the server. The connection request has failed. 从远程客户端应用程序收到 TLS 1.2 连接请求,但服务器不支持客户端应用程序支持的任何密码套件。连接请求失败。
|
2月前
|
域名解析 网络协议 虚拟化
vmware 提供的三种网络工作模式
本文介绍了VMware虚拟机的三种网络工作模式:Bridged(桥接模式)、NAT(网络地址转换模式)和Host-Only(仅主机模式)。桥接模式将虚拟机与主机通过虚拟网桥连接,实现与物理网络的直接通信;NAT模式通过虚拟NAT设备和DHCP服务器使虚拟机联网;Host-Only模式则将虚拟机与外网隔离,仅与主机通信。此外,文章还简要介绍了网络相关的基础知识,包括主机名、IP地址、子网掩码、默认网关和DNS服务器。
115 3
|
2月前
|
存储 安全 网络安全
网络安全法律框架:全球视角下的合规性分析
网络安全法律框架:全球视角下的合规性分析
65 1