Social Media附加价值开发的四大模式-阿里云开发者社区

Social Media附加价值开发的四大模式

2016-04-26 1512

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

郑昀 20090830

社会化媒体的可携带可传播数据是海量的，从中打捞珍珠并串成线，还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示，无论你的界面多么漂亮，都没有太大价值，你必须增加一些附加价值。

我大致归类这些附加价值，分为六大价值点：

Conversations：根据数据之间的关联，建立对话形式；
Breaking News：及时发现突发新闻；
Trends：热点趋势捕获和展现；
Recommendations：根据用户数据做个性化推送；
Groups/Tags：按照主题打包数据。
Search：搜索。

可能还有更多，欢迎留言或Tweets补充(follow zhengyun)。

国际上通行的增加附加价值的模式，我总结有四大模式，如下所示。

一、基于链接检测的聚合模式

这个模式非常好理解。只不过，我定义之所以叫链接“检测”，是因为链接并不显著，或在正文中隐藏，或在 Tweets 中隐藏，需要你特地提取出来。所以这个模式不包括 RssMeme 。

2005年9月上线的 Techmeme 作为本模式的最优秀代表，就深刻地教育了 mashup 开发者，原来 链接检测 混搭 适当的A-List 有如此高的信息过滤效率。

Techmeme 在 Blog 时代称雄一时。到了 Twitter 时代，后起之秀是 TweetMeme ，上线之初，它并没有像 Techmeme 一样大放光彩，但随着 Twitter 的如日中天，它终于爆发了，它的 Alexa 全球排名基本稳定在2200名左右。

Techmeme 和 TweetMeme 的“聚合”都很容易理解，它们都是把成百上千条信息的复杂度隐藏/合并到一个主题下。

backtype Widget 和 SRCBacks 等新型评论聚合服务，它们最为显著的功能是，在任何站点上安装 Widget 后，就可以显示有哪些人在各种 Social Media 站点上针对当前链接做出的评论或推荐，如Twitter、Google Reader、Facebook、MySpace、Digg等等。它们都要检测并储存所有链接的关联数据，比如谁收藏了这个链接，谁在 Twitter 中推荐了这个链接。

目前处于被维护状态的玩聚SR 也属于本模式，一个教训就是，在国内做这种模式，必须对聚合到的链接做自动分类，并彻底抛弃掉时政类的链接。顺便说一句，TweetMeme 的分类做得非常好。

二、基于重复文字检测的聚合模式

Google News和百度新闻的新闻聚合，都属于本模式。它们可以通过检测近期发布的资讯之间的内容重合度，能将同一个主题的资讯合并在一起，也就是以文本相似性为技术基础的。

本模式一般是广泛收集新闻媒体信源，标记不同的权重度，做成扫描列表；然后通过爬虫抓取最新的新闻。通过对最近一段时间内的新闻计算文本相似性，可以获知哪些文章的相似度高于预设阈值，那么就说明这些文章是近似一个话题，可以合并。

目前处于被维护状态的玩聚中文锐推榜（@rtmeme）也属于本模式，针对微博客的重复内容检测，是不会采用文本相似性技术的，而是有点像搜索引擎去重技术中的“信息指纹检测重复”，尽力给每个独立消息生成一个信息指纹。国外类似的锐推监测服务是 dailyRT ，但由于它并没有给出锐推历史，所以无法确认它是否属于本模式。

三、基于标签的聚合模式

标签可以是原信息拥有的，也可以是自动提取的。

在 Twitter 领域，由于拥有 #hashtags ，所以本模式相对容易做。Twubs 就是一个范例，它有点像 Twitter Groups，根据 #hashtags 实时显示 Tweets ，对某tag感兴趣的人可以直接订阅对应的Twub，比如 Follow Friday。

WeFollow 首创了用 #hashtags 来标识Twitter用户特征的做法，随后中国开发者也开发了几个类似的应用，如早期的 Twitter中文用户目录以及最近的 Twitese 的Rank 。

当年的奇虎聚客也属于这种模式，虽然严格意义上它属于“基于关键词的主题聚合模式”。

四、基于情感分析的聚合模式

这个模式稍微有些复杂。

Microsoft的Live Product Search，现在改为“Bing Shopping”，可以作为本模式的优秀范例。请点击“Apple iPod touch digital player”的user reviews搜索结果，可以看到机器生成的“Popular Features”，这些指标的评分就来自于机器分析抓取来的网络点评，从中提取出情感趋势以及对应的指标。

在Twitter领域，也有不少网站属于本模式，但多半停留在雕虫小技上，尚未成为主力应用。

本模式所基于的语义技术，更多详情，请参考我的文章《情感分析方向近况·0908》，此处不再赘述。

好，这就是常见的增加社会化媒体数据附加值的四个模式。如果你观察到更多模式，请评论或Tweet。

郑昀(follow zhengyun) 北京报道 20090830