Social Media附加价值开发的四大模式

简介:

郑昀 20090830

社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。

我大致归类这些附加价值,分为六大价值点:

  1. Conversations:根据数据之间的关联,建立对话形式;
  2. Breaking News:及时发现突发新闻;
  3. Trends:热点趋势捕获和展现;
  4. Recommendations:根据用户数据做个性化推送;
  5. Groups/Tags:按照主题打包数据。
  6. Search:搜索。

可能还有更多,欢迎留言或Tweets补充(follow zhengyun)。

 

国际上通行的增加附加价值的模式,我总结有四大模式,如下所示。

一、基于链接检测的聚合模式

这个模式非常好理解。只不过,我定义之所以叫链接“检测”,是因为链接并不显著,或在正文中隐藏,或在 Tweets 中隐藏,需要你特地提取出来。所以这个模式不包括 RssMeme 。

2005年9月上线的 Techmeme 作为本模式的最优秀代表,就深刻地教育了 mashup 开发者,原来 链接检测 混搭 适当的A-List 有如此高的信息过滤效率。

Techmeme 在 Blog 时代称雄一时。到了 Twitter 时代,后起之秀是 TweetMeme ,上线之初,它并没有像 Techmeme 一样大放光彩,但随着 Twitter 的如日中天,它终于爆发了,它的 Alexa 全球排名基本稳定在2200名左右。

Techmeme 和 TweetMeme 的“聚合”都很容易理解,它们都是把成百上千条信息的复杂度隐藏/合并到一个主题下。

backtype Widget 和 SRCBacks 等新型评论聚合服务,它们最为显著的功能是,在任何站点上安装 Widget 后,就可以显示有哪些人在各种 Social Media 站点上针对当前链接做出的评论或推荐,如Twitter、Google Reader、Facebook、MySpace、Digg等等。它们都要检测并储存所有链接的关联数据,比如谁收藏了这个链接,谁在 Twitter 中推荐了这个链接。

目前处于被维护状态的 玩聚SR 也属于本模式,一个教训就是,在国内做这种模式,必须对聚合到的链接做自动分类,并彻底抛弃掉时政类的链接。顺便说一句,TweetMeme 的分类做得非常好。

 

二、基于重复文字检测的聚合模式

Google News和百度新闻的新闻聚合,都属于本模式。它们可以通过检测近期发布的资讯之间的内容重合度,能将同一个主题的资讯合并在一起,也就是以文本相似性为技术基础的。

本模式一般是广泛收集新闻媒体信源,标记不同的权重度,做成扫描列表;然后通过爬虫抓取最新的新闻。通过对最近一段时间内的新闻计算文本相似性,可以获知哪些文章的相似度高于预设阈值,那么就说明这些文章是近似一个话题,可以合并。

目前处于被维护状态的 玩聚中文锐推榜@rtmeme) 也属于本模式,针对微博客的重复内容检测,是不会采用文本相似性技术的,而是有点像搜索引擎去重技术中的“信息指纹检测重复”,尽力给每个独立消息生成一个信息指纹。国外类似的锐推监测服务是 dailyRT ,但由于它并没有给出锐推历史,所以 无法确认它是否属于本模式。

 

三、基于标签的聚合模式

标签可以是原信息拥有的,也可以是自动提取的。

在 Twitter 领域,由于拥有 #hashtags ,所以本模式相对容易做。Twubs 就是一个范例,它有点像 Twitter Groups,根据 #hashtags 实时显示 Tweets ,对某tag感兴趣的人可以直接订阅对应的Twub,比如 Follow Friday

WeFollow 首创了用 #hashtags 来标识Twitter用户特征的做法,随后中国开发者也开发了几个类似的应用,如早期的 Twitter中文用户目录 以及 最近的 Twitese 的Rank 。

当年的奇虎聚客也属于这种模式,虽然严格意义上它属于“基于关键词的主题聚合模式”。

 

四、基于情感分析的聚合模式

这个模式稍微有些复杂。

Microsoft的Live Product Search,现在改为“Bing Shopping”,可以作为本模式的优秀范例。请点击“Apple iPod touch digital player”的user reviews搜索结果,可以看到机器生成的“Popular Features”,这些指标的评分就来自于机器分析抓取来的网络点评,从中提取出情感趋势以及对应的指标。

在Twitter领域,也有不少网站属于本模式,但多半停留在雕虫小技上,尚未成为主力应用。

本模式所基于的语义技术,更多详情,请参考我的文章《情感分析方向近况·0908》,此处不再赘述。

 

好,这就是常见的增加社会化媒体数据附加值的四个模式。如果你观察到更多模式,请评论或Tweet。

郑昀(follow zhengyun) 北京报道 20090830

目录
相关文章
|
Rust 物联网 人机交互
一文看懂蓝牙在物联网中的应用场景
蓝牙作为一项发明于上世纪的近距离无线通信技术,在手机,电脑领域已经有了充分地基础,那么这项技术在物联网领域又会有哪些应用场景呢?
一文看懂蓝牙在物联网中的应用场景
|
vr&ar 异构计算
最新版PR2023软件安装包Premiere2023永久汉化版下载
Premiere Pro 23.0 版专为帮助编辑人员制作创意内容而设计,提供了出色的字幕工具组合。借助改进功能(如批量编辑时间轴中的标题剪辑、灵活的对齐控件等)简化您的标题和图形工作流程。
2737 0
|
人工智能
魔搭多模态AI单词助记&通义APP即时口语练习,你从未体验过的全新版本!
首次接触魔搭多模态AI单词助记工具让我颇感惊喜。传统背单词方式枯燥低效,而该工具通过生成关联图像、短语或故事,让记忆变得生动有趣。访问[Word-wizard](https://modelscope.cn/studios/makabakaing/Word-wizard)体验其图文记忆和视觉学习功能。目前图文记忆功能似乎存在问题,但视觉学习功能仍可正常使用,能识别图片特征并生成释义和例句,辅助学习效果不错。此外,可通过通义APP实现即时口语练习,尽管缺乏上下文记忆功能,但仍是一个优秀的练习工具。
|
域名解析 网络协议 安全
常见内网穿透工具,收好了!(一)
常见内网穿透工具,收好了!
常见内网穿透工具,收好了!(一)
|
Python
Python GUI tkinter 随机生成题目
说明 (1)拟设计的功能及实现思路、需要用到的知识 实现逐个显示题目,并且在点击按钮之后判断回答是否正确 实现可以统计正确率(在回答完所有题目之后) 实现指定题目的数量,指定题目的运算符号 实现将所有题目进行记录,并打印到word文档 实现将所有错误的题目进行记录,并打印到word文档 实现指定打印题目的行数和列数,并在界面进行展示 实现时刻提醒用户当前还剩下多少个题目没有解决 (2)调用库的说明 random 生成随机数要用到的库 tkinter 制作图形化界面要用到的库 docx 对word文档进行操作的库 docx.shared 里面的Pt 可以规定word文档的字体等规范
323 0
Python GUI tkinter 随机生成题目
|
关系型数据库 MySQL Java
树莓派4B使用Docker部署SpringBoot项目——(二)使用docker安装mysql
树莓派4B使用Docker部署SpringBoot项目——(二)使用docker安装mysql
953 0
树莓派4B使用Docker部署SpringBoot项目——(二)使用docker安装mysql
|
Web App开发 缓存 监控
spring-boot-devtools: 免费的热部署工具
spring-boot-devtools: 免费的热部署工具
spring-boot-devtools: 免费的热部署工具
|
机器学习/深度学习 人工智能 安全
阿里云产品-2022 3月刊
一文了解3月份阿里云产品发生了哪些产品大事件。
1063 0
阿里云产品-2022 3月刊
|
资源调度 前端开发 JavaScript
前端编译速度优化——ESbuild
本文旨在说明使用ESbuild提升前端编译构建的速度,降低前端编译的CPU开销
965 0
前端编译速度优化——ESbuild
|
弹性计算 Kubernetes 算法