背景
场景:
电商、网站、社交.如头条,微博等.
评价、文章、短语内容文本分析, 找出热词、关键词.
挑战:
传统数据库不支持文本分析, 需要拉去到程序内计算, 非常慢.
程序效率差(大多数不是C语言写的,性能弱上加弱).
PG 解决方案:
支持文本分析, 包括tf-idf等,支持自定义分词能力.
分词性能强大: macmini 2018 i5每秒分析速度360万词.
参考
http://madlib.apache.org/docs/latest/group__grp__text__utilities.html
《[未完待续] 情感词分析,维护社会和谐 - PostgreSQL,Greenplum文本挖掘、分析实践》