最早是10年听baidu的一位老师讲信息检索课程,那一次对离散数学中的“二部图”的使用场景,有了一个真真切切的认识。然后这个概念一直伴随着自己,到现在,并且在不同场所的听课中,去询问个一些讲师,貌似都很“吃惊”“不清楚”“没有做过”。我才知道这就是技术的差距。
应用中,二部图就是语义推荐使用,系统是搜索引擎,数据是二部图结构,参数是“全部海归的7-8个博士、顶级专业人才”。。。。然后带着当时的疑惑,来到这里,四处打听相关技术,然后慢慢理解了,“曾经这是一家运营公司”“曾经这是一家数据库公司”
“曾经这家公司都不怎么用技术的”。。。。
自语语言学+领域学知识+社会学知识构成了“有效推荐”的三大基石。
自语语言初级:分词、词性标注
中级:本体、语料
高级:领域、主体的关联和聚合
领域学:领域热点、核心、焦点价值、商业模式
社会学:用户行为、思考、互动等。
然后综合起来就是,通过自然语言对文本聚类、领域下主体聚合,依赖领域学+社会学的关联参数。
前面已经基本成熟,而后者成为难点。能做到第一点的已经很少,更别说后者了。
所有这一切的工具扭带就是搜索引擎!
想想未来可能就是搜索+推荐的开发或者平台或者应用,自己已经在搜索的路上打滚、积累,并介入文本处理,
是时候做更远的准备了,本体、预料库、领域结构化、领域属性。。。
现在开始准备应该不晚吧,尽管从业界讲是重复的,但在自己、在自己接触理解的部门看,至少3年你是不会有
这种KPI、意识、结果的吧。有点夸张可能!----这里是指一个平台型的、通用的知识库。
当然,从搜索广告那边看,他们已经有了非常多的工作了。这个可以从www.taobao.com主页搜宝贝的时候,
输入关键词,然后在最上面的那个layout里面就可以看到,对属性的聚合+关联的推荐。聚合直接可以通过搜索
引擎输出,而关联的推荐,目前看可能来自:类目关联性(来自query统计)、关键词关联性(来自query统计)
、领域属性(需要知识库了),类目和关键词的关联,从抽样的手机、女装、水晶
三个关键词来看,效果还是不错的,至少从展示结果的语义看是这样的,实际是否促进点击或者成交还不清楚。对领域属性的关联推荐,应该通过类目关联见接的有体现,同类目下的似乎很一般。例如,我搜
诺基亚,展示的结果中似乎并没有领域的东西,而只是展示
诺基亚的“属性”+诺基亚品牌推荐+非诺基亚品牌推荐。是否需要展示,诺基亚充电器、诺基亚售后服务、诺基亚客服中心?诺基亚批发商?诺基亚电池?
三个关键词来看,效果还是不错的,至少从展示结果的语义看是这样的,实际是否促进点击或者成交还不清楚。对领域属性的关联推荐,应该通过类目关联见接的有体现,同类目下的似乎很一般。例如,我搜
诺基亚,展示的结果中似乎并没有领域的东西,而只是展示
诺基亚的“属性”+诺基亚品牌推荐+非诺基亚品牌推荐。是否需要展示,诺基亚充电器、诺基亚售后服务、诺基亚客服中心?诺基亚批发商?诺基亚电池?
公司从不为追求技术而技术,而是需求推动技术,还并且是出现瓶颈的时候,才开始推动下一个解决方案。
从解决问题优先和资源汇回报情况着手,超过3个月的结果,等不及了,更别说半年甚至一年了,或许是浮躁或者这就是IT的特征,带病前行或者发展经济学,正合当下中国在发展中解决矛盾同出一辙!
理解了并知道怎么做,然后就顺顺的,面对现实坦然而不惊!