全栈码农是泡沫时代低成本而有效的一个办法。ES + SPring +Docker + 小程序前端,NLP Inside。
Elasticsearch需要大量的机器,单机版上点数据就挂了,集群版本最少也是3台机器。 在Docker上可以轻松的模拟出多台机器的场景,还能在云主机上实现。
之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。 本文主要探讨有充分的语料基础后对语料进行预处理的办法。
一直在关注文本分类的动态,直到最近找到了应用场景才开始真正动手。AI很火,但是泡沫终将远去,在AI技术成本昂贵的今天,我们的投资在多年后能留下多少一定是技术本身带来的商业价值。
原文地址 译者观点:目前AI整体处于研究热点,很多领域离产业化还很远,比如本文中的主题如何制作聊天机器人,虽然各大厂都有不同涉足,但是涉及的领域有限,其实在各个细分领域都可以训练专用的聊天机器人。
2018-10 更新: 刚刚把spring data elasticsearch 升级到了3.1.1, 适配Elasticsearch 6.2.2。 spring 也在准备转向Rest 客户端做准备了,不过目前这套架构用transport client还能工作。
最近想训练专业领域的语料库,深度学习领域python的版本较多,国内普遍使用gensim来训练,而word2vec是Google提出的,Tensorflow上有例子实现。
阿里云docker镜像可以节省编译时间,便于在swarm各个容器间共享镜像,快速部署。主要采用github上的dockerfile与文件进行自动编译。 不过缺点是:所有的文件都需要上传到github,而部分文件属于机密文件,比如https服务器的证书文件。
容器的便捷在于可以很快的搭建基础软件,但是如果你有2G的镜像还要常常pull 和push,还是有些麻烦。我们注意到Docker官方的很多镜像都是使用的Alpine版本的linux, 和我们常见的Ubuntu, Debian, Centos不一样。
Python不同的虚拟环境供不同的系统使用,项目之间的运行环境保持独立性而相互不受影响。在虚拟环境中和PIP对应的工具就是pip-tools。 pip-tools有2个模块 pip-compile , pip-sync。
Alamofire提供了比IOS标准库便捷的网络访问接口,沿用了Objective-C的AFNetwork的各种优点,所以成为了我迁移到Swift平台不二的选择。
各种介绍简单的API调用的书很多,但是对于日常开发经常碰到的问题很少有介绍。我这里摘录翻译了一些大家推荐的模式,比如常见的登录窗口需求如下: -第一次启动应用程序时显示登录屏幕。