数据分析起家的海云数据,还想向唇语识别冲刺

简介: 作为海云数据创始人兼 CEO,不仅是因为其自主研发的唇语识别技术,提高英文识别准确率,更重要的是,冯一村找到了唇语识别的变现之道。

再次谈起公司发展的下一步时,冯一村难掩兴奋。


作为海云数据创始人兼 CEO,不仅是因为其自主研发的唇语识别技术,提高英文识别准确率,更重要的是,冯一村找到了唇语识别的变现之道。


「唇语识别能帮助聋哑人、老人交流,裁定体育赛事语言暴力。在公安领域,也具有颠覆意义。」冯一村分析。因为大量视频只有图像,没有声音,如能识别视频中犯罪嫌疑人的讲话内容,将会提高刑侦效率。


正因如此,冯一村说,海云数据未来将不遗余力地投入唇语识别的研究。


成立于 2013 年的海云数据,以数据可视化分析起家,旗下数据可视化分析平台「图易」具备 12 层神经网络,分布式 GPU,可实现数据自动匹配,并能通过智能数据实现深度学习。当冯一村无意中发现,企业内部研究院将唇语识别加入现有的数据可视分析系统,他很快意识到,这个尝试对现有业务的突破具有重要价值。


2016 年 12 月,海云数据联合重庆公安科研所研究唇语识别。


微信图片_20211128163403.jpg

海云唇语识别


冯一村介绍,唇语识别是典型的 AI 应用,集机器视觉与自然语言处理,从图像中连续识别出人脸,并提取此人连续的口型变化特征,将其输入模型,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。而成熟的唇语识别系统需要建立在大量人脸特征样本的基础之上,通过带记忆的深度神经网络,保证结果的最大准确性。


在 2017 年 3 月的亚洲大数据可视分析峰会上,海云数据在正式发布唇语识别技术时称,其由 1 万小时新闻式唇语节目训练而成的唇语识别 AI,英文识别准确率达 80%,中文准确率达到 71%。不过,冯一村认为,「若要投入实战,准确率需要 90% 甚至 95% 以上。」


微信图片_20211128163439.jpg

1万小时新闻类节目进行唇语识别训练


更早一些时候,一则唇语识别 AI 超过人类专家的消息还曾刷屏研究界。2016 年 11 月,牛津大学工程科学系与谷歌母公司 Alphabet 下属公司 DeepMind 合作进行唇语识别开发,选择英国 BBC 5000 个小时的电视节目,总共 118000 个句子作为训练素材,最终结果是相比人类专家 12.4% 的准确率,AI 的准确率为 46.8%。


但对一家商业化公司来说,缩小准确率差距的前提下找准方向也同样重要。「AI 要在特定领域解决特定问题,初创企业更需要找准细分领域。」冯一村分析他的业务逻辑,「我们做唇语识别,至少公安、政法委、军队、教育四个行业可以应用。」


冯一村尤其看好唇语识别在公安领域的应用,因为这是海云数据的优势。事实上,海云数据正是发家于此。


众所周知,城市交通卡口处都有摄像头,但大量摄像头的背后需要公安指挥中心部署更多警力监控视频。而海云数据的数据可视化分析技术则能有效改善这类状况,通过将卡口处的视频、犯罪分子的数据、户籍数据、车辆数据等实时呈现在同一个平台,公安人员能直观了解卡口数据、警力部署、出警信息、犯罪线索等信息,既能实时判断警力部署、犯罪分子行动轨迹等情况,还能降低人力成本,提高效率。


为了深入理解公安业务,海云数据聘请了老专家,他们熟悉公安业务系统,从业经验长达数十年。正是如此,海云数据占据了公安领域三分之一的市场份额。


实际上,海云数据并非第一天就做数据可视化分析,也并非第一天就将公安领域确定为目标。从创业之初的数据新闻,到数据可视化,再到奠定核心竞争力的数据可视化分析,海云数据花了两年试错。


冯一村表示,传统的数据可视化是将数据以图形、图表等形式呈现,强调结果的呈现效果,而数据可视化分析能实时有效地表达过程数据,可以实时分析,实时决策。


2015 年 6 月,冯一村重新确定技术方向——数据可视化分析,并将目标瞄向公安领域。「大数据可视化分析业务要产生商业价值,就需要与行业结合,落地业务层。」冯一村如此表示。而这需要真实有效的数据,同一领域不同客户的业务逻辑也不能有太大差异,从而易于标准化并实现快速复制。公安领域就符合这样的标准,举个例子,北京与重庆的公安系统,业务都是刑侦,无太大变化。


由此,海云数据建立了对 B 端客户收取管理服务费的营收模式,冯一村称,找到准确方向的海云数据很快就实现了盈利,并在公安领域站稳脚跟。


2015 年 11 月,海云数据在此前的底层架构基础上,发布可视化分析平台「图易 4.0」,经过迭代,「图易 5.0」已具有一定 AI 智能,覆盖 323 种数据源,651 个 API 接口,318729TB 数据量,涵盖 20 多种行业。而基于图易,海云数据已推出「智航顺」、「智警」、「金智」、「医智佳」、「智胜」等细分领域产品。


如今,海云数据团队成员已达 300 多人,服务将近 90 家客户,其中 76 家是世界 500 强企业,覆盖行业也早已突破公安、民航等达到 13 个。


而在冯一村的规划中,2017 年,海云数据将拓展全新行业,发力大交通、大公安、军民融合以及智慧城市四大领域。技术方向上,则双管齐下,在深耕数据可视化分析的同时,继续向唇语识别冲刺。


海云数据融资进展:


  • 2013 年 4 月,种子资金 20 万,投资人为海量创始人郝玺龙。
  • 2014 年 4 月,天使投资 300 万,投资机构为华创盛景。
  • 2015 年 4 月,Pre-A 轮 1500 万元,投资机构为东方富海。
  • 2016 年 3 月,A 轮 1 亿元,上古资本(华创盛景创始人李汉生主导的另一家投资机构)领投,东方富海跟投。
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
1月前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
存储 分布式计算 搜索推荐
【专栏】数据之海,分布式计算、数据存储与管理、数据分析与挖掘成为关键技术
【4月更文挑战第27天】在大数据时代,数据量爆炸性增长、类型多样及处理速度需求提升带来挑战。分布式计算、数据存储与管理、数据分析与挖掘成为关键技术,如Hadoop、Spark、HDFS、NoSQL等。实际应用包括互联网搜索、推荐系统、金融科技、智能城市等领域,大规模数据处理发挥关键作用,持续推动创新与奇迹。
|
1月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
1月前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
292 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
1月前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
35 4
|
1月前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
26 9
|
1月前
|
机器学习/深度学习 数据可视化 算法
数据分析师如何处理缺失值和错误数据?
【4月更文挑战第4天】数据分析师如何处理缺失值和错误数据?
20 6
|
1月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

热门文章

最新文章