开源的Llama 2背后,有这些年轻华人的力量

简介: 开源的Llama 2背后,有这些年轻华人的力量

与 LLaMA 相比,在 Llama 2 的开发中出现了很多华人学者的身影。


近日,Llama 2 的开源让 Yann LeCun 以及更多业内人士直呼「大模型格局发生了巨变」。


除开源之外,Meta 还宣布 Llama 2 免费可商用!Llama 2 提供了 70 亿、130 亿和 700 亿参数版本,训练数据比 Llama 1 多了 40%,达到了 2 万亿 token。精调 Chat 模型在 100 万人类标记数据上训练。


从结果来看,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型,甚至可以在某些数据集上接近 GPT-3.5,还能持平和超越谷歌的 PaLM (540B) 。


在感叹 Meta 致力于开源努力的同时,人们将目光投向了 Llama 2 的开发团队。可以看到,LLaMA 的一些核心作者如 Gautier Izacard、Armand Joulin、Edouard Grave、Guillaume Lample、Timothee Lacroix 等,在 Llama 2 的开发中已经不见了踪影。



Llama 2 技术报告:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/


除了核心作者的变化,Llama 2 将近 70 位作者中出现了 10 多位华人学者的身影。


机器之心整理了以下参与 Llama 2 研发的华人学者。如有错误和遗漏,还请在评论区指正。


Moya Chen



Moya Chen 是 Meta 大语言模型(LLM)研究工程师,于 7 月暂时离职。自 2015 年入职以来,她从事的工作包括平台 / 商业信誉、计算摄像(CV、AR)、WorldXR(CV、AR 和 XR)、FAIR Labs(聊天机器人)和 FAIR/GenAI(LLM)。


她本科毕业于加州理工学院(Caltech)计算机科学专业。


Jeremy Fu


Jeremy Fu 现为 FAIR 研究工程师,主要方向为大语言模型。他此前曾在 Instagram 机器学习部门从事内容理解和用户建模工作。自 2021 年 1 月开始在 Meta 全职工作。


他本科毕业于悉尼新南威尔士大学计算机科学与商业专业。


Wenyin Fu



Wenyin Fu 现为 Meta 数据中心 ML 性能工程师,主要从事大规模地设计与优化 ML 平台解决方案部署,并评估数据中心硬件解决方案以获得最佳容量 ROI。他于 2019 年 5 月入职 Meta,此前曾任职于英伟达、AMD 和英特尔。


他本科毕业于上海交通大学的电子电气工程专业,博士毕业于威斯康星大学麦迪逊分校电气与计算机工程专业。


Cynthia Gao



Cynthia Gao 现为 Meta 产品数据运营部门项目经理,主要从事针对机器翻译和生成式 AI 大模型的人工数据标注和收集项目。此前曾在 FAIR 等多个部门工作。


她曾先后就读于北京师范大学、加州大学戴维斯分校(文学学士、心理学与中国语言文化)和蒙特雷国际研究院(文学硕士、翻译与本地化管理)。


Rui Hou



Rui Hou 现为 Meta GenAI 研究科学家,主要研究生成式 AI 技术以及相关的生产应用。他于 2020 年 4 月入职 Meta,此前曾在丰田研究院等机构实习。


他本科毕业于同济大学,硕士(智能系统和计算机科学双学位)和博士(智能系统)均毕业于密歇根大学。


谷歌学术:https://scholar.google.com/citations?user=PKHKqX0AAAAJ&hl=en


Yinghai Lu



Yinghai Lu 现为 Meta 首席软件工程师,Meta infra 组的 AI 推理技术负责人,目前从事生成式 AI 推理部署。他于 2016 年入职 Meta,曾领导过 Ads 和 Reels 推荐模型的 GPU 推理部署。


他本科毕业于同济大学电气工程专业,博士毕业于复旦大学电气工程专业。


谷歌学术:https://scholar.google.com/citations?user=prBXsm8AAAAJ&hl=zh-CN


Yuning Mao



Yuning Mao 现为 Meta GenAI 研究科学家,本科毕业于上海交通大学 IEEE 荣誉班,博士毕业于伊利诺伊大学厄巴纳 - 香槟分校计算机科学专业,导师为 Jiawei Han 教授。


他的研究目标是帮助人们更有效和高效地获取信息和知识。为了实现这一目标,他一直从事文本摘要和生成、问答、参数高效微调和分类法构建等广泛研究课题。最近,他正参与 Meta LLaMA 模型系列的开发,尤其是大模型的安全性方面。


个人主页:https://morningmoni.github.io/


Yixin Nie



Yixin Nie 现为 Meta AI 研究科学家。他本科毕业于中国地质大学,硕士毕业于芝加哥大学,博士毕业于北卡罗来纳大学教堂山分校计算机科学系。


他的工作重点在于机器学习和自然语言处理,其研究兴趣来源于对机器自然语言习得的想法。


个人主页:https://easonnie.github.io/


Xiaoqing Ellen Tan



Xiaoqing Ellen Tan 现为 Meta AI 的数据科学研究员。她于 2018 年获得了中山大学的药学与计算机科学学士学位,2019-2021 年成为卡内基梅隆大学计算机科学访问学生,2022 年获得匹兹堡大学生物统计学博士学位。


她的研究兴趣在于开发因果推理、数据集成和决策公平性等领域的新颖统计学和机器学习方法。


个人主页:https://ellenxtan.github.io/


Puxin Xu



Puxin Xu 现为 Meta AI 高级数据工程师,主要从事多模态数据集(文本、图像和视频)和大模型预训练数据工作。他在中山大学获得了本科学位(资源环境与城乡规划管理、统计学双学位),并在理海大学获得了硕士学位(工业与系统工程)。


Zheng Yan



Zheng Yan 现为 Meta 软件工程师,利用 AI 解决账户访问团队遇到的问题。此前曾在斯坦福大学 Sean N. Parker Center for Allergy & Asthma Research 担任数据分析师。他本科毕业于斯坦福大学计算机科学专业。


Yuchen Zhang



Yuchen Zhang 现为 Meta AI 软件工程师(机器学习)/ 研究工程师,致力于大型模型(语言 / 多模态)的训练和扩展,以及大型模型中负责任 AI 的研究。她本科毕业于埃默里大学,硕士毕业于宾夕法尼亚大学工程与数据科学专业。


个人主页:https://zycalice.github.io/


Angela Fan



Angela Fan 是 Meta AI Research Paris 的研究科学家,主要研究机器翻译。此前她曾在南锡 INRIA 和巴黎 FAIR 攻读博士学位,主要研究文本生成。在此之前,她是一名研究工程师,并在哈佛大学获得了统计学学士学位。


个人主页:https://ai.meta.com/people/angela-fan/


参考链接:

https://www.36kr.com/p/2176578148315396

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
145 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第17天】近日,谷歌、DeepMind等四大机构联合发布论文,展示大型语言模型(LLMs)在数学问题解决上的显著进步。通过引入元认知知识,研究人员开发了提示引导的交互程序,使LLMs能为数学问题分配合理技能标签并进行语义聚类。实验结果显示,GPT-4在GSM8K和MATH数据集上的准确性分别提升了11.6%和7.52%,展现出巨大潜力。这一成果不仅为AI领域提供了新思路,也为数学教育带来了启示。
42 4
|
4月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
141 2
|
7月前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
364 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
7月前
|
Linux Anolis 开发者
|
人工智能 达摩院 自然语言处理
首批开源超300个顶尖模型:这几家中国「AI主力军」,合力打造了一个AI模型社区「魔搭」
首批开源超300个顶尖模型:这几家中国「AI主力军」,合力打造了一个AI模型社区「魔搭」
288 0
|
人工智能 自然语言处理 搜索推荐
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(2)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
150 0
|
Web App开发 人工智能 前端开发
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(1)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
|
机器学习/深度学习 人工智能 自然语言处理
清华教授欧智坚专访,深度剖析ChatGPT的光环背后及未来挑战!(2)
清华教授欧智坚专访,深度剖析ChatGPT的光环背后及未来挑战!
125 0
|
机器学习/深度学习 存储 人工智能
清华教授欧智坚专访,深度剖析ChatGPT的光环背后及未来挑战!(1)
清华教授欧智坚专访,深度剖析ChatGPT的光环背后及未来挑战!
180 0
下一篇
DataWorks