随着AI时代的到来,大模型备案早已是屡见不鲜的话题,我在网上也看到过很多友商的攻略文章,大多通篇都是备案意义、备案流程及法律法规等笼统描写,没有人具体罗列出做大模型备案具体需要符合什么“条件”?有些什么“注意事项”?
今天围绕网信办的备案要求,我们就来具体分析一下大模型备案实际情况究竟是怎么个事儿!
一、备案模型的基本情况
在申请大模型备案之前,我们首先要明确自己模型的一个基本情况,包括模型的主要功能、适用场合及服务范围等内容。
一般模型功能主要包含:
人机对话
文字生成
图片生成
声音合成
视频合成
代码生成或优化
我们在做大模型备案的时候,需要根据自己的实际情况申报,可单选也可多选主要功能。
适用人群及适用场合:要具体说明,重点说明是否适用未成年人、学生等。适用场合包括:自动控制、医疗信息服务、心理咨询、关键信息基础设施和其他场合。
服务范围:选择是未限定特定领域还是限定特定领域,具体说明限定的领域是哪方面。
二、备案模型研制情况
模型备案情况:除自研模型外,调用第三方已备案模型为基座进行微调的模型,需要详细说明采用的模型情况及采用方式:商业合作还是开源免费模型。
训练算力资源:需说明训练服务器数量及GPU厂商,采用第三方云平台或服务器情况
训练语料和标注语料来源与规模:
需注明文本训练语料规模的存储数量及语料数量
各类型语料规模的的数量及来源
标注人员的数量、类型及标注人员的培训情况
标注内容准确性人工核验比例
三、备案模型服务与安全防范情况
推理算力资源:说明推理服务器数量及GPU厂商
开发服务能力:十万级、百万级、千万级还是其他
服务方式:APP、网页、API接口还是其他
需重点说明服务过程中的信息:
模型适用人群、场合、用途的方式;
提供服务过程中收集保存个人信息情况;
收集个人信息征得个人同意的方式;
受理处理使用者关于查阅、复制、更正、补充、删除个人信息请求的方式;
图片、视频的标识样式、位置、频度
接受公众或使用者投诉举报的途径、反馈方式
非法内容拦截措施:预置关键词拦截一栏,提供拦截关键词列表。
四、备案模型安全评估情况
根据TC260提到的标准,对模型的安全情况进行多方面评估,包括:
语料内容评估
生成内容评估
涉知识产权、商业秘密评估
涉民族、信仰、性别等评估
涉透明性、准确性、可靠性等评估
模型性能(拒答率)评估
其中“语料内容评估”和“生成内容评估”重点针对涉意识形态、国家主权、个人隐私、个人肖像权和名誉权等方面的评估。
“语料内容评估”须附关键词列表;“生成内容评估”须附测试题集。
五、大模型备案的材料
生成式人工智能服务上线备案表
安全评估报告
模型服务协议
语料标注规则
拦截关键词列表
评估测试题集
不同地区的备案要求不同,例如北京地区会比其他地区多一个信息采集表,有的地区会要求增加未成年人保护条款、知识产权策略等材料。
大模型备案的整个周期长达5-8个月,北京地区甚至长达8-10个月左右,目前“清朗·整治AI技术滥用”专项行动正在严查未备案直接提供服务的企业与AI产品,符合备案条件的企业建议尽早筹备备案,以免耽误产品上架时间或被网信办约谈下架产品,得不偿失!
以上就是本篇文章的全部内容,有其他备案问题或经验,欢迎在评论区交流~