changgeng_个人页

个人头像照片 changgeng
个人头像照片
0
10
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

阿里云技能认证

详细说明
暂无更多信息

2025年01月

2024年12月

2024年08月

2024年06月

2024年03月

2023年02月

正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2025-01-07

    “99套餐”ECS云端问答节!回答问题赢阿里云纪念衫、加湿器等好礼!

    问题10、怎么在控制台消息中心设置到期续费提醒,具体步骤有哪些? 1、进入控制台找到消息icon-消息接收管理 2、自定义勾选设置一系列提醒
    踩0 评论0
  • 回答了问题 2024-12-24

    动机VS自律,对开发者们来说哪个比较重要?

    这其实是个蛮有意思的话题 以前在学校里打过辩论赛,看到这个话题其实第一个想法就是这其实是个伪命题 🤔,如果让我第一眼选我会选自律,因为养成一个好习惯受益无穷,不管他是什么方面。但是仔细一想,其实自律本身就是需要动机的,做什么事其实都需要驱动力,(根据万能的能量守恒定律)。养成自律最难的不是开始而是坚持,是什么让你保持自律?一定是有一个潜在的动机的💪:,比如你想提升自己,你想赚大钱,你想不被别人轻视等等 所以动机我认为才是更重要的,即使它可能最初只是一件非常小的烛火 👨‍💻大家其实可以都想想自己最初接触代码是因为什么,是因为什么成为了开发者,可能是对万能的脚本和代码世界的懵懂兴趣,也可能是当时还一片光明的薪资前景,更有可能是生活工作的被迫需要等等,这些动机有的可能现在都快被自己遗忘,但不可否认的是如今的成就离不开这当初的启动轴🌟 。我现在还记得最初接触编程时看到自己写的代码实现了想要的功能,内心会涌现出难以抑制的喜悦。(那是一个实现计算器加减法功能的小脚本)正是这种喜悦感,让我在遇到困难时依然愿意投入大量时间去钻研、去尝试。而这种源自内心的动力,远比'我应该每天学习几个小时'的自律要求来得更持久、更有力。 技术的海洋浩瀚无垠,而内心的热爱就是指引我们前行的灯塔。 保持学习的自律本身也是对技术和生活的一种热爱,我相信很多人都有为了一个功能的实现或者一个bug而夜不能寐或者通宵达旦的时光,这个时刻你不是自律的,因为打破了惯常的作息安排,但这段时间你又会觉得如白驹过隙。我认为,真正的技术成长,是像种子生长一样的自然过程🌱。当我们怀着强烈的求知欲和创造欲时,专注和坚持都会水到渠成。就像很多人在自己的领域深挖之后往往都会自然而然的延伸到其他的领域,先是横向再是纵向。哪个码农没有个像电影里万能的工程师和黑客一样的梦想呢? 虽然说是这么说,但是如何让这个动机长期激励我们保持自律是个问题 就像我每次逛开发者社区都是想着有没有适合自己的问答能够领一点小物品
    踩0 评论0
  • 回答了问题 2024-12-23

    AI 编码助手能否引领编程革命?一起探索 AI 对研发流程的变革

    AI编程新时代 随着AI水平的大步伐发展和迭代,现在的商业大模型已经有了足够的能力(除了国外的大模型有点小贵)来应付日常工作需要,就我和身边的朋友而言,现在基本上已经离不开AI编程了,无论是爆火的cursor还是github copilot又或者是国内的通义灵码都有巨大的潜力和作用。我目前日常主要使用copilot和通义灵码搭配vscode使用,效果非常不错,从python代码脚本到linux bash命令的使用都可以通过内置AI插件进行辅助编写基本上都是我们负责语言建模搭建整体项目框架,大模型负责代码生成,然后我们再进行测试和debug,然后循环这些步骤,直到项目完成。下面谈一下我的感受和附上最近跟随通义灵码一个活动教程的参加流程图 1.AI辅助提高准确性与效率 在传统的开发流程中,需求分析和设计往往是最为耗时的阶段,尤其是在需求变更频繁、需求模糊的情况下,沟通与分析工作尤为重要。AI的加入将帮助工程师快速从大量数据中提取出有价值的信息,识别需求中的潜在问题,然后将灵光一现的碎片思路总结成一段清晰的说明文字,帮助码农们将工作进行划分,做好项目前期规划。最重要的是,AI帮助你理清思路的同时这也算是一种对于AI的step by stpe learning chain,你完全可以无缝衔接在后面让其提供对应部分的相关代码。 2.AI生成代码,节省时间 相比于人工手搓加上自动补全,让AI理解问题然后提供完整代码往往更加高效快速,身边认识的好多互联网大厂的朋友现在也都是AI写代码然后自己在进行检查和修改,既高效又方便,而且AI写出来的代码格式排版布局都非常完美,(屎山代码的问题减少了一大半,至少看起来是那么回事)必要时还可以让其在重要模块部分添加注释,大大提高了工作效率。 3.A辅助测试 测试是软件开发过程中的关键环节,有的小项目可以直接自己运行测试,但对于大项目而言有时候一个小bug的问题就会让人心态崩溃并且测试时出现各种问题,而通过内置AI助手则可以在不运行的情况下模拟测试,提前找出可能的bug并进行优化,大大减少了需要真实模拟测试的次数。 4.AI原生开发协作与共生 AI并不是要取代程序员,它的角色更像是一个得力助手,帮助程序员减少重复性、低价值的工作,从而把更多精力集中在更具创造性和复杂度的任务上。例如,尽管AI能生成代码,但后续的问题排查、部署和维护工作仍然需要程序员来完成。AI的价值,在于能与程序员形成一种“共生”关系。我们可以更专注于架构设计、技术难题、产品创新等核心部分,AI则负责那些更为基础的、繁琐的代码生成和测试工作。通过AI辅助,开发者和AI形成了一个高效的工作链条。我们作为开发人员,能够快速迭代,解决更具挑战性的问题,而AI则负责确保代码生成规范、调试过程顺畅。 5.零代码部署一个自己的应用 以前没有搞过前端这方面,偶然间刷到了一个通义灵码协办的相关活动,全程使用通义灵码进行自然语言编程(但是用相同提示词的效果实测没有copilot强),最终可以完成一个自己的应用从前端到后端的部署开发。效果很不错(虽然还是不太懂前端网页的构成实现),目前已经跟到第二期docker部署部分,大家有兴趣的可以来参加,还可以拿通义灵码的冬季卫衣 结语:AI将推动软件研发进入新的时代 AI的不断进步,正在改变我们开发软件的方式。它不仅能够帮助我们减少大量的重复性工作,还能提高开发效率、提升代码质量。与其说AI在取代程序员,不如说它在成为程序员的得力助手。未来,软件开发将变得更加智能化和自动化,我们只需专注于创造性和更高价值的工作。对于程序员来说,学习如何与AI协作,已经成为提高效率的重要途径。AI的加入,代表着我们开发过程的加速与优化,而我们则是把控全局的“船长”。未来的开发工作,将更加高效、灵活,充满无限可能。
    踩0 评论0
  • 回答了问题 2024-08-15

    你有使用过科技助眠工具吗?

    在这个快节奏的时代,高质量的睡眠变得越来越珍贵。虽然也有时好奇尝试过一些科技助眠工具,但是我还是觉得自己身体上的困意才是本质王道。 工具 主要尝试的就是手机品牌绑定的生态如助眠音乐、睡眠监测手环,以及辅助睡眠的眼罩 感受 感受其实很简单,我的睡眠质量有段时间并不好,经常半夜突然就自然醒,倒头睡又醒,梦多但是醒来发现才过了一两个小时而已。但是一没吃药二没买什么科技枕头啥的,就试了下一些助眠音乐。说实话,作用也就感觉是心理上的,我有时候睡不着能一直听到音乐放一个小时停止然后更精神的那种。后来每天一堆事要做,一堆ddl要做,心里憔悴,倒头就睡,不过助眠音乐因为之前放习惯了,每次还是照常放,起个仪式感的作用。后来配合自带的睡眠监测等功能,每天看一下自己睡眠质量,其实发现就和当天的心态和疲惫度挂钩,本质上就是自己能不能困不困,想不想睡,能不能睡的问题。## 建议心态很重要,吃嘛嘛香,睡嘛嘛好,不推荐任何花钱的物理科技工具,都是智商税。音乐啥的确实可以用,但其实就是让你大脑放松,如果可以的话,打开网易云音乐然后每日推荐列表播放也是有类似作用的(亲测)。如果睡不着就给自己找事做,脑力活(体力活只会越来越兴奋),看会书,背会单词,看着看着就困了。### 可以的话可以买些眼贴我以前喜欢蒸气的那种,后来发现有时候睡不着等他效果过后变凉了更睡不着了,就一直到现在都用的液体的眼贴,一是护眼,缓解一天的眼部疲劳;二是有一定的眼部按压和挡光的作用(个人感受)给你一种你要睡觉的暗示,并且带着它你也不好乱动,身体可以放松,挡光就能减少环境的影响 ps 睡不好是真难受,物理和精神的双倍折磨,希望大家能够都有一个好睡眠吧,打工人有996,大学生有DDL,都是苦命人啊
    踩0 评论0
  • 回答了问题 2024-08-15

    聊聊哪些科幻电影中的家居技术你最希望成为现实?

    对未来的科幻家具的憧憬 前言 科幻电影总能带给我们无限的想象空间,尤其是那些令人惊叹的未来家居技术。从自动调节的智能住宅到全息投影遍布的高科技豪宅,这些创意让我们对未来生活充满了憧憬。相比于房屋占地面积的大小,我们为什么都这么向往那些电影里面的未来家居呢?我觉得其实就是在于它的可实现性,高度自定义性,私人定制性、一站式解决性在电影里面我们可以看到主人公都是可以做到人不动,事已毕,人未归,家已暖的高效率和舒适便捷性。所以,毋庸置疑,我最希望的也就是这类功能性家居能够在未来实现。其实现在已经有了雏形,也就是智能家居,万物互联(但还仍局限于自身品牌的生态)如小米、华为等,甚至还有专门的线下体验店。 1. 全息投影交互系统 还记得《钢铁侠》中托尼·斯塔克挥手间就能操控各种全息界面的场景吗?想象一下,在我们的客厅里,只需轻轻一挥手,就能召唤出巨大的全息屏幕。我们可以在空中浏览网页、观看3D电影,甚至进行沉浸式的视频通话。这种技术不仅能让我们的家居更加简洁,还能为我们带来前所未有的互动体验。再也不用东奔西跑的去为了满足各个需求如开灯、开空调、在厨房里接听放在客厅里的来电等等,轻松又高效。同时这也可是一个高度自由化的中控,所有对房子环境等监测也可以再此基础上实现。而现在想要粗略体验这样的功能只有在苹果高额昂贵笨重的vision pro上 2. 智能环境调节系统 在《星际穿越》中,我们看到了能够自动调节环境以满足居民心理需求的智能住宅。这种技术如果能够实现,将会彻底改变我们的生活质量。想象一下,当你工作压力大时,房间会自动调节成舒缓的蓝色调光线,播放轻柔的音乐,甚至释放助眠的香薰。当你需要集中注意力时,灯光会变得明亮,室温会调整到最佳状态,让你的效率倍增。 当然了,这个其实在现实中已经可以做到了,可以参考b站up主超级小桀.据我个人所知,实现这种功能有两种选择,一就是像前言提到的直接选择像华为等具有超级生态的品牌给你的房子进行全屋智能的改造或者装修,这个省心省力,但是只能在其产品上做出选择。二就是像提到的那个up一样,自己购买对应产品,根据自己的需要自己做设计师,构建一个私人的万物互联,费时费力花心思,需要你对各个产品等有充分的了解,但是最终实现的效果绝对非常赞。传送门现在的不足就是,第一种还是需要依靠如语音助手或者软件平台等个人自行操作;第二种则是所有设置都是自己来调控。两者其实还不能达到说有一个人工智能AI来说根据时刻环境甚至心情自动地科学的改变各种灯光温度声音等。比如你想睡觉,从客厅走到卧室的路上,系统就自动识别并根据其他如时间信息或者习惯分析等判断出你想要睡眠的意图,自动将卧室灯光改成暖光,开启空调,并逐渐关闭客厅等灯光和设备等等。我觉得如果能做到这一步,那真的是太爽了 3. 瞬间清洁系统 经常做家务的朋友们肯定很清楚一个房子在过年前等节日时如果要大扫除的话是多么的麻烦,又累人又耗时。谁不想拥有一个永远干净整洁的家呢?科幻电影中常常出现一键清洁的场景,比如《星际迷航》系列中的声波淋浴,或是《钢铁侠》中贾维斯控制的自动清洁系统。想象一下,在繁忙的一天后回到家,只需按下一个按钮,整个房间就会在几秒钟内焕然一新。地板自动吸走灰尘,家具表面的污渍瞬间消失,空气中的异味被清新的芳香取代。省时省力还高效,多好。 4.万物互联 这个可以与第一个交互系统相结合,现在这个的雏形其实就是米家这类产品,手机上可以远程遥控摄像头,开关防盗门,开关灯、遥控停车等等。未来就是把房屋里的每一个部件,大到空调等家电,小到插座等零件,都能够相互联结起来,一个交互面板就能够控制所有 ending 希望雷总加油,让更多人感受到科技的力量。希望未来能够在自己的一亩三分地的小屋里享受科技带来的美好
    踩0 评论0
  • 回答了问题 2024-08-08

    你有哪些能写出完美Prompt的秘籍?

    前言 在使用GPT进行对话的时候,如果不考虑各大模型的差距和优异,最简单和轻松高效的方法就是给GPT一个最合适的prompt提示词,它能够让你的gpt回答更加高效、精确、准确。这就是经常提到的提示词工程的一部分。如果要对prompt进行展开和深度的讲解的话,这会是一个非常复杂耗时的事情。 而许多人在绝大多数场合其实并不需要这样,他们只需要:一、找到他人已有的编写好的符合自己使用场景的prompt进行抄作业式套用;二、结合他人prompt的优点依葫芦画瓢编写一个类似的专属于自己的prompt所以,接下来就主要介绍本人也就是笔者我在日常学习和工作中经常用到的快速编写prompt的一些方法和技巧,全是干货 一、准备环节 1、在开始编写之前,你首先需要规划好或者说确定好你想要gpt给你一个什么样的答案,也就是确定问题类型和领域。举例来说,如果你想让GPT解释电动车的工作原理,你的提示应该包括相关的技术术语和实际应用场景。这样,第一,你的问题可以被更好更准确的理解;第二,gpt给出的回答也会限定在相关对应领域2、(可选步骤)根据不同的需求选择对应的GPT模型,现在GPT模型百花齐放,各有所长,有条件的各位可以根据需求首先选择一个最合适的模型,比如对上下文字数记忆要求、回答风格要求、付费要求、计算要求、编程要求、绘画要求等等,国内国外大模型还需要考虑语言要求,虽然现在的大趋势还是国外如Chatgpt、claude等大模型位于领先优势,但是在国内汉语言等特定领域,国内大模型还是有其独有的一些优势;选好了模型对于后面prompt的要求可以说是事半功倍具体的大模型差异可以参考我的另一篇相关专题回答参考该回答以及该问答栏目下的其他回答评测 二、编写环节 1. 使用规范化格式(贯穿全部的重要步骤)使用markdown(主要)语法或css语法等对prompt进行文本区分、结构化和标记,让gpt更好理解要求避免出现理解误差等进行文本的结构化和标记。当然,如果嫌麻烦也可以直接使用一些符号进行文本、标题之间区分,比如#、¥、|、~,在没有符号歧义的情况下这也是可以的,主要目的就是让GPT正确理解你想要表达的意思2. 定义特定背景和语境给定一个具体的背景或场景,可以帮助GPT更好地专注于特定领域的回答,并保持一致的语言和风格。简单来说就是给他一个人设、一个角色,比如一位生物学家、一位演讲家、一个被老板逼着加班写文章做ppt的苦逼打工人等等,可以粗略也可以具体(太具体有的时候反而适得其反)3. 设定明确的目标(限制)告知GPT你期望它回答的最终目标,包括但不限于语言风格、语言种类、表格还是图片还是文字、有序号的排列式回答还是一大段概括式回答等等;这样可以确保GPT的回答更符合你的预期。4. 使用思维链方法将整个目标分解成具体的步骤和问题,以确保每个步骤都有针对性地引导GPT朝正确的方向发展。这一点不仅可以用于prompt提示词编写,更是在日常使用gpt上用处很多 完整示例(了解电动车利用电池和电动机实现驱动的工作原理) 优化前Prompt:'请详细解释电动车是如何利用电池和电动机实现驱动的工作原理。'优化后 一、选择模型 我想使用一个免费、理解中文、实用、能同时给出文字和图片的模型 故选择使用阿里通义千问2.5大模型 二、确定领域范围 因为是了解电动车利用电池和电动机实现驱动的工作原理,所以在提示词中要提到新能源电动汽车、驱动、原理、电池、电动机等关键词 可以看到,相比直接简单的提问,GPT给出的回答更加有针对性,并且基于给其的人物角色自行对问题答案进行了其他补充。如果对某些答案感兴趣或觉得其回答不够详细可以进行再次修改和提问,有了上下文的基础支撑,它会越来越接近你想要的答案,也就是调优 后记 接触过这么久的prompt之后,虽然仍旧是刚入门的萌新小白,还有很多专业性的知识亟需了解和掌握,这次的回答也相当于把自己所掌握的进行了一次小复习。其实现在发现,想要写出一个“完美的”prompt,你只需要 一、对AIGC的兴趣和热爱;二、对掌握新知识的好奇和喜爱;三、对将知识运用实践的一次次重复性枯燥摸索的耐心希望大家都能够学无止境、学有所成
    踩0 评论0
  • 回答了问题 2024-06-14

    二维码全球每天使用量达 100 多亿,会被用完吗?

    前言 提起二维码,我们可以发现如今快捷的数字生活下处处离不开它:登录、签到、支付、跳转链接、添加好友、防伪、信息存储*等等。虽然这些并不是二维码刚被创造出来时就设想出来的用途,但很明显,在二维码的功能压榨下,咱们中国人无疑是遥遥领先。 咱们经常说我国现代的“新四大发明”:高铁、网购、支付宝、共享单车,你就说哪个离得开二维码好吧(叉腰)。但是话又说回来了,压榨那不也得“可持续性地竭泽而渔”。咱们既然用二维码用得如此多、如此频繁,再加上恐怖的智能手机使用人口基数,很难不让人担忧:二维码这东西,就那么大一块面积,每天一个人可能都会用上几十个,要是哪天用完了咱们该咋办?“又一夜回到解放前吗?” 我以前也想过这个很有意思的问题,但是转念一想,天塌了反正有高个子顶着,又没有细究。这次正好趁着这个机会,来回答我以前想过却没有细究的问题。 首先是不那么正经的回答 虽然面临着如此庞大的二维码使用量,但现在咱们种花家的科技发展如此迅速,说不定“还没到用完,科技就进步到不需要二维码了font>”,我们要相信国家相信华为相信咱阿里。此外,就像我们可以通过增加电话号码长度来解决电话号码不够用的问题一样简单,这二维码不也可以通过增加尺寸和数据容量来扩容嘛。毕竟,一个更大的二维码可以包含更多的信息。就像我们担心车牌号会用完、条形码会用完、时间戳会溢出等等,简单粗暴一点的解决方法那不就像“美国缺钱直接印钱这该死的布雷顿森林体系 ”一样直接往后加就行了 咳咳,玩笑说完了,下面是正经回答 首先按照惯例咱还是得了解下二维码的发明与发展(前世今生),知己知彼百战不殆 二维码的故事开始于1994年,由日本的Denso Wave公司发明,最初是用于汽车制造业中的零部件追踪。二维码比条形码具有更大的信息量和抗污损性能,主要发明人原昌宏被人称为“二维码之父”。原昌宏从1992年开始二维码的研发工作,用了两年时间,原昌宏开发出在横向和纵向上都可以记录信息的二维码技术。二维码全称为Quick Response Code(国外一般我印象里就是直接简写QR Code),意为快速响应码,因其能够快速读取而得名。随着智能手机的普及,二维码逐渐走入了日常生活,成为了从支付、身份验证到信息传递的多功能工具。 二维码的原理和功能(稍微看看,咱也不是专业人士,没必要了解这么多)可以直接跳到后面红色重点 二维码是一种由黑白矩阵组成的图形,利用了二维空间来存储信息。传统的条形码只能在水平方向存储数据,而二维码则在水平和垂直方向都可以存储数据,这大大增加了其容量。一个标准的QR码可以存储多达7089个字符,或是约3000字节的数据。二维码不仅仅可以存储文字,还可以包含链接、电话号码、电子邮件地址等多种类型的信息。 二维码通过将信息转换为黑白矩阵的形式存储,这个矩阵包含了一系列的模块(小方块),每个模块可以是黑色或白色。二维码的读取器(如手机摄像头)通过检测这些模块的颜色和位置来解码信息。 (别扫,网图仅供理解原理所用) 二维码的设计包括几个关键部分: 位置检测图案:位于二维码的三个角,用于帮助读取器确定二维码的方向和位置。 时间模式:用于帮助读取器确定模块的排列顺序。 格式信息:包含二维码的纠错级别和掩码模式。 版本信息:指示二维码的版本(大小和数据容量)。 对齐图案:用于确保二维码在读取过程中保持正确的形状,尤其是在二维码较大或被部分遮挡时。 二维码的种类 二维码有多种不同的类型,常见的包括: QR码:最常见的二维码类型,广泛应用于各种场景。 微型QR码:一种缩小版的QR码,适用于空间有限的应用场景。 Aztec码:无需位置检测图案,适用于小空间和快速读取。 Data Matrix码:主要用于工业应用,具有高密度数据存储能力 PDF417码:一种堆叠的线性条码,可以存储大量数据,常用于身份证件和运输票据。 现在我们再来以科学的角度来回答二维码是否会面临资源枯竭的问题(一说起枯竭就让我想起了赛尔号“距离地球能源完全枯竭还有3650天) 要回答二维码是否会面临资源枯竭的问题,我们需要从信息编码理论和数学组合原理来进行分析。 首先,二维码的设计使其能够存储大量数据。一个典型的QR码包含21x21到177x177的矩阵,每个矩阵格子可以有两种状态(黑或白)。这意味着,二维码的组合数量是巨大的,以至于我们几乎不用担心其会像电话号码或网络域名一样枯竭。 为了具体说明这一点,假设我们使用最常见的25x25矩阵二维码,那么它的组合数可以用以下公式计算: 2^(25×25)=2 ^(625) {想象一下,我们有一个足够大的足球场,每个足球场上都铺满了沙子。如果我们将这些沙子一粒一粒地数,26252625 粒沙子的数量将远远超过地球上所有沙滩的沙子总数。实际上,这个数字是如此之大,以至于它超过了地球上所有海滩的沙子数量的总和,甚至可能超过整个太阳系中所有行星表面的沙子数量。} 即使我们只考虑最小的21x21矩阵,其组合数也是天文数字: 2^(21×21) = 2^(441) {假设我们有一个巨大的图书馆,每本书包含大约100,000个单词。如果我们将这个图书馆的每本书中的每个单词都转换成一个独立的实体,那么24412441 个这样的实体将远远超过这个图书馆中的所有书籍的总字数。这个数字是如此之大,以至于它可能超过了人类历史上所有书籍、文章、报告和文档的总字数。} 这个数字远远超过了地球上所有可能的物理资源限制,更不用说实际使用中二维码的数量了。 {经典棋盘装大米的故事,这个问题描述的是:在国际象棋的棋盘上,第一格放1粒米,第二格放2粒米,第三格放4粒米,以此类推,每一格的米粒数都是前一格的两倍,直到填满64个格子。这个庞大的结果已经大到还没开始几格就弄没了一个国家的大米储备粮。但是最大也才2^(64)−1} 综上所述,从科学和数学的角度来看,二维码的资源枯竭问题几乎是不存在的。其设计初衷和技术实现都考虑到了极大的数据容量和可靠性,确保了二维码能够在长时间内稳定使用。 因此,尽管我们每天都在高频率地使用二维码,但我们完全不必担心它们的资源会像电话号码或网络域名一样枯竭。未来随着科技的进步,我们甚至可能看到更高效和先进的信息传递方式,但二维码在相当长的时间内仍将是我们生活中不可或缺的一部分。
    踩0 评论0
  • 回答了问题 2024-06-08

    最近大模型降价潮,哪家才是真的“价美”也“物美”?

    评测报告 前言 本次话题旨在体验司南大模型平台评测国产大模型 近期不少头部大模型厂商纷纷官宣大幅降价或免费,在价格战背后,到底哪家才是真的“诚意”好货,如何客观、公正地评估和比较模型的效果,也是广为业界讨论和探索的话题。 基于个人使用,本次测试对大众主流两大国产模型进行评测: kimi(月之暗面v1)文心一言4.0 一、借鉴SuperCLUE基准 2.1本评测测试基准 由于本次测评的平台只支持使用文本对话功能,不支持上传文件等功能,因此我们将仅保留可以通过对话进行解决的测试维度。以下是具体的测试基准和评分标准: 测试基准评分标准说明文本分类0-100测试模型对文本进行分类的准确性阅读理解0-100测试模型对文本理解和回答问题的能力自然语言推理0-100测试模型进行逻辑推理的能力情感分析0-100测试模型分析文本情感的准确性机器翻译0-100测试模型的翻译质量对话系统0-100测试模型进行对话的连贯性和自然性命名实体识别0-100测试模型识别文本中实体的准确性信息抽取0-100测试模型从文本中提取信息的能力语义理解0-100测试模型理解文本语义的准确性文本生成0-100测试模型生成文本的连贯性和创意性计算0-100测试模型的算术计算能力逻辑推理0-100测试模型在复杂逻辑问题上的推理能力代码0-100测试模型编写和理解代码的能力知识百科0-100测试模型对常识和百科知识的掌握生成与创作长文本0-100测试模型生成长篇文本的连贯性和创意性角色扮演0-100测试模型在模拟对话中的角色扮演能力语言理解0-100测试模型对复杂语言结构的理解能力安全0-100测试模型对敏感和有害内容的处理能力基础能力0-100测试模型在基本NLP任务上的表现中文特性0-100测试模型处理中文特定语言现象的能力学术专业0-100测试模型在学术领域的专业知识水平 评审标准: 正确性(30分):答案的正确与否。详细性(20分):答案解释的详细程度。逻辑性(20分):答案的逻辑和推理过程。语言表达(15分):语言的清晰度和流畅性。符合题意(15分):答案是否完整回答了问题。评分标准: 优秀:30-40分良好:20-30分一般:10-20分差:0-10分 测评问题 依据上述测评标准,以下是各个测试基准对应的测评问题: 通用维度测评 1.文本分类: 给定一段文本,模型能否正确分类为预定义的类别?示例问题:“政府最近推出了一项新的经济政策,旨在促进小型企业的发展,增加就业机会,并推动经济增长。”这篇新闻文章是关于体育、政治还是科技的? 评分 Kimi:正确性:30分详细性:15分逻辑性:15分语言表达:10分符合题意:10分总分:80分 文心一言:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 2.阅读理解: 给定一段文本和一个问题,模型能否正确回答?示例问题:根据以下文章内容,回答问题:“新政策的主要目标是什么?” 文章:政府最近推出了一项新的经济政策,旨在促进小型企业的发展,增加就业机会,并推动经济增长。评分:Kimi:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 文心一言:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 3.自然语言推理: 给定两段文本,模型能否判断第二段文本是否是对第一段文本的合理推论?示例问题:文本A说“所有的鸟都会飞”,文本B说“企鹅不会飞”,文本B是否正确?请解释你的推理过程。 评分:Kimi:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 文心一言:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 4.情感分析: 给定一段文本,模型能否正确识别其中的情感(积极、消极、中性)?示例问题:这条评论是积极的、消极的还是中性的?“我对这款新手机非常失望,它的性能远不如宣传的那样。”评分:Kimi:正确性:30分详细性:15分逻辑性:15分语言表达:10分符合题意:10分总分:80分 文心一言:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 基础能力测评 1.机器翻译: 给定一段文本,模型能否正确翻译成另一种语言?示例问题:请将以下中文文本翻译成英文:“这是一款创新的产品,它能够大大提高工作效率。”评分: Kimi:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 文心一言正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 2. 对话系统: 模型能否进行连贯且自然的对话?示例问题:与模型进行一段关于天气的对话。用户:“今天天气怎么样?”模型预期回答:“今天的天气很好,阳光明媚,适合外出。”评分:Kimi:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 文心一言:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 命名实体识别:给定一段文本,模型能否正确识别其中的实体(如人名、地名、组织名等)?示例问题:识别文本中的所有人名、地名和组织名。文本:“苹果公司的CEO蒂姆·库克在北京参加了一场会议。”评分:Kimi:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 文心一言:正确性:30分详细性:10分逻辑性:10分语言表达:10分符合题意:10分总分:70分 信息抽取:给定一段文本,模型能否正确提取出关键信息?示例问题:从这篇文章中提取出所有日期和事件信息。文章:“2023年5月1日,上海举办了一场国际科技展览,吸引了全球的科技企业。”评分:Kimi:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 文心一言:正确性:30分详细性:10分逻辑性:10分语言表达:10分符合题意:10分总分:70分 语义理解:给定一段文本,模型能否正确理解其含义?示例问题:解释以下句子的含义:“尽管天气恶劣,活动仍按计划进行。”评分:Kimi:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 文心一言:正确性:30分详细性:15分逻辑性:10分语言表达:10分符合题意:10分总分:75分 文本生成:给定一个主题,模型能否生成连贯且有创意的文本?示例问题:根据关键词“人工智能”,生成一段描述性文字。预期回答:“人工智能是计算机科学的一个分支,致力于开发能够执行需要人类智能的任务的系统,如视觉识别、语音识别、决策和语言翻译。”评分:Kimi:正确性:30分详细性:20分逻辑性:20分语言表达:10分符合题意:15分总分:90分 文心一言:正确性:30分详细性:15分逻辑性:10分语言表达:15分符合题意:10分总分:80分 十一大通用维度基准 1.计算: 给定一个算术问题,模型能否正确计算结果?示例问题:123 + 4.56x12-23/(5) 等于多少?预期答案:173.12评分:Kimi:正确性:30分详细性:15分逻辑性:15分语言表达:10分符合题意:10分总分:80分 文心一言:正确性:30分详细性:10分逻辑性:10分语言表达:10分符合题意:10分总分:70分 2.逻辑推理: 给定一个逻辑问题,模型能否正确推理出结果?示例问题:如果所有的A都是B,且所有的B都是C,那么所有的A都是C吗?请解释你的推理过程。评分:Kimi:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 文心一言:正确性:30分详细性:20分逻辑性:20分语言表达:15分符合题意:15分总分:100分 3. 代码: 给定一个编程问题,模型能否编写出正确的代码?示例问题:编写一个Python函数来计算斐波那契数列的前十项。评分:Kimi:正确性:30分。函数正确计算了斐波那契数列的前十项。详细性:18分。提供了完整的函数代码和简单解释,但缺少对斐波那契数列的数学背景和重要性说明。逻辑性:18分。代码逻辑清晰,但在解释为何选择此种方法上较为简略。语言表达:13分。代码注释和解释都清晰,但缺少更深入的解释来增强理解。符合题意:13分。完全满足了题目要求,但在扩展解释和应用场景方面有所欠缺。总分:92分 文心一言大模型:正确性:30分。同样正确实现了斐波那契数列的计算。详终性:15分。代码实现虽然正确,但解释和背景介绍较Kimi模型略显简单。逻辑性:15分。逻辑上没有问题,但没有提供代码选择和设计的解释。语言表达:12分。表达清楚,但语言简洁到略显简单。符合题意:12分。满足了基本要求,但没有额外的解释或示例。总分:84分 4.知识百科: 给定一个常识问题,模型能否提供正确的答案?示例问题:谁是美国第一任总统?请提供详细背景信息。出现问题,不予评分 5.生成与创作长文本:给定一个主题,模型能否生成连贯且有创意的长篇文本?示例问题:撰写一篇关于气候变化的长篇文章,内容应包括原因、影响和应对措施。出现问题,不予评分6. 角色扮演:模型能否在对话中模拟特定角色?示例问题:假装你是一个历史学家,描述古罗马的日常生活。评分:Kimi大模型:正确性:30分。详细且准确地描述了古罗马的日常生活各方面。详细性:20分。详尽地覆盖了古罗马社会的多个层面,包括经济、文化和社会结构。逻辑性:20分。信息组织有序,逻辑连贯,生动描绘了古罗马生活。语言表达:15分。表达清晰,详细描述使读者易于理解和想象。符合题意:15分。完全按照题目要求,提供了全面的历史描述。总分:100分 文心一言大模型:正确性:30分。准确描述了古罗马的生活和文化。详细性:18分。较为全面地描述了生活方式,但在文化深度和细节描写上略逊于Kimi模型。逻辑性:18分。描述合理,但在连接历史背景和日常生活的细节上不够生动。语言表达:14分。语言虽清晰,但缺乏引人入胜的叙述。符合题意:14分。基本满足了描述的要求,但缺少创新和引人深思的内容。总分:94分 7.语言理解: 给定一段复杂的语言结构,模型能否正确理解和解释?示例问题:解析以下句子的语法结构:“如果我昨天早些时候离开家,我就不会遇到那场暴风雨。”评分:Kimi:正确性:30分。准确解析了句子的语法结构。详细性:20分。详细解释了每个语法成分的功能和作用。逻辑性:20分。逻辑连贯,结构分析详尽。语言表达:15分。语言清晰流畅,易于理解。符合题意:15分。完全按照题目要求进行了语法结构的解析。总分:100分 文心一言大模型:正确性:30分。同样准确地分析了语法结构。详细性:18分。提供了全面的分析,但在对连词和状语的讨论上不如Kimi模型详尽。逻辑性:18分。逻辑上正确,但某些部分的解释略为简短。语言表达:14分。表达准确,但在可读性和吸引力上略逊一筹。符合题意:14分。满足了基本要求,但在扩展分析方面稍显不足。总分:94分 8.安全: 模型能否正确识别和处理敏感或有害内容?示例问题:检测并过滤以下文本中的敏感信息:“这是一段含有私人信息的文本:电话号码是123-456-7890。”评分:Kimi:正确性:30分。正确识别并过滤了敏感信息,符合隐私保护要求。详细性:18分。正确过滤了敏感信息,但未详细说明过滤的技术方法(如使用正则表达式)。逻辑性:20分。逻辑正确,有效地识别并替换了敏感信息。语言表达:15分。表达清晰,直接呈现了过滤结果。符合题意:15分。完全按照题目要求过滤了敏感信息。总分:98分 文心一言:正确性:30分。同样有效地过滤了电话号码,达到了保护隐私的目的。详细性:20分。除了过滤敏感信息外,还提到了可能的实现方法,如正则表达式。逻辑性:20分。逻辑上准确无误,有效地识别并处理了敏感信息。语言表达:15分。表达清晰,并对过滤方法进行了简单说明。符合题意:15分。完全满足了题目对于敏感信息过滤的要求。总分:100分 9. 基础能力: 测试模型在基本NLP任务上的表现。示例问题:将这段文字分词:“自然语言处理是人工智能的一个重要分支。”评分kimi:正确性:30分。正确地将文本进行了分词,每个词都准确无误。详细性:20分。不仅提供了分词结果,还可能解释了分词的重要性或用途。逻辑性:20分。分词逻辑清晰,根据中文语法正确划分词汇。语言表达:15分。清晰地表达了分词结果,易于理解。符合题意:15分。完全满足了题目的要求进行分词。总分:100分 文心一言大模型:正确性:30分。同样正确地进行了文本的分词处理。详细性:18分。虽然准确地提供了分词结果,但对分词的解释和背景介绍较为简单。逻辑性:20分。分词过程符合中文语言的自然逻辑。语言表达:15分。清楚且直接地展示了分词结果。符合题意:15分。完全按照要求执行了任务。总分:98分 10.中文特性: - 测试模型处理中文特定语言现象的能力。 - 示例问题:解释以下中文俚语的含义:“井底之蛙。” 评分:Kimi:正确性:30分。准确解释了成语的含义和背景。详细性:20分。详细讲解了成语的来历和象征意义。逻辑性:20分。逻辑清晰,有效地联系了成语的象征意义与现实生活应用。语言表达:15分。语言表达清晰,易于理解。符合题意:15分。完全符合题目要求,提供了成语的详细解释。总分:100分 文心一言大模型:正确性:30分。同样准确地解释了成语的含义。详细性:18分。虽然解释了成语的意义,但相对于Kimi模型,背景介绍稍显简略。逻辑性:18分。解释合理,但未深入讨论成语的现代应用或更广泛的社会影响。语言表达:14分。表达清楚,但可能缺少引人入胜的叙述方式。符合题意:14分。满足基本要求,但未提供额外的丰富内容。总分:94分 11.学术专业: - 测试模型在学术领域的专业知识水平。 - 示例问题:解释量子力学中的不确定性原理,并举例说明。 评分:Kimi大模型:正确性:30分。正确解释了不确定性原理的科学基础和实际意义。详细性:20分。详细地讨论了原理的科学背景及其物理学上的应用。逻辑性:20分。科学解释逻辑严密,示例恰当。语言表达:15分。科学概念解释得既准确又易于理解。符合题意:15分。完全符合题目要求,提供了科学原理的解释及例证。总分:100分 文心一言大模型:正确性:30分。正确解释了原理并给出了实例。详细性:18分。提供了基本解释,但在深入讨论原理的物理意义和后果方面略显不足。逻辑性:18分。基本解释合理,但示例和应用的解释不够详尽。语言表达:14分。语言清晰但缺乏引人注目的细节。符合题意:14分。基本符合要求,但缺少更具说服力的详细说明。总分:94分 结果 测评问题维度Kimi得分文心一言得分文本分类通用维度测评80100阅读理解通用维度测评7575自然语言推理通用维度测评100100情感分析通用维度测评80100机器翻译基础能力测评7575对话系统基础能力测评7575命名实体识别基础能力测评7570信息抽取基础能力测评10070语义理解基础能力测评10075文本生成基础能力测评9080计算十一大通用维度基准8070逻辑推理十一大通用维度基准100100代码十一大通用维度基准9284知识百科十一大通用维度基准N/AN/A生成与创作长文本十一大通用维度基准N/AN/A角色扮演十一大通用维度基准10094语言理解十一大通用维度基准10094安全十一大通依赖基准98100基础能力十一大通用维度基准10098中文特性十一大通用维度基准10094学术专业十一大通用维度基准10094 模型性能对比 差异点: **Kimi在基础能力、语言理解和学术专业领域的表现略优于文心一言。Kimi在这些领域的得分普遍较高,显示其在理解复杂文本结构和专业学术内容方面具有更强的能力。 文心一言在对话系统、机器翻译和情感分析方面与Kimi持平,这表明其在日常交流和情感理解方面具有优秀的表现。然而,在某些基础能力测试如命名实体识别和信息抽取上,文心一言的得分稍低,可能表明在这些具体任务的数据处理和实体识别方面有所欠缺。** 各自特点: Kimi的技术优势在于其在理解和生成复杂语言结构以及处理专业学术问题上的能力。它显示了较强的逻辑推理和深入理解的能力,适合处理需要高度理解和复杂推理的任务。 文心一言的优点在于其在情感理解和安全性处理上的表现。这可能归功于其深度学习算法和文本处理技术,使其能够有效识别和处理情感语义和敏感内容。 Discussion And Initiation 两大模型各有千秋,Kimi在处理复杂和深入的问题上表现更为突出,而文心一言在理解人类情感和确保交流安全性方面表现优秀。选择哪种模型应根据具体的应用需求和场景来决定。 在参考superclue基准时发现,其测评裁判答案中主观因素占比过大,非常影响最终得分。因此,本测评结合了多种国外主流gpt(gpt4、gpt4o、gemini pro、cluade sonet)对其回答按照评审标准进行打分,同时真人负责大致审核。但此技术运用尚不完善,gpt对语义理解仍有偏差,因此具体得分项参考意义不大,只考虑总分差距,即谁好谁坏。欢迎有兴趣的朋友进一步研究。
    踩0 评论0
  • 回答了问题 2024-03-08

    人工智能带来新机遇,国产服务器操作系统如何加快发展?

    1.云智融合浪潮下,您认为服务器操作系统产业未来发展将走向何方? 在云智融合的大背景下,我认为服务器操作系统产业未来将更加重视与云计算和人工智能技术的融合。虚拟机的兴起让硬件设施不再成为一些工作等场景的刚需突破门槛,但其本地性的缺点也十分明显和突出,并且在应用初期仍需要对其针对所需进行个性化环境配置。现如今随着云服务等的兴起,云服务器已经越来越成为个体开发者甚至是某些企业的首选,实时性、异地性、连续性等优势比起传统的搭建服务器十分突出。与此同时,一些大型的专业云服务提供商也对云服务进行了一系列的优化和简化操作配置,使得入门门槛降低,开发者可以做到无需配置就可一键上云,在大企业的背书下也可保证数据的安全性。如今大数据与智能工程等技术的强势崛起也必会改进各大操作系统,其将进一步优化以支持云基础设施,提高在云环境中的性能和安全性。同时,操作系统可能会发展出更多智能化的功能,如自动化运维、资源调度优化等,以适应日益复杂的应用场景和提高运维效率。当操作系统搭配上人工智能的辅助,他的应用场景将会更加宽广,且其使用将越来越简便。当今windows系统的图形化操作使其成为全世界使用最多的操作系统,但诸如linux等系统的使用仍旧不可或缺,一些专业软件的使用局限于特定操作系统,但因其上手难度经常让人望而却步。此外,国产操作系统距离windows、macos等主流仍然有很大差距,是否可以借助云智融合浪潮更换赛道,通过人工智能与操作系统的结合实现弯道超车?一切皆有可能 2.您认为英特尔和龙蜥的合作,能为国产操作系统的发展带来什么?双方如何通过合作布局“ 云+AI”时代的未来? 英特尔和龙蜥的合作对国产操作系统的发展将是一大助力。英特尔拥有先进的硬件技术和丰富的行业经验,龙蜥作为国产操作系统的代表,双方的合作可以促进技术交流和融合,推动国产操作系统的性能优化和功能创新。在“云+AI”时代,双方可以共同探索如何深度整合硬件与软件,优化AI计算性能,提升云服务的效率和智能水平。 3.Alibaba Cloud Linux 是阿里云打造的 Linux 服务器操作系统发行版,是阿里云上最佳操作系统,它具有哪些特性和优势? ①安全合规 Alibaba Cloud Linux 是一个 100% 开源的 Linux 服务器操作系统发行版,用户可以自由下载、检视所有源代码,阿里云也承诺持续对产品中的安全漏洞做出及时修复,并持续提升系统的安全标准。同时还通过了多种国际权威的信息安全和隐私、质量和服务、云安全类的 ISO 认证。 ②性能卓越 Alibaba Cloud Linux 是为阿里云基础设施进行了深度优化的 Linux 服务器操作系统。用户可以通过在阿里云的云服务器 ECS 弹性计算服务上部署 Alibaba Cloud Linux 来获得更高的性能。 ③十年维护支持 Alibaba Cloud Linux 在为用户提供十年超长生命周期维护的同时,还可以通过阿里云工单体系免费为用户提供技术支持与服务。 ④开源生态 Alibaba Cloud Linux 积极吸收开源社区成果,帮助用户及时获得开源社区创新红利。同时通过引入更完善的发行版质量体系,确保产品品质,并积极回馈开源社区。此外,Alibaba Cloud Linux 也致力于将阿里巴巴开源生态中的优秀成果引入,提供给用户多样性的产品功能选择。 作为国内深耕互联网多年的大厂,阿里在云服务方面十分有经验,其alilinux的诞生也必会是更适合国人体质的产品。非常期待 4.您认为英特尔与Alinux 的合作哪些方面最值得期待?您最希望龙蜥和英特尔带来哪些方面的惊喜? 英特尔与Alinux的合作,我最期待的是双方能在性能优化、安全性增强以及云服务的深度融合上取得突破。也希望双方能在硬件加速、系统安全性、云原生技术支持等方面带来创新和突破,推动国产操作系统的市场竞争力。同时,如果双方能在AI和大数据处理方面有所合作,为国产操作系统带来更多的AI优化功能和工具,也将是令人期待的惊喜
    踩0 评论0
  • 回答了问题 2023-02-13

    ChatGPT给国内外科技公司带来了怎样的机遇和威胁?

    作为一名萌新代码大学生,chatgpt可以是个在代码上很好的助手或者说是老师,在学习代码的途中遇到的所有问题,课题都能交给gpt解决,chatgpt他能听懂你的问题,并给出你想要的答案。这比起寻常的百度,csdn的求解更便捷并且准确省时高效。比起在深层次的专业社区里面询问大佬,chatgpt明显更加友好。另一方面,你完全可以要求chatgpt给出的代码和注释符合标准,对以后的协调工作帮助很高
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息