你的公益还停在捐款箱?看看开发者如何改变世界(二)
【新智元导读】代码虽冰冷,开发者有热情。多年来,AI的力量已经渗透到社会公益之中,这是一片无利益竞争的净土,以BAT等为主的互联网科技企业都已深耕良久,纷纷发起公益计划,依托企业提供的前沿AI技术,开发者们可以化想法为程序,履行时代缔造者的重任。
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
【6月更文挑战第20天】探索AI如何理解与生成图像和文本,VLM结合图像与文本映射,涉及图像描述、问答等任务。论文由多所名校和机构研究人员共创,介绍VLM历史、类型(对比学习、掩码、生成、预训练)及应用,如图像生成和问答。同时,讨论数据质量、计算资源和模型可解释性的挑战。[阅读更多](https://arxiv.org/pdf/2405.17247)
深度学习之图像描述生成
基于深度学习的图像描述生成(Image Captioning)是一种将计算机视觉与自然语言处理结合的任务,其目标是通过自动生成自然语言来描述输入的图像。该技术能够理解图像中的视觉内容,并生成相应的文本描述,广泛应用于视觉问答、辅助盲人、自动视频字幕生成等领域。
请把注意力放到百度AI上:技术、芯片和无人车更值得被关注
今天的 AI 开发者大会上,百度又一款语音 AI 芯片「鸿鹄」亮相,宣布百度飞桨与华为麒麟芯片达成深度合作,首次亮相了无人驾驶出租车项目「Apollo Go」。一手技术新进展,一手 AI 商业落地,这届百度开发者大会的亮点全在此文。