ChatGPT的火爆,让AI大模型成为各大科技巨头争相布局的重点。
无论是国外的微软、谷歌、Meta,还是国内的百度、华为、阿里、商汤等企业,都已经涉足AI大模型的研究与探索。
如同2016年AlphaGo的横空出世一般,AI大模型的爆发也是引发AI变革的划时代里程碑。阿里巴巴集团董事会主席兼CEO张勇甚至认为,所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术以及大模型支撑重做一遍。
英伟达CEO黄仁勋也曾表达过同样的观点,他认为AI产业迎来“iPhone”时刻,AI技术爆炸、产业爆发的趋势已经势不可挡,甚至将撬动涵盖交通医疗、运输、零售及物流在内的百万亿美金的市场。
正如毫末智行董事长张凯在4月11日举办的第八届HAOMO AI DAY的演讲中所形容的,“距离上一届HAOMO AI DAY刚刚过去三个月,却仿佛跨入了一个新周期”,一系列AI大模型的陆续发布,让更多人相信人工智能技术迎来从量变到质变的重大节点。
在第八届HAOMO AI DAY上,毫末智行也发布了业内首个自动驾驶生成式大模型DriveGPT,中文名“雪湖·海若”。△毫末智行董事长张凯、CEO顾维灏、COO侯军、CIO甄龙豹在HAOMO AI DAY现场
对于大模型,毫末并不陌生。此次发布自动驾驶生成式大模型DriveGPT雪湖·海若,既不是毫末的跟风之举,也不是为了蹭GPT的热点。
早在两年前,毫末就已经开始关注并投入到AI大模型技术的研发之中。在AI自动驾驶领域,毫末可以说是大模型研发和应用的先行者。
毫末为什么要研发DriveGPT雪湖·海若?
毫末智行CEO顾维灏说,他在这段时间经常会被问到这个问题。在毫末看来,DriveGPT雪湖·海若将会重塑汽车智能化技术路线,让辅助驾驶进化更快,让自动驾驶更早到来。
张凯判断,2023年智驾产品将进入全线爆发期,“生成式大模型将成为自动驾驶系统进化的关键”。
基于 Transformer 大模型训练的感知、认知算法会逐步在车端进行落地部署,而随着大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。张凯表示,“毫末不断进步的数据驱动的六大闭环能力,将进一步加速毫末进入自动驾驶3.0时代的步伐,并形成相应的护城河”。
01
业内首个自动驾驶生成式大模型
最近一段时间,关于自动驾驶的行业内出现了截然不同的观点。
乐观派认为到2030年之前L3级自动驾驶将会批量落地;悲观派断定,“十年内L3自动驾驶技术都不会到来”;唱衰派则称自动驾驶“都是扯淡...都是忽悠,就是一场皇帝的新装……最终就是一个高级辅助驾驶而已”。
无论哪一派观点,一个不容忽视的现实是,自动驾驶技术的变革才刚刚开始。特别是AI大模型引发的产业应用和变革,更是为自动驾驶技术发展注入全新的动力。
同济大学教授、汽车安全技术研究所所长朱西产也在第八届HAOMO AI DAY上分享了自己的观点:自动驾驶不能长期停留在L2+,还是要去做到L3、L4,最终走向终局的无人驾驶。
毫末也一直相信,AI大模型已成为自动驾驶技术进化的核心动力之一。在今年1月的第七届HAOMO AI DAY上,顾维灏就分享了其智算中心,以及从感知到认知以及仿真的五大大模型,包括视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型。
毫末这五大大模型,与如今爆火的AI大模型有很多共同之处。据顾维灏介绍,DriveGPT雪湖·海若通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化。
现阶段,DriveGPT雪湖·海若主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到DriveGPT,但最终目标是实现端到端自动驾驶。毫末DriveGPT雪湖·海若实现了模型架构与参数规模的升级,参数规模达到1200亿,预训练阶段引入4000万公里量产车驾驶数据,RLHF阶段引入 5万段人工精选的困难场景接管Clips。
DriveGPT雪湖·海若的底层模型采用GPT(Generative Pre-trained Transformer)生成式预训练大模型,不过与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。在实现过程上,DriveGPT雪湖·海若首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。
DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
随着技术不断优化,DriveGPT雪湖·海若将逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。
从用户可感知的角度来看,有了DriveGPT雪湖·海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。也就是说车辆的智能驾驶系统会越来越像老司机,从而加强用户对智能产品的信任感。
顾维灏透露,DriveGPT雪湖·海若的首发车型是新摩卡DHT-PHEV,即将量产上市。毫末DriveGPT雪湖·海若已正式对外开放,开启对限量首批客户的合作,除了魏牌新能源,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、英特尔等已经加入。
毫末DriveGPT雪湖·海若将携手生态伙伴率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。
这将有效促进自动驾驶从业者和研究机构快速构建基础能力。
02
数据驱动技术升级
毫末一直坚信数据是人工智能最大的驱动力,并一直以数据驱动的方式来推动自动驾驶产品的升级。
截止到2023月4月,毫末辅助驾驶用户行驶里程已经突破4000万公里,小魔驼的配送量也超过了16万单,MANA的学习时长超过56万小时,虚拟驾龄相当于人类司机6.8万年。
顾维灏表示,这些数据每时每刻都在增长变化,2023年将迎来指数级增长。
在对数据的大量应用过程中,毫末已经逐步建立起一套基于4D Clips驾驶场景识别方案,并将逐步向行业开放使用。
毫末这套场景识别方案具备极高性价比。给出正确的场景识别标注结果,行业内普遍的价格是一张图片约5元;而使用DriveGPT雪湖·海若的场景识别服务,一张图片的价格将下降到0.5元。此前有业内人士提到,自动驾驶一年要做大概1000万帧图像人工标定,如果单帧图片整体标注成本降低到行业的1/10,这将极大地降低自动驾驶使用数据的成本,并且提高数据质量和效率,从而加速自动驾驶技术的快速发展。
毫末打造的中国首个自动驾驶数据智能体系MANA,在经过一年多的应用迭代后,本次AI DAY也迎来了全面的升级,并正式对外开放赋能。
顾维灏介绍,MANA计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS中;MANA感知和认知相关大模型能力统一整合到DriveGPT雪湖·海若中;第三,增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。
与此针对多种芯片和多种车型的快速交付难题,MANA优化了异构部署工具和车型适配工具。MANA的视觉感知能力持续提升,一方面可同时学习三维空间结构和图片纹理,并将纯视觉测距精度超过了超声波雷达,BEV方案也拥有了更强的通用性和适配性;另一方面可实现单趟和多趟纯视觉NeRF三维重建,道路场景更逼真,肉眼几乎看不出差异。
通过NeRF进行场景重建后,可以编辑合成真实环境难以收集到的Corner Case。在原有的全局视角修改、添加光照/天气效果的基础上,新增合成虚拟动态物体的能力,可以在原有设定的运动轨迹上,合成各种Hard Case,模拟城市复杂交通环境,用更低成本测试提升城市NOH能力边界,更好提升应对城市复杂交通环境。
面对目前行业里最难的视觉任务之一——单目视觉测量,继特斯拉后,毫末也在中国率先开始验证能否使用鱼眼相机代替超声波雷达进行测距,以满足泊车要求。毫末把视觉BEV感知框架引入到了车端鱼眼相机,做到了在15米范围内达到30cm的测量精度,2米内精度高于10cm的视觉精度效果。泊车场景使用纯视觉测距来取代超声波雷达,将进一步降低整体智驾成本。
03
四大战役全面突围,拿下三大主机厂定点
作为中国唯一聚焦自动驾驶 AI 技术的盛宴,每届HAOMO AI DAY,毫末都会分享最前沿的自动驾驶行业趋势,发布最新的技术和产品进展。
这一次也不例外。
张凯以《HAOMO SPEED,AI SPEED》为题,分享了对于2023年自动驾驶发展宏观趋势的判断,以及毫末四大战役及商业化发展的最新进展。
张凯认为,智驾产品正在进入快速增长的全线爆发期,2023年将是智能驾驶冲刺之年、大考之年。城市导航辅助驾驶产品在2023年将围绕量产上车发力,主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。
行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。
在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮;在末端物流自动配送领域,末端物流自动配送车在商超、快递等场景迎来爆发,2023年将在这些场景实现可持续商业化闭环。
在第七届HAOMO AI DAY上,毫末提出要打响“2023 年四大战役”。如今这四大战役在短短三个多月时间内已经取得了快速进展。
在“智能驾驶装机量王者之战”上,据张凯介绍,首款搭载HPilot3.0的新摩卡DHT-PHEV即将重磅上市,第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。截至毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot2.0辅助驾驶日均行驶里程使用率达到了12.6%,而且这一比例也在随着用户认可度的提高不断增加。
在海外布局方面,搭载毫末HPilot的车辆已运往欧盟、以色列等地区和国家,陆续交付到用户手中,接下来将在中东、南非、澳大利亚等市场陆续投放;毫末HPilot即将量产墨西哥版本及俄罗斯版本。
今年3月,高工智能汽车研究院基于前装量产数据库及定点车型库数据进行的年度综合评估中,毫末凭借前装近20款车辆的优异表现,获颁年度高阶智能驾驶系统量产份额领军奖。第三方数据佐证毫末是中国量产自动驾驶绝对领军者,毫末持续引领中国自动驾驶第一名。
“MANA大模型巅峰之战”,中国首个自动驾驶数据智能体系MANA架构已迎来全线升级。到2023年4月,MANA学习时长超56万小时,相当于人类司机6.8万年。毫末DriveGPT雪湖·海若,已经完成基于4000万公里驾驶数据的训练,参数规模达1200亿。
第三是“城市NOH百城大战”,中国首款可大规模量产落地、重感知城市NOH,已在北京、保定、
被“威胁”的从业者真会失业吗“我的优势在于ChatGPT不能替老板背锅!”类似的网友评论看似职场人面对人工智能的无奈与自嘲,实际上也反映了他们不惧被取代的一种自信。红星新闻记者对话程序员、原画师、视频工作者等互联网科技行业从业者,以了解他们在实际工作中对AIGC的应用,以及对ChatGPT的真实看法。程序员:使用ChatGPT可能导致泄密“还没听说过哪个同事在用ChatGPT敲代码,拿来润色周报的倒是不少。”
在互联网公司工作6年的前端程序员小玉在尝试过用ChatGPT生成简单代码后,认为软件的局限性非常明显:规模化的公司都有自己的开发框架,大部分需求也是基于项目的核心代码来做开发。一个简单的复制粘贴,很可能直接导致公司的核心技术泄露。“当AI触及安全红线问题时,程序员及公司会使用类似于ChatGPT的开放平台'以身犯险'吗?答案自然是否定的”小玉说,“但在简单的前端样式或交互设计方面,AI确实能帮助程序员提高效率,但暂时还不能替代我的岗位。”软件测试程序员阿豪把红星新闻记者的采访问题发给ChatGPT,看看它的回答原画师:AIGC作品还是草图和脚本江岩是一名原画师,在成都潜在人工智能科技有限公司从事手机游戏开发运营已7年。
据介绍,公司已经把AIGC作为基础工具在使用,目前AIGC能够生成4K矢量图,甚至生成PS、AI的源文件,但缺少改进步骤,原画师想要润色某一板块、添加某一元素等都难以实现。更多的时候,AIGC作品扮演着草图、脚本的角色。江岩表示,原画师未来会趋向于高精尖,对于图像质量要求不是很高的工作就交给AIGC来生成,对于游戏开发、电影制作这样有高质量要求的就需要原画师精湛的技术了,这样来看AIGC的工具属性也就更强。“
指望智能生成从原画到游戏素材,还有很长的路要走”,江岩表示。视频工作者:代表本人观点没有判断和情感视频工作者“流量歌手贰师傅”早在2022年底就关注了刚刚发布的ChatGPT。他让ChatGPT用英文创作一首Rap的歌词,押韵都是对的;但中文回答的结果就差强人意,韵脚、韵律都不对,无法做到合辙押韵,还有很多需要改进的地方。他认为,目前的AIGC系统更多停留在对现有信息的集成并没有融入人类所具有的判断和情感。“代表本人观点的永远是旧知识、旧信息,想要替代视频工作者或创作新内容是不可能的,仍是辅助的角色”
我个人认为,随着人工技能等拆他gpt技术的不断发展,还是很有可能使底层程序员失业的,我之所以这样说,主要是基于以下几方面的理由:随着chat gpt等人工智能技术的不断发展,已经使其具备了一定编写简单代码的能力,随着进一步的完善,那么很多底层的程序员很有可能因此而变,chat gpt所取代,虽然我们过去认为人工智能所取代的行业更多是一些工业生产领域,但是在软件编程和设计方面已经出现了被chatgp t取代的苗头,只是很多人对此毫无准备而已,而且很多人认为chatgpt的重要意义在于标志着人工智能由分析师AI正式进入到生成式AI阶段,在此基础上,基于自然语言模型的海量训练和快速迭代能够对代码生成代码提示故障诊断,自动测试等环节起到相应的作用,可以具有强大的代码生成能力,实现简单任务的完成代码编程,自然会对于底层的程序员的就业形成很大的冲击。对于大多数的底层程序员来说,如果将来有一天不想被chat gpt所取代,不想失去自己的工作,那么就需要进一步的提升自己,不断提高自身的技术含金量和不可替代性,这样在chatgpt等人工智能进一步发展的情况下,才不会被行业所淘汰,否则自己要么接受自己被淘汰的命运,要么就选择重新转换一个新的行业,但是这样对于自己来说也具有着很大的不确定性,毕竟chatgpt的出现,使人们的就业空间和选择范围进一步的被压缩了。
随着chat gpt等人工智能技术的不断发展,已经使其具备了一定编写简单代码的能力,随着进一步的完善,那么很多底层的程序员很有可能因此而变,被chat gpt所取代。
我们过去认为人工智能所取代的行业更多是一些工业生产领域,但是在软件编程和设计方面已经出现了被chatgp t取代的苗头,只是很多人对此毫无准备而已,而且很多人认为chatgpt的重要意义在于标志着人工智能由分析师AI正式进入到生成式AI阶段,在此基础上,基于自然语言模型的海量训练和快速迭代能够对代码生成代码提示故障诊断,自动测试等环节起到相应的作用,可以具有强大的代码生成能力,实现简单任务的完成代码编程,自然会对于底层的程序员的就业形成很大的冲击。
Chatgpt真的是高情商,可以写小说、写诗、写代码,写稿。
第一,面对提问,ChatGPT做出了高情商回答。在回答“你是否会抢走我的工作”时,ChatGPT回复:我不会抢走人类的工作,而是将为人类工作带来更多的便利。第二,在回答“ChatGPT是否无所不能”时,ChatGPT回应:我仍然有很多局限性和不足,我无法判断一个人的诚意。那么ChatGPT作为一个“聊天机器人”,为什么能有如此多的功能?其实,我们一直都理解错了。严格来讲,ChatGPT并不只是一个“聊天机器人”,而是一个以自然语言为界面的机器人。这是两码事。虽然大多数人都只是将ChatGPT视为一个聊天机器人。但聊天机器人只是它的一个表现形式。它实际上是大语言模型(LLM)的一个代表,一个“以自然语言为界面”的机器人。这是不同的两件事。
“作为一种服务的自然语言界面”,这并不是一个常见的概念——这件事每天都在发生。一个人受教育的过程就是如此:我们不停地训练自己,把书本上的内容翻译成自己可以理解的自然语言。但是你有没有想象过这样一种场景呢——看书的时候,突然有一个精灵浮现在书本上,对你说:“我是这本书里的结构化知识的对话界面。我了解这本书的全部内容。关于这本书,你有什么问题都可以问我。”你就可以通过深入的沟通(聊天)逐步了解了这本书中所包含的知识。在把这些知识投入实际应用的过程中,你也可以随时通过“聊天”的方式,引入这个“精灵”的帮助。
这个当然不会取代底层的程序员。
ChatGPT 是一个自然语言处理模型,可以生成文本、回答问题等,但它不能完全取代程序员。程序员在软件开发过程中扮演着重要的角色,他们需要深入理解业务需求,并通过编写代码来实现解决方案。ChatGPT 可以辅助程序员工作,但不能完全取代他们。
ChatGPT作为一款AI新秀,能在编程领域名声大噪,重要原因在于其所有者OpenAI十分看重其编程能力的提升。Semafor的一份报告显示,OpenAI过去六个月在全球范围内聘请了上千名承包商来培训其 AI 学习软件工程。
培训也是卓有成效。据 Insider报道,一些亚马逊员工已经开始使用 ChatGPT 来帮助编码。
与此一些“程序员要被取代了”的言论甚嚣日上,其实这并不令人意外,过去几十年来,云服务、无服务器计算、低代码和无代码......每个技术浪潮的到来,都会有这样的言论出现。毫无疑问,随着科学技术的发展,软件开发越来越智能化,今年一月份ACM 通讯发表的《编程的终结》就对人工智能编程进行了预测,其作者Matt Welsh 是 Fixie.AI 的首席执行官兼联合创始人,他曾是哈佛大学计算机科学教授、谷歌工程总监、苹果工程主管。他在文章中表示,“‘编写程序’的传统想法正在走向灭绝,除了非常专业的应用程序之外,我们所知道的大多数软件将被经过训练而不是编程的人工智能系统所取代。”
但就目前而言,ChatGPT取代程序员是不大可能的,毕竟它还处于被训练的阶段。
就算人工智能拥有娴熟的编程能力,这也不意味着程序员就会完全被取代,毕竟AI写代码也得先了解需求,而这就需要由程序员来完成,所以以后程序员工作应该是更多地转移到需求分析和架构设计上,而不会因为不用写代码就消失。
以SoFlu软件机器人为例,作为一款在2019年就推出的覆盖软件开发全流程的自动化工具,它通过内置一系列基于AI的开发、测试、产品质量分析和安全审核的功能,可在整个应用程序开发生命周期提供“专家级”帮助,并在人的协助下自动完成软件开发的后端开发、前端开发、测试和运维。
以后端开发为例,开发者只需要在可视化界面通过拖拽组件输入流程图和配置参数,SoFlu软件机器人就能实现等同于编写复杂代码的业务逻辑,在设计业务逻辑时就完成了微服务应用开发,做到“业务即图,图即代码”,实现软件开发,十倍提效。
SoFlu软件机器人的总设计师飞算云智总裁陈定玮表示,“SoFlu软件机器人的宗旨是帮助开发者更高效、更高质量地完成软件开发,让‘人人都能成为软件工程师’,而不是要取代谁。”
说到底,无论是人工智能还是软件机器人,对于人来说,其实都是工具,工具的作用始终在于服务人类,而从来不是取代人类。
Chat GPT是由OpenAI开发的一种自然语言处理模型,具有生成人工智能对话的能力。尽管ChatGPT在生成对话方面取得了很大的进展,但目前它还不能完全取代软件测试。
首先值得指出的是,Chat GPT是一个生成式模型,它主要用于生成自然语言文本作为回答。在软件测试中,测试工程师需要进行多种测试活动,包括验证软件的功能、性能、安全性等方面。许多测试活动都不仅仅是生成文本并且回答问题,而是需要进行复杂的操作和判断,这是Chat GPT目前无法实现的。
Chat GPT并不能像人类测试工程师一样具有项目上下文的理解能力。软件测试通常需要对软件的设计、需求以及业务流程有深入的理解,并且能够根据具体的测试目标制定相应的测试策略和计划。Chat GPT在这方面目前还存在局限性,无法像人类测试工程师一样进行丰富的上下文理解和综合判断。
软件测试还涉及到大量的自动化测试工作,包括编写测试脚本、执行自动化测试、分析测试结果等。虽然Chat GPT可以生成文本,但无法像自动化测试工具那样进行自动化测试,实现快速、高效的测试。
尽管Chat GPT在自然语言生成方面取得了很大的进展,但目前还不能完全取代软件测试。软件测试需要综合考虑多个方面,包括功能测试、性能测试、自动化测试等,需要人工测试工程师进行深入的上下文理解和判断。Chat GPT可以作为测试工程师的辅助工具,提供交流和答疑的支持,但无法完全替代人工测试的功能。
ChatGPT是一种基于人工智能技术的语言模型,其可以生成自然语言文本来与用户进行对话。虽然ChatGPT在处理语言交互方面取得了一定的成功,但从目前的技术水平来看,它无法完全取代软件测试。
软件测试涉及到多个方面,包括功能测试、性能测试、安全测试等。ChatGPT主要用于生成文本回复,其无法模拟用户界面的操作,并对软件的各个功能进行全面的测试。软件测试需要通过具体的测试方案和测试用例,对软件的各个功能进行验证,以确保软件的正确性和可靠性。
ChatGPT虽然可以生成自然语言的回复,但其对于理解上下文、推理和逻辑思维等方面的能力仍存在一定的限制。在软件测试中,有时需要根据特定的测试需求和场景进行复杂的推理和判断,这是ChatGPT所无法胜任的。
软件测试还需要考虑到质量保证和缺陷修复等方面。ChatGPT作为一种生成模型,其生成的回复可能存在偏差、错误或不完整等问题。这就需要人工干预和检查,以保证测试结果的准确性和可靠性。
虽然ChatGPT在一些简单的对话场景中可以模拟人类回复并提供某种程度上的语义理解,但从目前的技术水平来看,它还无法完全取代软件测试。软件测试仍需要结合人工的专业知识和经验,采用多种测试方法和工具来进行全面的测试工作。
ChatGPT的火爆,让AI大模型成为各大科技巨头争相布局的重点。
无论是国外的微软、谷歌、Meta,还是国内的百度、华为、阿里、商汤等企业,都已经涉足AI大模型的研究与探索。
如同2016年AlphaGo的横空出世一般,AI大模型的爆发也是引发AI变革的划时代里程碑。阿里巴巴集团董事会主席兼CEO张勇甚至认为,所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术以及大模型支撑重做一遍。
英伟达CEO黄仁勋也曾表达过同样的观点,他认为AI产业迎来“iPhone”时刻,AI技术爆炸、产业爆发的趋势已经势不可挡,甚至将撬动涵盖交通医疗、运输、零售及物流在内的百万亿美金的市场。
正如毫末智行董事长张凯在4月11日举办的第八届HAOMO AI DAY的演讲中所形容的,“距离上一届HAOMO AI DAY刚刚过去三个月,却仿佛跨入了一个新周期”,一系列AI大模型的陆续发布,让更多人相信人工智能技术迎来从量变到质变的重大节点。
在第八届HAOMO AI DAY上,毫末智行也发布了业内首个自动驾驶生成式大模型DriveGPT,中文名“雪湖·海若”。△毫末智行董事长张凯、CEO顾维灏、COO侯军、CIO甄龙豹在HAOMO AI DAY现场
对于大模型,毫末并不陌生。此次发布自动驾驶生成式大模型DriveGPT雪湖·海若,既不是毫末的跟风之举,也不是为了蹭GPT的热点。
早在两年前,毫末就已经开始关注并投入到AI大模型技术的研发之中。在AI自动驾驶领域,毫末可以说是大模型研发和应用的先行者。
毫末为什么要研发DriveGPT雪湖·海若?
毫末智行CEO顾维灏说,他在这段时间经常会被问到这个问题。在毫末看来,DriveGPT雪湖·海若将会重塑汽车智能化技术路线,让辅助驾驶进化更快,让自动驾驶更早到来。
张凯判断,2023年智驾产品将进入全线爆发期,“生成式大模型将成为自动驾驶系统进化的关键”。
基于 Transformer 大模型训练的感知、认知算法会逐步在车端进行落地部署,而随着大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。张凯表示,“毫末不断进步的数据驱动的六大闭环能力,将进一步加速毫末进入自动驾驶3.0时代的步伐,并形成相应的护城河”。
01
业内首个自动驾驶生成式大模型
最近一段时间,关于自动驾驶的行业内出现了截然不同的观点。
乐观派认为到2030年之前L3级自动驾驶将会批量落地;悲观派断定,“十年内L3自动驾驶技术都不会到来”;唱衰派则称自动驾驶“都是扯淡...都是忽悠,就是一场皇帝的新装……最终就是一个高级辅助驾驶而已”。
无论哪一派观点,一个不容忽视的现实是,自动驾驶技术的变革才刚刚开始。特别是AI大模型引发的产业应用和变革,更是为自动驾驶技术发展注入全新的动力。
同济大学教授、汽车安全技术研究所所长朱西产也在第八届HAOMO AI DAY上分享了自己的观点:自动驾驶不能长期停留在L2+,还是要去做到L3、L4,最终走向终局的无人驾驶。
毫末也一直相信,AI大模型已成为自动驾驶技术进化的核心动力之一。在今年1月的第七届HAOMO AI DAY上,顾维灏就分享了其智算中心,以及从感知到认知以及仿真的五大大模型,包括视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型。
毫末这五大大模型,与如今爆火的AI大模型有很多共同之处。据顾维灏介绍,DriveGPT雪湖·海若通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化。
现阶段,DriveGPT雪湖·海若主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到DriveGPT,但最终目标是实现端到端自动驾驶。毫末DriveGPT雪湖·海若实现了模型架构与参数规模的升级,参数规模达到1200亿,预训练阶段引入4000万公里量产车驾驶数据,RLHF阶段引入 5万段人工精选的困难场景接管Clips。
DriveGPT雪湖·海若的底层模型采用GPT(Generative Pre-trained Transformer)生成式预训练大模型,不过与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。在实现过程上,DriveGPT雪湖·海若首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。
DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
随着技术不断优化,DriveGPT雪湖·海若将逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。
从用户可感知的角度来看,有了DriveGPT雪湖·海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。也就是说车辆的智能驾驶系统会越来越像老司机,从而加强用户对智能产品的信任感。
顾维灏透露,DriveGPT雪湖·海若的首发车型是新摩卡DHT-PHEV,即将量产上市。毫末DriveGPT雪湖·海若已正式对外开放,开启对限量首批客户的合作,除了魏牌新能源,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、英特尔等已经加入。
毫末DriveGPT雪湖·海若将携手生态伙伴率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。
这将有效促进自动驾驶从业者和研究机构快速构建基础能力。
02
数据驱动技术升级
毫末一直坚信数据是人工智能最大的驱动力,并一直以数据驱动的方式来推动自动驾驶产品的升级。
截止到2023月4月,毫末辅助驾驶用户行驶里程已经突破4000万公里,小魔驼的配送量也超过了16万单,MANA的学习时长超过56万小时,虚拟驾龄相当于人类司机6.8万年。
顾维灏表示,这些数据每时每刻都在增长变化,2023年将迎来指数级增长。
在对数据的大量应用过程中,毫末已经逐步建立起一套基于4D Clips驾驶场景识别方案,并将逐步向行业开放使用。
毫末这套场景识别方案具备极高性价比。给出正确的场景识别标注结果,行业内普遍的价格是一张图片约5元;而使用DriveGPT雪湖·海若的场景识别服务,一张图片的价格将下降到0.5元。此前有业内人士提到,自动驾驶一年要做大概1000万帧图像人工标定,如果单帧图片整体标注成本降低到行业的1/10,这将极大地降低自动驾驶使用数据的成本,并且提高数据质量和效率,从而加速自动驾驶技术的快速发展。
毫末打造的中国首个自动驾驶数据智能体系MANA,在经过一年多的应用迭代后,本次AI DAY也迎来了全面的升级,并正式对外开放赋能。
顾维灏介绍,MANA计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS中;MANA感知和认知相关大模型能力统一整合到DriveGPT雪湖·海若中;第三,增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。
与此针对多种芯片和多种车型的快速交付难题,MANA优化了异构部署工具和车型适配工具。MANA的视觉感知能力持续提升,一方面可同时学习三维空间结构和图片纹理,并将纯视觉测距精度超过了超声波雷达,BEV方案也拥有了更强的通用性和适配性;另一方面可实现单趟和多趟纯视觉NeRF三维重建,道路场景更逼真,肉眼几乎看不出差异。
通过NeRF进行场景重建后,可以编辑合成真实环境难以收集到的Corner Case。在原有的全局视角修改、添加光照/天气效果的基础上,新增合成虚拟动态物体的能力,可以在原有设定的运动轨迹上,合成各种Hard Case,模拟城市复杂交通环境,用更低成本测试提升城市NOH能力边界,更好提升应对城市复杂交通环境。
面对目前行业里最难的视觉任务之一——单目视觉测量,继特斯拉后,毫末也在中国率先开始验证能否使用鱼眼相机代替超声波雷达进行测距,以满足泊车要求。毫末把视觉BEV感知框架引入到了车端鱼眼相机,做到了在15米范围内达到30cm的测量精度,2米内精度高于10cm的视觉精度效果。泊车场景使用纯视觉测距来取代超声波雷达,将进一步降低整体智驾成本。
03
四大战役全面突围,拿下三大主机厂定点
作为中国唯一聚焦自动驾驶 AI 技术的盛宴,每届HAOMO AI DAY,毫末都会分享最前沿的自动驾驶行业趋势,发布最新的技术和产品进展。
这一次也不例外。
张凯以《HAOMO SPEED,AI SPEED》为题,分享了对于2023年自动驾驶发展宏观趋势的判断,以及毫末四大战役及商业化发展的最新进展。
张凯认为,智驾产品正在进入快速增长的全线爆发期,2023年将是智能驾驶冲刺之年、大考之年。城市导航辅助驾驶产品在2023年将围绕量产上车发力,主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。
行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。
在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮;在末端物流自动配送领域,末端物流自动配送车在商超、快递等场景迎来爆发,2023年将在这些场景实现可持续商业化闭环。
在第七届HAOMO AI DAY上,毫末提出要打响“2023 年四大战役”。如今这四大战役在短短三个多月时间内已经取得了快速进展。
在“智能驾驶装机量王者之战”上,据张凯介绍,首款搭载HPilot3.0的新摩卡DHT-PHEV即将重磅上市,第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。截至毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot2.0辅助驾驶日均行驶里程使用率达到了12.6%,而且这一比例也在随着用户认可度的提高不断增加。
在海外布局方面,搭载毫末HPilot的车辆已运往欧盟、以色列等地区和国家,陆续交付到用户手中,接下来将在中东、南非、澳大利亚等市场陆续投放;毫末HPilot即将量产墨西哥版本及俄罗斯版本。
今年3月,高工智能汽车研究院基于前装量产数据库及定点车型库数据进行的年度综合评估中,毫末凭借前装近20款车辆的优异表现,获颁年度高阶智能驾驶系统量产份额领军奖。第三方数据佐证毫末是中国量产自动驾驶绝对领军者,毫末持续引领中国自动驾驶第一名。
“MANA大模型巅峰之战”,中国首个自动驾驶数据智能体系MANA架构已迎来全线升级。到2023年4月,MANA学习时长超56万小时,相当于人类司机6.8万年。毫末DriveGPT雪湖·海若,已经完成基于4000万公里驾驶数据的训练,参数规模达1200亿。
第三是“城市NOH百城大战”,中国首款可大规模量产落地、重感知城市NOH,已在北京、保定、
何茗媚飘
-
长孙烟安栋
-
别莲亨莺
-
被“威胁”的从业者真会失业吗“我的优势在于ChatGPT不能替老板背锅!”类似的网友评论看似职场人面对人工智能的无奈与自嘲,实际上也反映了他们不惧被取代的一种自信。红星新闻记者对话程序员、原画师、视频工作者等互联网科技行业从业者,以了解他们在实际工作中对AIGC的应用,以及对ChatGPT的真实看法。程序员:使用ChatGPT可能导致泄密“还没听说过哪个同事在用ChatGPT敲代码,拿来润色周报的倒是不少。”
在互联网公司工作6年的前端程序员小玉在尝试过用ChatGPT生成简单代码后,认为软件的局限性非常明显:规模化的公司都有自己的开发框架,大部分需求也是基于项目的核心代码来做开发。一个简单的复制粘贴,很可能直接导致公司的核心技术泄露。“当AI触及安全红线问题时,程序员及公司会使用类似于ChatGPT的开放平台'以身犯险'吗?答案自然是否定的”小玉说,“但在简单的前端样式或交互设计方面,AI确实能帮助程序员提高效率,但暂时还不能替代我的岗位。”软件测试程序员阿豪把红星新闻记者的采访问题发给ChatGPT,看看它的回答原画师:AIGC作品还是草图和脚本江岩是一名原画师,在成都潜在人工智能科技有限公司从事手机游戏开发运营已7年。
据介绍,公司已经把AIGC作为基础工具在使用,目前AIGC能够生成4K矢量图,甚至生成PS、AI的源文件,但缺少改进步骤,原画师想要润色某一板块、添加某一元素等都难以实现。更多的时候,AIGC作品扮演着草图、脚本的角色。江岩表示,原画师未来会趋向于高精尖,对于图像质量要求不是很高的工作就交给AIGC来生成,对于游戏开发、电影制作这样有高质量要求的就需要原画师精湛的技术了,这样来看AIGC的工具属性也就更强。“
指望智能生成从原画到游戏素材,还有很长的路要走”,江岩表示。视频工作者:代表本人观点没有判断和情感视频工作者“流量歌手贰师傅”早在2022年底就关注了刚刚发布的ChatGPT。他让ChatGPT用英文创作一首Rap的歌词,押韵都是对的;但中文回答的结果就差强人意,韵脚、韵律都不对,无法做到合辙押韵,还有很多需要改进的地方。他认为,目前的AIGC系统更多停留在对现有信息的集成并没有融入人类所具有的判断和情感。“代表本人观点的永远是旧知识、旧信息,想要替代视频工作者或创作新内容是不可能的,仍是辅助的角色”
我个人认为,随着人工技能等拆他gpt技术的不断发展,还是很有可能使底层程序员失业的,我之所以这样说,主要是基于以下几方面的理由:随着chat gpt等人工智能技术的不断发展,已经使其具备了一定编写简单代码的能力,随着进一步的完善,那么很多底层的程序员很有可能因此而变,chat gpt所取代,虽然我们过去认为人工智能所取代的行业更多是一些工业生产领域,但是在软件编程和设计方面已经出现了被chatgp t取代的苗头,只是很多人对此毫无准备而已,而且很多人认为chatgpt的重要意义在于标志着人工智能由分析师AI正式进入到生成式AI阶段,在此基础上,基于自然语言模型的海量训练和快速迭代能够对代码生成代码提示故障诊断,自动测试等环节起到相应的作用,可以具有强大的代码生成能力,实现简单任务的完成代码编程,自然会对于底层的程序员的就业形成很大的冲击。对于大多数的底层程序员来说,如果将来有一天不想被chat gpt所取代,不想失去自己的工作,那么就需要进一步的提升自己,不断提高自身的技术含金量和不可替代性,这样在chatgpt等人工智能进一步发展的情况下,才不会被行业所淘汰,否则自己要么接受自己被淘汰的命运,要么就选择重新转换一个新的行业,但是这样对于自己来说也具有着很大的不确定性,毕竟chatgpt的出现,使人们的就业空间和选择范围进一步的被压缩了。
随着chat gpt等人工智能技术的不断发展,已经使其具备了一定编写简单代码的能力,随着进一步的完善,那么很多底层的程序员很有可能因此而变,被chat gpt所取代。
我们过去认为人工智能所取代的行业更多是一些工业生产领域,但是在软件编程和设计方面已经出现了被chatgp t取代的苗头,只是很多人对此毫无准备而已,而且很多人认为chatgpt的重要意义在于标志着人工智能由分析师AI正式进入到生成式AI阶段,在此基础上,基于自然语言模型的海量训练和快速迭代能够对代码生成代码提示故障诊断,自动测试等环节起到相应的作用,可以具有强大的代码生成能力,实现简单任务的完成代码编程,自然会对于底层的程序员的就业形成很大的冲击。
Chatgpt真的是高情商,可以写小说、写诗、写代码,写稿。
第一,面对提问,ChatGPT做出了高情商回答。在回答“你是否会抢走我的工作”时,ChatGPT回复:我不会抢走人类的工作,而是将为人类工作带来更多的便利。第二,在回答“ChatGPT是否无所不能”时,ChatGPT回应:我仍然有很多局限性和不足,我无法判断一个人的诚意。那么ChatGPT作为一个“聊天机器人”,为什么能有如此多的功能?其实,我们一直都理解错了。严格来讲,ChatGPT并不只是一个“聊天机器人”,而是一个以自然语言为界面的机器人。这是两码事。虽然大多数人都只是将ChatGPT视为一个聊天机器人。但聊天机器人只是它的一个表现形式。它实际上是大语言模型(LLM)的一个代表,一个“以自然语言为界面”的机器人。这是不同的两件事。
“作为一种服务的自然语言界面”,这并不是一个常见的概念——这件事每天都在发生。一个人受教育的过程就是如此:我们不停地训练自己,把书本上的内容翻译成自己可以理解的自然语言。但是你有没有想象过这样一种场景呢——看书的时候,突然有一个精灵浮现在书本上,对你说:“我是这本书里的结构化知识的对话界面。我了解这本书的全部内容。关于这本书,你有什么问题都可以问我。”你就可以通过深入的沟通(聊天)逐步了解了这本书中所包含的知识。在把这些知识投入实际应用的过程中,你也可以随时通过“聊天”的方式,引入这个“精灵”的帮助。
新一代对话式人工智能
一个超级内容生产力工具
基于OpenAI开放平台,使用最新的CHATGPT数据模型,欢迎前往体验
相关推荐
更多