百度文心一言出道即遭群嘲,实测五大能力表现如何?

来源:爱酷猪责编:网络时间:2024-06-10 11:02:15

3月16日下午,百度举行了文心易言发布会。备受瞩目的发布会没有现场产品演示,而是采用“Demo”形式,用事先准备好的问答方式进行演示,瞬间引发了不少吐槽。或许是百度吸取了谷歌的教训,在看到自己的市值因为Bard产品在演示中“失败”而蒸发1000亿美元后,百度也变得谨慎起来。

而且,不少跃跃欲试的用户也被“邀请码”挡住了路,直到当晚,才有极少数用户得以“试用”。

神然收到邀请码之后,立刻对温馨一言的“五大能力”进行了测试,整体感觉温馨一言的回答大部分都流畅自然,产品达到了能用的水平,但对于一些基础问题,无法正确理解问题意思,更不能给出精准的回答,进行多轮对话的能力也有些欠缺。

就在前一天,国内外的人们还沉浸在3月14日上线的GPT-4的讨论中。GPT-4比上一代更加准确,解决问题的能力更强,可以处理超过2.5万字的文本,并且支持图片输入。虽然图片输入还未对外开放,但这款产品已经提升了用户对产品的标准。

《文心雕龙》发布当晚,微软又扔下一颗“重磅炸弹”,召开365发布会,将GPT-4模型引入应用。比如一夜之间做不完的Word论文、数据连接不清晰的Excel表格,都可以求助于GPT-4。这也算是颠覆了工作者的工作方式。

自去年12月以来,国内外企业纷纷加速追赶,百度被视为国内较有机会追赶的玩家之一。相比之下,有用户表示,看到“温馨一言”后,感觉像是被浇了一盆冷水,资本市场似乎并不买账。发布会期间,百度股价一度下跌10%,截至3月16日收盘,百度股价报125.1港元,跌幅6.36%。

不可否认,作为国内首款标杆产品,百度迈出了勇敢的第一步。但百度的大肆宣传已然让外界期待值大增。目前看来,温馨一言高开低走,让外界对其未来前景产生质疑。

百度文心易言对人工智能不够友好

自2月初官方宣布将主攻“短跑”以来,百度文信就吊足了外界的胃口。

然而正式上映时,观众的评价却并不是很积极,诸如“温心很难用一个词来形容”、“”。

对于百度文心与一言合的竞争,英诺天使基金合伙人王胜向深燃形容为“中国PPT VS”。

百度的“文心易言”到底怎么样?发布会上,百度创始人李彦宏从文学创作、商业文案、数学计算、中文理解、多模态生成五个方面展示了文心易言的能力。收到邀请码后,深然也从五个方面体验了文心易言,并将部分答案与接入 GPT-4 或基于 GPT-3.5 的微软新必应进行了对比,试图得出一些结论。

文创方面,在总结最近热播的电视剧《黑暗荣耀》剧情时,温馨依妍的回答与剧情不太吻合,而新兵的回答则更贴近剧情。不过,当沈然提出将电视剧改编成喜剧时,两部作品的表现都不太好,不过新兵对后续问题的回答则更加灵活。

图片来源:

图片来源:New Bing

在商业文案创作能力方面,我们请这两款产品分别针对“温馨一言”设计了广告词,温馨一言设计的广告词更加美观,而新必应设计的广告词则更加注重产品特色。

图片来源:

图片来源:New Bing

数学推理能力方面,温馨一燕对小学数学题答错了,而纽冰最后的答案是正确的。

图片来源:

图片来源:New Bing

在中文理解能力方面,两款产品被要求解读网友对温馨一言邀请码的调侃。结果,温馨一言和新冰均未能准确解读网友的调侃。不过,温馨一言能识别出肯德基是一个快餐品牌,并提醒人们不要将邀请码与特定品牌联系起来。

图片来源:

图片来源:New Bing

在脑筋急转弯对话中,温馨依妍被给予“要电话号码”的任务后,第二轮就忘记了,但是却还记得上一轮的隐藏任务。

图片来源:

图片来源/

多模态生成方面,目前图像识别功能尚未对外开放,文心易言可以根据文字生成图片、语言和视频,但这并不是新功能,之前在百度其他产品中也见过。而且,文字生成的图片有时候并不准确,比如原本想获取一张阿拉斯加犬的图片,但因为描述不够精准,最后得到的是一张动图。

图片来源:

总结一下,从深燃初期的体验来看,“温馨一言”并没有取得惊艳的效果,有时更像是一个搜索引擎,答题方式也比较刻板,情感表达较少,答题的准确率、灵活性、语境多轮对话等方面还有提升空间,而基于GPT大模型的产品在语言组织和创意上更加灵活、流畅、互动性强。

智能客服从业者Allen告诉深燃,以他的主观体验来看,如果正确回答率是90%,那么温馨易言只有70%。不过,至少从用户体验的便捷性上看,温馨易言对于国内用户来说更为便捷。

百度距离这个还有几步?

百度创始人李彦宏对“文心易言”的产品表现稍显缺乏信心,发布会后不久,他就开始主动降低用户预期。他表示,“要对标甚至GPT-4,门槛还是很高的”,“我自己的测试还是感觉有很多不完善的地方”。

产品背后,国内大厂与中国到底有何不同,差距又有多大?

大AI模型之争,最先发生在国外科技巨头之间,随后国内巨头也纷纷跟进。有专家分析,2020年中期GPT-3发布后,双方差距进一步拉大。当时很多人认为,这不仅是技术上的差距,也体现了AI模型开发的新理念。

在GPT-3的基础上我们做了大量的微调和训练,增强交互性,更加产品化,然后就有了3.5版本。

值得注意的是,3月14日GPT-4的发布,拉大了两者之间的差距。相比上一代,GPT-4有很多跨越式的提升,包括逻辑推理能力更强,考试比考生表现更好;支持图片输入,理解图片;能接收大语境,支持2.5万字以上的文本输入和处理;创造力更强,能写代码、小说、剧本。

差距不断扩大的背后,是人才、资金投入、技术积累的差距。

来源/视觉中国

随着该领域的火爆,从业者纷纷表示,要构建大型底层AI模型,资金、顶尖科技人才、技术积累等都是必不可少的要素。

要搭建大型模型,前提是要有资金投入。继2019年获得微软10亿美元投资后,今年又获得微软100亿美元投资,这让它有了烧钱的资本。业内估算,GPT-3涉及1750亿个参数,训练成本约1200万美元。据国盛证券报告,训练一次GPT-3的成本约为140万美元,每次训练任务成本都非常昂贵。

此外,大模型训练的三要素包括大算力、大数据、大模型。有从业者指出,影响最终训练结果的因素有很多,包括清洗、标注、模型结构设计、训练和推理的技术积累等,每个因素的变化都会影响最终的结果。

百度近十年来一直在AI方面投入,包括2019年推出文心大语言模型。2022年,百度核心研发费用达到214.16亿元,占百度核心收入的22.4%。

不过百度离AI还有很大的差距。李彦宏也表示,不管是哪家公司,都不可能在短短几个月内打造出这么大的语言模型。因为深度学习和自然语言处理需要多年的坚持和积累,无法一蹴而就。

王胜曾指出,中国队即便追上来了,静态上两三年能追上也是乐观的局面。但如果对手不断进化,进步速度远快于追赶速度,那可能永远追不上。只有对手遇到瓶颈不得不停下来,或者国内选手找到新的技术路径,才有可能追平。

人工智能,百度不能输的一场战役

相比完美世界,温馨一言更注重“争第一”,李彦宏强调,“对标的话,百度在全球大公司里是第一。”

大模型带来AI产业变革并将成为未来十年的主流趋势文心一言邀请码,已经成为行业共识。

想要进入这个市场分一杯羹的玩家还有很多,自去年12月发布以来,无论是一级市场还是国内外各大厂商,都在大举布局机型和研发产品。

国内一级市场,投资机构急于投规模化模式企业,行业几乎每天都在发生大量的认知迭代。与此相对应的是创业热潮。包括前美团联合创始人王慧文、出门问问CEO李志飞、前搜狗CEO王小川、前京东高级副总裁周博文等一批大佬都在奔向规模化模式赛道。

国内大公司尤其如此,除了百度,阿里、腾讯、华为、字节跳动、科大讯飞、商汤科技等均没有放弃大模式的争夺。

相比其他互联网巨头,AI是百度“输不起”的一场战役。王胜分析称,从企业角度看,腾讯、阿里等巨头都以AI为支撑现有业务,但AI对百度而言是生死攸关的事,需要“拼死一搏”,也会用“破釜沉舟”的方式发展新产品。

来源/视觉中国

在百度的营收结构中,广告是最大的部分,2022年占比约60%,但近年来不断萎缩,已被阿里、腾讯等大公司超越。百度需要改变搜索引擎,才能重振广告业务。另一方面,百度近年来在AI方面投入巨大,也一直向外界强调AI能力,将以AI为特色的百度智能云视为重要增长曲线。

GPT-4 发布后,通过 Plus 付费版本以及面向企业的开放接口,百度正在从一个小型非盈利实验室转型为一家成熟的商业公司。艾伦认为,百度作为大型互联网公司,规模比较大,很多业务线都可以直接使用文心易言,享受商业化的红利。

此外,AI大模型时代的到来也会带来大量的行业机会。李彦宏在发布会上表示,大语言模型带来三大行业机会:第一类是新型云计算公司,其主流商业模式已从IaaS转向MaaS;第二类是做行业模型微调的公司,是通用大模型和企业之间的中间层,他们拥有行业(技术诀窍),调用通用大模型能力,为行业客户提供解决方案;第三类是基于大模型基座开发应用的公司,即应用服务提供商。

虽然《温馨一言》与相比可能还存在一些差距,但并不代表它没有发展空间。

一方面,百度在国内市场领先于同行,推出了成熟的产品;另一方面,当国内用户和企业难以流畅使用时,需要有本土产品来提供服务。在“技术劣势”的情况下,百度依然可以靠本土化取胜。李彦宏也提到,百度在没有做好充分准备的情况下推出“温馨一言”,是因为市场需要。

考虑到信息安全、数据安全等因素,中国必须要有自己的AI大模型。王胜分析称,由于AI算力投入大、技术门槛高,目前国内能做语言大模型的团队非常少,有潜力的团队大概只有10个,最终能成功的可能也只有2-3个。

换言之,百度或许并不需要与竞争对手正面交锋,只要能在国内市场占据领先地位,就能享受中国市场带来的红利和发展空间。

王胜认为,短期内百度的“文心易言”或许达不到市场预期,但中长期来看,百度还是具备一定竞争力的。

新一轮人工智能范式变革才刚刚开始。

*标题图片来自视觉中国。

你觉得温心的这句话符合预期吗?

猜你喜欢
最新游戏更多
热门专题更多
最新资讯更多