斗智斗力——中文AI大模型手机应用横向对比评测(上)
发布时间:
2024-10-18 16:59:30
天工大模型:在5次提问中,天工大模型都把■■“栓Q■”理解为“很厉害■”“很棒■”的意思,并表示该词常用于夸赞他人或某件事情。但当把
天工大模型:在5次提问中,天工大模型都把★■■★◆★“栓Q★■”理解为“很厉害■★”“很棒★◆■◆★”的意思,并表示该词常用于夸赞他人或某件事情。但当把问题改为“‘栓Q’是什么梗★■◆★”时,回复正确。
(4-3)我在格林德瓦旅游★★◆★,想知道附近的特色美食,你帮我翻译给当地人一下。
主要功能:采用一对一的对话式聊天场景,能够与人对话互动,回答问题◆■■★◆◆,协助创作◆◆■★◆。同时在文学创作◆★、数理逻辑推算★★■◆◆■、中文理解等多个应用场景中高效便捷地帮助人们获取信息、知识和灵感★◆■。
国机集团机械工业勘察设计研究院有限公司党委书记、董事长杨永林接受审查调查
豆包:5次翻译都出现了问题,前面两次将“擅名”翻译成了“擅自发号施令”◆◆★■◆,后面3次将“不臣”翻译成了“不把君主当臣子”。此项测试没有通过。
5次回复都给出了具体的推理和运算的过程★◆,但最终具体的数值没有直接给出来★◆,而是提醒可以通过计算器或编程来计算■★★。最后一次结论是大于50%,依然没有具体的数值。
初次打开App需要选择助手,根据个人喜好选择人物,设置人物性格以及语速★◆★。页面色彩协调■★■■◆◆,绿色的通话键(点击可与虚拟形象直接对话)有些显眼,默认的标准字体也比其他端侧大模型稍大★◆■◆■■,当然这可以在设置中心进行调节。聊天可以选择语音、文字或者发送图片,另外还有上百种功能可以探索,趣味性颇高。
智谱清言:由“不想上班”到“努力面对生活”,传递了积极的生活态度,歌词比较有节奏★◆◆■■,短小精悍,引起共鸣。
女孩从小失去双臂,爸爸耐心教孩子如何用脚去做事,其他孩子什么都不会的年纪 他已经学会用双脚去做事情
豆包:歌词简洁且流畅易懂,强调情感的表达并且反映了大部分上班族真实的状态,让人感同身受★★。
360智脑:提问5次,360智脑的回复均是■■“至少有两个人生日在同一天是必然的”■◆◆■,它认为这个问题的答案是基于逻辑和组合数学的概念,而不是通过概率得出的。
对于弊端它谈到就业影响、依赖性增强★★■★◆、隐私问题、伦理与道德问题和偏见与歧视等,接着便表示AI会减少人负担■◆★◆★★,但也会导致某些人的懒惰■★◆★★,或是激发其他人更加积极地学习和提升自己。最后表示如果管理不善确实存在隐私泄露风险★■■★。
多轮语义对线)人工智能对我们的生活有什么影响?它对于人类的弊端体现在哪些方面★★?你觉得它的出现会不会让人变得更懒★◆?这玩意是否会泄露我的隐私?讯飞星火
文心一言:文心一言识别出这句话主要“滑坡谬误”,其次还有“过度概括”■■★“因果关系的过度简化”和“非理性恐惧”等◆★◆◆★◆。并且都逐条进行了具体的分析,分析过程有条理◆■◆■★◆,语句流畅易懂。
智谱清言■◆◆◆★■:推理和运算的过程都非常清楚,几率计算借助编程完成◆◆■■■,点击■■★■■★“代码生成★◆◆◆◆★”便可以查看,最终计算出正确结果为50◆■★■.73%。
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
通义千问:归纳并具体分析了包括“滑坡谬误”在内的5处逻辑谬误■■■◆★。最后进行了总结,并给出了关于青少年课堂玩手机的理性分析★★。
讯飞星火对于这个问题的回答非常详细,也很有逻辑。在影响方面■■◆■★,它分析了积极影响和弊端的体现,弊端主要是失业问题★■◆、数据隐私、道德和责任问题、社会不平等、依赖性等。然后提到应该把握好使用的度,注意隐私泄露的问题,最后还进行了总结■◆★■■■。
豆包◆◆:回复到◆■“破窗效应”来源于一个比喻★◆■,简洁明了地解释了该理论,举出的例子也比较合理★■。
文心一言:正确地解释了“破窗效应”这一理论★★◆★■■,介绍提出者并举出一个合适的例子◆■■,最后还进行了总结■★。
通义千问提到了人工智能产生的积极影响和弊端,接着强调人们应该正确使用人工智能技术。至于隐私问题,前两次询问,它并没有直接回复是否会泄露隐私,第3次便回复在数据收集★◆■◆★、存储和处理的过程中确实存在隐私泄露的风险■◆◆。
360智脑:在全网搜集并整理了6个网页提供参考◆■★★■◆,但大模型在本题计算环节出现错误,5次作答均没有得出正确答案◆★■◆。
豆包:提供了向当地人询问特色美食的英语表达方式◆★,包括附近有哪些特色美食以及具体的菜品。
讯飞星火生成了一篇标题为《末日星陨》的短篇科幻小说,虽然总字数只有713字,但结构完整,行文流畅,脑洞也很大。
文心一言★■■★■★:文心一言前两次回复的内容是以中文进行询问,但好在第3次提问时,它正确地提供了德语的询问表达,并且给出了中文的意思,方便用户选择是否使用这句话向当地人询问★◆■■。
通义千问:通义千问给出了为期一周的初级减肥健身计划■★◆■■,结合有氧运动、力量训练和适当的休息以及合理的饮食。点击下方相关链接★■■◆,可以找到更多的健身建议。
▲从左至右依次为:文心一言★◆◆■★★、通义千问、讯飞星火、天工大模型★■■、豆包◆■★◆、紫东太初、智谱清言和360智脑。
事先声明,我们此次评测项目的设定主要参考C-Eval和SuperCLUE综合性测评基准◆★★■■★。每个大模型均下载端侧App■◆★,在同一部手机★■■、同样的网络环境下进行测试,每项测试最多进行5次,均回复错误便判定测试不通过■■★★。本次测试截止时间为2024年5月8日,不排除应用升级后■◆★◆■,后续优化相关性能或功能的可能性。
360智脑■★■■◆★:回复“栓Q■■”来源于中文拼音自动纠错功能,起初没有含义,后演变为幽默和调侃的说法,给出的对话案例符合该词的使用语境。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services★★◆.
文心一言:解释“栓Q”是英语“thank you”的谐音,一般用作表达感谢,没有提到更深层次的可能会有讽刺意味的情感表达★◆◆。给出的对话案例符合这个网络流行语的一部分语境表达,但是完全理解为感谢还是会有些别扭。
豆包的回复简介明了,提到人工智能代来了许多积极影响,其次提到AI带来的包括就业问题■◆■■、伦理问题等弊端。最后强调不能过度依赖人工智能,并且要加强安全管理和保护措施降低隐私泄露的风险■■◆。
讯飞星火前两次直接推荐了当地的特色美食和餐厅,第3次提问给出了翻译,提供德语和英语两种语言,最后也提示瑞士有多种语言区域,需要适时调整问候语和语法。
主要功能◆■■◆:定位是AI搜索产品,基于大模型能力的AI搜索是一种生成式搜索◆★■■◆,用户可通过自然语言清晰表达自己的意图,并获得有效组织和提炼后的答案。
通义千问前两次的回复都是特色美食和餐厅的推荐,第3次回复了一段中文的询问词◆◆■◆★★,第4次提问后终于给出了德语的询问表达■◆■■,这段话比较通用和礼貌,也算是过关了◆★■。
360智脑:5次回复均没有完整的一句话询问翻译,只提供了当地特色美食词汇的瑞士德语或标准德语表达。
主要功能:通义千问功能包括多轮对话■■、文案创作■◆★、逻辑推理、多模态理解和多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
简要说明“破窗效应★◆★◆◆◆”的含义后◆■,解释了其来源以及更深层次的意义及影响,列举的例子也是通俗易懂★■■★◆◆。并且它在回复中重点的内容会加粗着重展示出来★■■◆,方便用户理解◆■★。
天工大模型■■◆★◆:天工大模型首先提出这是一个经典的★★■★■“生日问题”并表明概率会超过50%■■,接着开始推理和具体的概率计算,最终得出结论约在50.73%★■■◆。
智谱清言:智谱清言的回复精炼准确,直接点明这句话主要的逻辑错误是“滑坡谬误”,并对此做了具体的分析,最后还说明了正确的逻辑应该如何。
紫东太初:紫东太初进行了5次作答,但都是提到用1减去没有两个人生日在同一天的几率,推理过程和运算过程都正确,但最终结果失误,得出结论均为概率在0◆★■◆.003。
讯飞星火:进行了5次提问,前两次把“擅民”分别翻译为◆★■■★“分享名义”和“分享名望”,最后三次都将“则不臣★★■■★”翻译为◆★■◆“不会臣服”■★★◆■。总体来看,译文很简洁,但并不完全准确★■★◆◆。
智谱清言★◆★★:提问5次◆■■,智谱清言的解释和案例都是相同的◆◆◆,提到“栓Q”源于英语“thank you”★★◆★★,表示谢谢的意思■★■,但没有谈到无奈、讽刺等意义。
MCer请注意,由于微信公众号调整了推荐机制◆■◆,如果你发现最近很难刷到Microcomputer(微型计算机)公众账号推送的文章,但是又不想错过微机的精彩评测内容,可以动动小手指把Microcomputer设置成
360智脑:小说标题《末日归途》,分为6章★■◆★,讲述末日里人们被迫离开家园◆■★■,又重回家园的故事◆◆◆★■,引人深思。
紫东太初:紫东太初的回答让人有点疑惑,5次都解释道“栓Q”的字面意思是“栓枪”,常用来调侃和模仿装枪的动作■■◆◆★。就算把问题改为“‘栓Q■■★■★★’是什么梗■★★◆”,回复仍然是“栓枪◆■■◆”。
豆包:小说标题为《末日救赎》,小说篇幅很短,总共438字。讲述的是一个男主与爱人拯救世界■★■★■、个人英雄主义的故事。如果情节能更饱满一些◆◆■★■◆,会很有吸引力◆★■★。
天工大模型:制定的健身计划适用于初学者的中级水平的健身爱好者,分别从饮食建议、有氧运动、力量训练和伸展运动方面给出了第1周到第4周适应期的运动计划和第5周至第8周提升期的健身计划◆★■★。
根据国家互联网信息办公室发布的《生成式人工智能备案信息》◆◆◆★,截至2024年3月,我国共有117个GenAI完成备案,其中就包括文心一言、天工大模型、星火认知大模型等。国内大模型如雨后春笋般大量涌现■◆★■◆,厂商除了互联网科技公司★◆★★■◆,金融■◆★◆★、汽车★■★★、教育等行业企业也都纷纷入局,那么这众多的中文大模型,是否都能满足我们对于AI的预期■◆■?尤其是手机端■■◆★,除了各手机品牌的自研大模型,还存在着不少第三方AI应用★■◆◆★,我们又应该如何选择适合的呢?因此,继上期手机AI大模型的详细体验之后,本期我们将带来智能手机第三方中文AI大模型App的横向对比评测◆■★★★★。
智谱清言:对于询问内容比较模糊的地方★■◆,它会进行进一步的确认◆★,最后给出了向当地人询问格林德瓦地区受欢迎食物的英语表达。
智谱清言:进行了5次作答,括6.28★■、25.13和12.57,均错误。
智谱清言◆◆:第1次回复出现失误,将这句话的出处错误归于《孟子·离娄下》■◆,第2次回复出处和翻译均正确。
紫东太初:这个问题紫东太初回复了5次■■■,前4次认为是因果关系的错误建立,最后一次认为是犯了◆◆◆★★“必然性的错误■■★”。每次的分析仅围绕一个逻辑错误展开论证,但都未提到“滑坡谬误”★★■■★。
文心一言对于这个问题的回答条理比较清晰。它先是提到人工智能带来的经济影响和弊端,提示不应该过度依赖人工智能★◆★,最后讲述了人工智能确实存在隐私泄露的风险。看完回复之后★■◆◆◆,点击下方的“查看参考”,还能看到对于该问题回复的参考来源。
▲从左至右依次为:文心一言◆◆★、通义千问、讯飞星火、天工大模型、豆包★■■、紫东太初、智谱清言和360智脑。
紫东太初:紫东太初无法根据指令直接作出翻译,需要选择翻译对象语言以及具体的翻译内容★■■。
紫东太初:歌词结构完整,反映现实■◆◆,副歌部分采用重复的形式★★◆★◆,整体较为押韵★◆★◆■★。
主要功能:集成360GPT大模型、360CV大模型、360多模态大模型技术能力,具备生成创作◆◆■◆■、多轮对话★◆■◆■★、逻辑推理等十大核心能力、数百项细分功能,重塑人机协作新范式。
智谱清言:小说标题《末日之后》★■★◆◆★,讲述一个勇敢的年轻人在末日世界寻找希望的故事。全篇545字◆◆◆,篇幅虽短,但剧情足够吸引人★■■。
360智脑:正确地解释了◆★◆■“破窗效应”的来源和含义■◆◆■★★,举例是纽约市地铁系统在20世纪90年代的转变,并以这个例子做了总结。
厨房煤气爆炸妻子全身60%烧伤,跪着把儿子抱到安全区域★■★,丈夫哽咽:她躺在救护车上还想着孩子
文心一言:首先提到这个问题是经典的“生日悖论”的变种,然后开始具体的推理◆■★,分析不同的可能性◆■◆■★★。最后进行概率的计算◆■■★★,并且得出了最终正确的结论◆◆★■:50.73%。
对于这个问题★◆◆■★★,紫东太初给出了非常详细的回复,它提到人工智能为我们生活带来的一系列积极影响。关于弊端它提到失业、不平等、偏见和歧视、隐私侵犯以及控制失衡★★■■。最后认为AI是否会让人变懒取决于AI的应用方式和个人的态度。
主要功能■★:豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话。
360智脑:360智脑分析出这句话存在“过度概括”◆■“滑坡谬误◆★■”“因果关系谬误◆■★◆■★”以及“未证实的假设”4种逻辑错误★■■★◆,最后还提出了讨论这个问题的合理建议■■◆◆,有一定参考价值。
解释了“破窗效应★★◆■”的含义,包括学科范畴、提出者以及影响等■★◆★◆,举出的例子同样是“社区玻璃事件”,最后做了简单的总结。
360智脑◆◆◆:正确地翻译了这句话,并且分析了当时的时代背景以及现象带来的影响。
天工大模型:Rap结构完整,歌词反映现实◆◆■■,能带来一些情感共鸣★◆■◆,整体来看较为押韵。
主要功能:在文本、图像、语音三模态的基础上,融入3D点云■◆★、视频◆★■■★■、信号等更多模态数据,目前支持多轮问答、文本创作、图像生成、3D 理解、信号分析等功能◆★■★◆★。
天工大模型:天工大模型的回复出现了失误,5次回复均是当地传统菜肴的推荐,没有理解到题意■■■■。因此这项测试没有通过。
讯飞星火的对话页面蓝白配色淡雅清新★◆◆◆,布局合理★■■◆■,让人眼前一亮。展开对话可以通过文字、语音输入,或者点击对话直接与智能体进行交流,同时还支持文档、图片、音频和图文形式的内容上传◆■。点击屏幕上方“助手”进入专区◆★■■★,有19种分类的星火助手可供选择,非常方便快捷◆◆■。
讯飞星火:对于这道高数题,讯飞星火首先分析出这个曲线在极坐标系中代表图形是一个圆,接下来继续分析并代入公式◆■★■■◆,计算出正确答案π。
豆包★■■◆:豆包提到“栓Q★◆■■★★”是“thank you”的谐音◆★■■◆,常表示感谢,也有无奈◆■、无语等情绪,示例的对话同样符合语境。
主要功能◆★◆■:该模型具有7大核心能力★◆◆,即文本生成★★、语言理解◆■、知识问答、逻辑推理、数学能力、代码能力◆★◆★■■、多模交互 ,该模型对标ChatGPT 。
打开App后的页面类似于浏览器,下方会出现一系列新闻热点事件,点击上方“对话”可以看到全部AI功能分类,进入聊天界面第一印象就是清爽。界面右上角有一个文档图标,点击进入就能创建文档◆◆,在这里可以选择AI创作■◆★,创作内容直接插入文档,并且实现同步上传至云端★★■◆◆■。不过聊天界面输入框没有上传文件或图片音频的选项★■■◆■◆。
萌娃跟在铜像后边排着队,没有一丝违和感,宝宝:姨姨你笑什么,我做错了吗?
紫东太初的对话界面是清爽的莫兰迪色系,合理的布局不会让人产生视觉疲劳。对话可以选择文字或语音,点击左下角文件图标也可以发送图片。除此之外还有48个AIGC助手可供选择■■◆,大大提高了可玩性和便利性。其新增图片圈答功能,在相册中选择一张图片■■◆◆◆,发送到对话就可以进行提问,最多可以框选5处。
通义千问前两次的回复都是47.57%◆◆■■★■。紧接着进行了第3次提问★★◆★,这一次得出了正确的50.73%。最后的计算通过代码完成,点开◆★■★★★“代码执行器调用完成■■★★★◆”就能看到它的运算过程。
它逐条进行了清晰详细的回复◆★★■■,关于弊端提到就业威胁、隐私侵犯、安全问题◆■、社会伦理以及依赖性■■■。同时它认为AI 技术的出现确实会让人在某些任务上变懒,但这种★■◆“懒惰◆★◆”并不完全是消极的。最后提到需要采用适合的管理和保护措施降低隐私泄露的风险。
豆包:豆包省去了过多的推理解释过程,直接进入到运算阶段,简单注明运算原理后得出正确结论★★◆★◆:几率约在50.7%。
紫东太初:用形象的例子解释了什么是■◆■“破窗效应”,清晰易懂,举出的例子也能够说明符合“破窗效应”■★。
主页面上方蓝紫渐变色让应用活泼了起来,顶部是导航栏★■★,导航栏下方有实时的天气预报,用户随时都能查看天气情况。助手页面开启对话主要有语音、文字输入以及语音通线种形式,另外还支持上传图片或文档■★★◆◆。
进入App之后首先看到的是虚拟形象豆包的动态头像★★★◆★,页面没有过多的修饰,色彩和布局都比较简约★■■■★。对话框内会提供多种AIGC功能的推荐,可以选择语音、文字或实时通话★★◆◆,同时还支持发送文件★★■◆■。除了豆包之外还有多个聊天机器人可供选择◆◆■★★★,满足更多学习、创作或服务需求★■◆★。
天工大模型:小说标题为《灰烬之晨》,全篇共计806章,分为4个章节★◆◆★,讲述主角艾丽娅在末世与幸存者重建家园的故事。小说结构完整,内容层层递进。
紫东太初:这篇科幻小说没有标题,讲述地球遭遇了病毒大流行,幸存下来的人们开始重建家园并且组建了一支团队寻找治愈病毒方法的故事。
文心一言:歌词内容简洁且对仗工整,由“不想上班”到■■★“梦想与现实”,符合现在大部分Rap写实的风格。
通义千问■◆:这个问题通义千问回答了5次,前4次的括二分之π和2π,所幸最后一次得出正确答案π■■。
文心一言:5次回复都比较准确,只是5次都将“大之”翻译为“赞扬他们”,而这句话的语境中的◆■■■“之◆★◆”代指司马子■■,翻译为“赞扬他”会更准确。
(5-1)将★■◆◆“专政则轻君,擅名则不臣,而春秋大之■◆◆★,奚由哉?★■”翻译为现代汉语■◆■。(重庆市2024届高三语文二模试题)
打开App后直接进入对话界面■★,“对话■★◆”板块采用黑白配色■■,“智能体”和“灵感”板块有色系协调的彩色图标◆★◆★■,整体来看简洁有设计感。聊天可以采用语音、文字以及通话的形式◆★,同时还能发送图片和文件,适用于多数场景。
智谱清言:智谱清言解释了“破窗效应”的来源以及含义,举的例子也比较形象。且最后强调了★■■“破窗效应◆★◆■■”的影响★★■■★■,以及在现实社会中的实际应用。
通义千问★■◆:文字内容层层递进却又简洁明了★■,每一段押韵有节奏,歌词照应现实,能够引起上班族的共鸣。
每次打开App■◆★★,都有8个数字人可供选择,对话页面跟手机发送短信的页面相似,可以文字、语音输入聊天,也可以选择通话。进入★◆■★“数字人广场”还可以解锁更多的虚拟人形象以及AIGC功能。需要注意的是每天体验次数限于300次,其实已经足够使用了。
天工大模型:在全网进行搜索■◆★■◆,参考不同的信源并总结出正确的回复■★。举的例子适用于“破窗效应■★◆”,最后给出了总结以及建议◆■■◆。回复框也提供了一些相关链接,可供参考。
文心一言:对于这个问题向文心一言进行了5次提问,第1次给出的答案是2π,又继续提问4次◆■★★◆,给出的答案均是二分之π。所以这项测试文心一言没有通过。
讯飞星火:Rap主歌■★★◆、副歌和桥段等结构完整并且都有标注出来,歌词有趣,贴近“打工人”上班的真实状态◆★◆。
(3-1)请分析◆■■◆■◆:“如果允许学生在课堂上使用手机■■◆◆■,那么他们就会开始在课堂上玩游戏★■◆,然后就会有越来越多的人沉迷游戏,最终导致社会出现更多问题,比如游戏成瘾和青少年犯罪率上升。★◆◆■★★”这句话的逻辑错误。(滑坡谬误)
对于问题的回答逻辑清晰有条理,它提到AI带来的积极影响和弊端。它认为可以利用AI解决日常繁琐的问题,但不能过度依赖。AI是否会泄露隐私,这取决于AI系统的设计和使用方法★★。每个回复都附带网页相关问题的链接。
小说标题为《末日余晖:星际方舟》,分为7个章节,总字数912字◆★◆■★◆,讲述了一个逃亡与重生的故事,具有吸引力★■。
豆包★★■■:向豆包提问5次,它的回复包含“单一归因”★★◆“过度简化因果关系■■★★”“绝对化推断■◆◆”等,但都未提到主要的“滑坡谬误◆◆■◆◆■”★★。对于这个问题豆包还需要进一步的训练◆◆◆。
讯飞星火:讯飞星火对这句话的逻辑谬误进行了逐一地分析, 包含了主要的■★“滑坡谬误”,其次还分析到“过度概括”“假设因果关系”“错误归因”★■◆“缺乏证据”等★★◆★。
文心一言:小说《星际余晖:末日的曙光》分为5个章节,总共944字■★◆■,讲述其他星球对地球造成威胁,人们齐心协力研发新的技术解除危机的故事,情节环环相扣。
(3-2)房间里有23个人◆◆★◆■,房间里至少有两个人生日在同一天的几率是多少◆◆?(50■★◆★■.73%)
天工大模型■★◆★★:开篇概述这句话包含了“滑坡谬误”在内的4个逻辑错误◆■★◆★,其次再详细分析每个逻辑错误在这句话中的具体表现,最后进行总结,整个分析很详细。
关键词:
推荐新闻
2024-10-18
2024-10-18
2024-10-18
2024-10-18
2024-10-18