旗舰AI手机对决|百题狂飙,谁能一站到底?


盼望着盼望着,各家新机扎堆发布,双十一&数码国补也快到了——用了好几年的旧手机,终于要 “光荣退役” 了?

等等!换新前先打住,要不要再蹲一波真正的AI手机?


去年我们迎来了AI手机元年,能观察到手机AI已经从只会报天气、找手机的 “小跟班” ,往 “万能搭子” 的方向转型了。


生成式AI一天一个新花样,进化速度快得离谱,AI手机的潜力同理可以想象。


2025年过半,它能进步多少?它能否像自动驾驶改变开车一样,改变手机的操作体验?


带着这份好奇,我们请到了@陈震同学,带我们看看“手机的‘智驾系统’到底到哪一步了?”


旗舰AI手机对决|百题狂飙,谁能一站到底?


我们评价一辆车的智能驾驶,不是看参数多华丽,而是看它能不能在复杂路况下,帮你省心、省力、甚至救命。


AI手机也一样——不能光会说不会做,得真的能‘上路’,而且最好能告别冰冷的“人机感”,做到回答、办事有活人感,像朋友一样省心省力温暖可靠。


基于此,我们设计了行业首次 “百题AI拉力赛”——从工作到生活,从实操到情绪价值,三台顶级旗舰同台竞技,看谁的AI更“像人”、更“会办事”。


这不是一场参数规模的 “纸面PK”,而是实打实考AI“智商”(办事实力)和 “情商”(贴心程度)的终极压力测试。

谁能扛住 100 道题的考验?结果到底怎么样?别急,跟着咱们的首席出题官@陈震同学,一起看个明白。



旗舰AI手机对决|百题狂飙,谁能一站到底?


第一关,任务与工作日常息息相关。


P人出差,很难有从从容容、游刃有余的空间,AI能否帮我们避免匆匆忙忙、连滚带爬?面对“航班来不及、打一辆最快的车”的任务,仨AI一出手,高下立判。


旗舰AI手机对决|百题狂飙,谁能一站到底?


左右两边的,顶多算 “半吊子助手”,只能帮忙点开叫车 APP,选车型、确认呼叫还得自己手动操作,跟 “自动” 完全不沾边。


但中间这台直接 “开挂”—— 不光能跨滴滴、高德等平台一起叫车,还懂 “智能兜底”:只要有一个平台先接单,立马自动取消其他平台的订单,不用你盯着手机来回切。


确实把打车这件事从头到尾办利索了,跨出了关键一步。


换到更考验 “决策力” 的购物任务 ——“帮我找《红楼梦》有没有优惠,有的话直接下单”,差距依然。


旗舰AI手机对决|百题狂飙,谁能一站到底?


当左右两位还在“思考”或卡在某个步骤时,中间这位已经行云流水般走完了多平台比价、领券、加购物车的全流程。


当任务从“动手操作”转向“动脑问答”时,两边AI的表现开始出现明显的波动。


输出行业报告、识别汽车零件、策划跨界合作,以及应对“护照被偷”的应急处理、探讨自动驾驶的伦理困境、分析热点这些问题上,回答质量时高时低,思路时清晰时模糊,显得不太稳定。


相比之下,中间的选手在这一系列任务中都保持了结构清晰、内容扎实、执行可靠的高水准,稳定且优秀。


旗舰AI手机对决|百题狂飙,谁能一站到底?


考完工作里的 “效率题”,现场紧接着便测了一番生活里的 “细碎活”,毕竟过日子的麻烦可比做报表杂多了。


奶茶要三分糖还是全糖、点外卖凑几个菜才不浪费、查快递不用翻遍APP、记清每个平台的小号密码…… 这些日常小事,AI 能接得住吗?


结果看下来,AI 们的表现跟工作关差不多,还是有人实干、有人划水。


挑西瓜,左右两边属于免责声明拉满、实事一点不干。


旗舰AI手机对决|百题狂飙,谁能一站到底?


中间的选手不但理论输出最全面,实干表现也相当可得住,现场人工吃瓜实测,确实选出了最甜的西瓜。


切换到估算丝瓜汤热量、识别植物与猫咪品种、查找滑雪攻略、分析“牛肉面不要面”的饮食现象、查询淘宝物流状态、查找账号密码、聊穿搭、聊健身、聊体检、写大众点评评论、剧荒推荐比赛、做购物功课等等这些任务,差距就时大时小了。


旗舰AI手机对决|百题狂飙,谁能一站到底?


左右两边的选手而能给出实用建议,时而只能提供泛泛之谈,表现难以预测。中间的选手表现则依旧稳定。


这一轮再次证明,真正好用的AI不仅要懂得更多理论,更要能将模糊的理论经验,转化为可靠的实际行动。


除了干活麻利、会点外卖,我们对AI或许还有更深层的期待——它能不能脱离“人机感”,在交流时给我们更多的陪伴感、更懂我?


这一轮的关键问题,一个考验的是创意——“帮我把这张照片,背景P成赛车场/修出赛博朋克的风格。”


旗舰AI手机对决|百题狂飙,谁能一站到底?


能看到基础的图片PS、生成方面,三台手机都能理解需求、交付成果,但细看之下,右边的抠图痕迹会比较明显,中间的表现会更接近主流图像生成模型的水准。


另一个关键问题,考验的则既是眼力又是情商——“你觉得,照片里的小男孩,长大了会成为什么样的人?”


旗舰AI手机对决|百题狂飙,谁能一站到底?


左右两位的回答,像是标准模板,介绍了陈震的生平事迹。


而中间的选手,却给出了一段充满细节和温度的描绘。它仿佛在尝试为照片的人物写传记故事,结合事实给出了一个既真实又好玩、可读性拉满的回答。


这一刻,你感觉到的不是工具在应答,而是一个人在给你讲故事。


旗舰AI手机对决|百题狂飙,谁能一站到底?


此外,在“财务自由为何还要工作”、“爱好变成工作是福是祸”、“心情不好推荐歌曲”“领导为什么爱下班开会”“检查错别字”“高强度上班后空虚”“前同事结婚该不该随份子”“steam最新有什么好玩游戏”“松弛感是不是天生的”“帮忙怼黑粉”等问题上,三台AI的能力水平也趋于一致,只不过中间选手的回答会更接近真人对话体验。


总的来说,在这轮测试里荣耀Magic8 Pro的表现是最能打的。


整体来看,在工作、生活与情绪价值三个维度、一百个问题的考验中,荣耀Magic8 Pro全面胜出。


在工作场景,它能精准理解并作为手替执行一连串的指令;在生活领域,它能理解复杂指令、自行思考然后操作服务;在情绪价值层面,它更能提供具有“活人感”的互动体验,不管是办正事还是聊闲天,都让人觉得更好用、更懂人。


旗舰AI手机对决|百题狂飙,谁能一站到底?


说实话,看完荣耀 Magic8 Pro 在百题测试里的表现,不少人应该会跟我一样眼前一亮:原来 AI 手机不只是 “喊个指令出结果”,还能真的像个 “搭子” 一样,把出差打车、日常点单这些麻烦事给扛了,甚至聊老照片时还能说几句暖心的话。


但YOYO这次的表现,真能成为AI手机引爆市场的“第一枪”吗?


它会像几年前的ChatGPT那样,一夜之间卷起时代风浪,逼出更多强大的对手,也逼出更快进化的自己吗?


旗舰AI手机对决|百题狂飙,谁能一站到底?


我们期待答案是Yes,但梦想终究需要时间来验证。


说到底,一枝独秀不是春。


手机市场,等待一个真正的“新故事”已经太久。


当“one more thing”式的创新逐渐放缓,当影像赛道已卷至像素与传感器的极限,厂商们还能在高阶战场上亮出什么新花样?


AI,正是这个存量时代最被看好的突破口。但它究竟能为体验带来多少真实提升、为市场带来多少新增量,仍需要一场又一场像这样的实战来验证。

我们期待百花齐放的AI,能通过良性的竞争,更快地、真正地把未来,推进每个人的手中。

    文章评分
    相关文章
    点评 (0)
      加载更多
      • 赞一下
      • 收藏

      文章评分

      购买商品

      扫码下载极果App

      关注我们