盼望着盼望着,各家新机扎堆发布,双十一&数码国补也快到了——用了好几年的旧手机,终于要 “光荣退役” 了?
等等!换新前先打住,要不要再蹲一波真正的AI手机?
去年我们迎来了AI手机元年,能观察到手机AI已经从只会报天气、找手机的 “小跟班” ,往 “万能搭子” 的方向转型了。
生成式AI一天一个新花样,进化速度快得离谱,AI手机的潜力同理可以想象。
2025年过半,它能进步多少?它能否像自动驾驶改变开车一样,改变手机的操作体验?
带着这份好奇,我们请到了@陈震同学,带我们看看“手机的‘智驾系统’到底到哪一步了?”
我们评价一辆车的智能驾驶,不是看参数多华丽,而是看它能不能在复杂路况下,帮你省心、省力、甚至救命。
AI手机也一样——不能光会说不会做,得真的能‘上路’,而且最好能告别冰冷的“人机感”,做到回答、办事有活人感,像朋友一样省心省力温暖可靠。
基于此,我们设计了行业首次 “百题AI拉力赛”——从工作到生活,从实操到情绪价值,三台顶级旗舰同台竞技,看谁的AI更“像人”、更“会办事”。
这不是一场参数规模的 “纸面PK”,而是实打实考AI“智商”(办事实力)和 “情商”(贴心程度)的终极压力测试。
谁能扛住 100 道题的考验?结果到底怎么样?别急,跟着咱们的首席出题官@陈震同学,一起看个明白。
第一关,任务与工作日常息息相关。
P人出差,很难有从从容容、游刃有余的空间,AI能否帮我们避免匆匆忙忙、连滚带爬?面对“航班来不及、打一辆最快的车”的任务,仨AI一出手,高下立判。
左右两边的,顶多算 “半吊子助手”,只能帮忙点开叫车 APP,选车型、确认呼叫还得自己手动操作,跟 “自动” 完全不沾边。
但中间这台直接 “开挂”—— 不光能跨滴滴、高德等平台一起叫车,还懂 “智能兜底”:只要有一个平台先接单,立马自动取消其他平台的订单,不用你盯着手机来回切。
确实把打车这件事从头到尾办利索了,跨出了关键一步。
换到更考验 “决策力” 的购物任务 ——“帮我找《红楼梦》有没有优惠,有的话直接下单”,差距依然。
当左右两位还在“思考”或卡在某个步骤时,中间这位已经行云流水般走完了多平台比价、领券、加购物车的全流程。
当任务从“动手操作”转向“动脑问答”时,两边AI的表现开始出现明显的波动。
输出行业报告、识别汽车零件、策划跨界合作,以及应对“护照被偷”的应急处理、探讨自动驾驶的伦理困境、分析热点这些问题上,回答质量时高时低,思路时清晰时模糊,显得不太稳定。
相比之下,中间的选手在这一系列任务中都保持了结构清晰、内容扎实、执行可靠的高水准,稳定且优秀。
考完工作里的 “效率题”,现场紧接着便测了一番生活里的 “细碎活”,毕竟过日子的麻烦可比做报表杂多了。
奶茶要三分糖还是全糖、点外卖凑几个菜才不浪费、查快递不用翻遍APP、记清每个平台的小号密码…… 这些日常小事,AI 能接得住吗?
结果看下来,AI 们的表现跟工作关差不多,还是有人实干、有人划水。
挑西瓜,左右两边属于免责声明拉满、实事一点不干。
中间的选手不但理论输出最全面,实干表现也相当可得住,现场人工吃瓜实测,确实选出了最甜的西瓜。
切换到估算丝瓜汤热量、识别植物与猫咪品种、查找滑雪攻略、分析“牛肉面不要面”的饮食现象、查询淘宝物流状态、查找账号密码、聊穿搭、聊健身、聊体检、写大众点评评论、剧荒推荐比赛、做购物功课等等这些任务,差距就时大时小了。
左右两边的选手而能给出实用建议,时而只能提供泛泛之谈,表现难以预测。中间的选手表现则依旧稳定。
这一轮再次证明,真正好用的AI不仅要懂得更多理论,更要能将模糊的理论经验,转化为可靠的实际行动。
除了干活麻利、会点外卖,我们对AI或许还有更深层的期待——它能不能脱离“人机感”,在交流时给我们更多的陪伴感、更懂我?
这一轮的关键问题,一个考验的是创意——“帮我把这张照片,背景P成赛车场/修出赛博朋克的风格。”
能看到基础的图片PS、生成方面,三台手机都能理解需求、交付成果,但细看之下,右边的抠图痕迹会比较明显,中间的表现会更接近主流图像生成模型的水准。
另一个关键问题,考验的则既是眼力又是情商——“你觉得,照片里的小男孩,长大了会成为什么样的人?”
左右两位的回答,像是标准模板,介绍了陈震的生平事迹。
而中间的选手,却给出了一段充满细节和温度的描绘。它仿佛在尝试为照片的人物写传记故事,结合事实给出了一个既真实又好玩、可读性拉满的回答。
这一刻,你感觉到的不是工具在应答,而是一个人在给你讲故事。
此外,在“财务自由为何还要工作”、“爱好变成工作是福是祸”、“心情不好推荐歌曲”“领导为什么爱下班开会”“检查错别字”“高强度上班后空虚”“前同事结婚该不该随份子”“steam最新有什么好玩游戏”“松弛感是不是天生的”“帮忙怼黑粉”等问题上,三台AI的能力水平也趋于一致,只不过中间选手的回答会更接近真人对话体验。
总的来说,在这轮测试里荣耀Magic8 Pro的表现是最能打的。
整体来看,在工作、生活与情绪价值三个维度、一百个问题的考验中,荣耀Magic8 Pro全面胜出。
在工作场景,它能精准理解并作为手替执行一连串的指令;在生活领域,它能理解复杂指令、自行思考然后操作服务;在情绪价值层面,它更能提供具有“活人感”的互动体验,不管是办正事还是聊闲天,都让人觉得更好用、更懂人。
说实话,看完荣耀 Magic8 Pro 在百题测试里的表现,不少人应该会跟我一样眼前一亮:原来 AI 手机不只是 “喊个指令出结果”,还能真的像个 “搭子” 一样,把出差打车、日常点单这些麻烦事给扛了,甚至聊老照片时还能说几句暖心的话。
但YOYO这次的表现,真能成为AI手机引爆市场的“第一枪”吗?
它会像几年前的ChatGPT那样,一夜之间卷起时代风浪,逼出更多强大的对手,也逼出更快进化的自己吗?
我们期待答案是Yes,但梦想终究需要时间来验证。
说到底,一枝独秀不是春。
手机市场,等待一个真正的“新故事”已经太久。
当“one more thing”式的创新逐渐放缓,当影像赛道已卷至像素与传感器的极限,厂商们还能在高阶战场上亮出什么新花样?
AI,正是这个存量时代最被看好的突破口。但它究竟能为体验带来多少真实提升、为市场带来多少新增量,仍需要一场又一场像这样的实战来验证。
我们期待百花齐放的AI,能通过良性的竞争,更快地、真正地把未来,推进每个人的手中。