如果在一周前问到使用 AI 参与工作最主要的困难是什么,成本会是出现频率相当高的词。
除了仅对使用频次和范围做限制的 New Bing 之外,各类 AI 工具都伴随着相应的开销。DALL·E、Midjourney、NovelAI 等绘画模型都开始按出图设计付费,最炙手可热的大语言模型对话式 AI 产品 ChatGPT 也是“付费聊天”,开源的 Stable Diffusion 也离不开本地或服务器硬件搭建。
“价格战”来得跟 AI 进化速度一样迅猛,OpenAI 公司放出官方 ChatGPT API,可以在外部调用 GPT-3.5-turbo 模型来搭建相应的服务和产品。在此前,想要在官方页面之外使用 ChatGPT,只能通过第三方程序套壳实现,而现在可以更高效、精准、安全地使用了。
最关键的是,每输出 100 万个单词开销仅约人民币 19 元,相当于在 GPT-3.5 模型基础上打了九折。商业公司调用其来实现内部对话和客服能力的成本显著降低,个人也可以几乎无负担地施展创意,让 AI 于工作学习发挥作用。大语言模型踏出了走向商业化和普及的重要一步。
各色 App 拥抱 ChatGPT
想想 OpenAI 在当下也堪称天文数字的融资额吧,对于想要利用 AI 拓展产品体验和业务的公司来说,调用现有公开接口比自己从零造轮子做 AI 要划算太多。当官方 ChatGPT API 公布时,能看到多个国外流行的互联网产品已经在享受低价带来的红利了。
作用 7.5 亿用户的 Snapchat,仍是举足轻重的社交聊天应用,利用 ChatGPT API 打造了聊天机器人产品 MyAI。这个功能的产品定义略显古典,基本上就是给对话提供建议、帮助用户快速产生灵感或者创造文字,对于 Snapchat 主打的年轻用户来说,这足够带来新鲜感了。
学习类产品在提供知识的同时,也面临着大量的即时问答需求,此前往往需要专门的人力来给出解答。Quizlet 用接口做了Q-Chat 功能,就如 ChatGPT 时常出现的形象,针对知识点给出快速解释,还能给出不仅限于题库的随堂问题。我很好奇,将如何保证 AI 提供的知识绝对正确。
Speak 还用到了 OpenAI 在 2022 年 9 月开源的 Whisper API,于是可以在学习外语的语音对话中用上 ChatGPT。“哑巴外语”的痛苦,有不少人在学习过程中都有体会,学习 App 不断改进语音学习和音视频资料也难以提供根本性解决。让 AI 来做口语对话练习,似乎是行之有效的办法。
加拿大电商 Shopify 则使用 ChatGPT API 做了个导购机器人,从演示来看,会比大多数智能客服产品更像是真人客服,能分析用户需求、搜索确定合适产品并提取关键信息。这或许能帮企业节约客服坐席资源,不擅长在搜索结果中筛选的用户也能更轻松快速地找到想要的东西。
生鲜电商 Instacart 把 AI 跟场景化体验结合起来,用户可以根据自己的喜好或者用餐需求,获得具体的代购清单和食谱。电商 App 可以从纯粹的货架体验脱离出来,而且在人工整理和程序固定模式上的投入不必过于重资产,使用 AI 实时生成内容结果,能有更好的时效性而且低廉。
GPT 模型不只是聊天机器人
在以上的商业合作实例中,把 ChatGPT API 当作聊天机器人底层能力的比例相当高,但很显然这只是它的一部分应用场景。从 ChatGPT 最擅长的对话聊天入手,深入到对语言文字、逻辑表达、整理输出的底层能力,民间的开发者们小步快跑在短时间内展示了丰富创意。
越来越多的内容工作者选择用视频来表达,然而实际上有相当规模的消费者希望用图文来获取信息,毕竟看完视频和看完图文的耗时和思考过程会有根本上的差异。个人开发者 JimmyLv 就做了个 BiliGPT,利用 GPT-3.5 模型理解语言文能力,做到哔哩哔哩平台上视频内容一键总结。
只需要粘贴视频链接,BiliGPT 就会快速从视频中提炼出文字版总结,相当于帮助用户免去了拖动进度条或是耐心看完整个视频的时间。类似能力此前在抖音灰度上线,AI 将提取长视频知识内容文稿,用户可以跟随作者的编排看完视频,也可以直接看文字版节约流量。
雷科技此前提到过,Edge 浏览器的 PDF 阅读器功能与 New Bing 组合后,能直接解读论文并提取关键信息,翻译效率也比纯人工高出不少。不过 Bing 经典搜索引擎部分的能力上限,以及微软对于 New Bing 的功能限制,使得这个超级 PDF 阅读器实际用起来会有些束手束脚。
xathis 上线了 chatpdf.com,如名字一般可以把 PDF 上传并通过 ChatGPT API 来解读论文,默认是英文界面,但可以直接用中文或其他语言要求 AI 给出相应的结果。相比起 Edge 能直接框选 PDF 具体段落做出解读略显麻烦,却足以改变普通学生读论文的方式和效率。
还有的开发者正着手实现具体的功能:给产品写开发文档太麻烦?让 AI 读完代码自己生成;每周写一大溜周报很费事?让 AI 一键生成还附带版式精美的 PPT;工作太忙找不到对象?把 Stable Diffusion 和 ChatGPT API 接入整合,不愁没照片发给家长的对象出现在对话框里。
不容忽视的使用门槛和本地化
跟许多前沿类似,ChatGPT API 同样存在使用门槛和本地化问题。
此前开始用 AI 帮助写论文的小郑,琢磨着能不能利用 ChatGPT API,开发帮助更贴合自身研究需求的小工具。却发现从注册到付费再到实际应用,都有着不小的门槛,网络之外 OpenAI 也并没有针对中国用户展开更多本地化改动,要想用好这把利器还得先攀上巴别塔。
自 ChatGPT 上线以来,有不少第三方开发者在自己的产品中打包对话,间接提供对话式 AI 服务。普通用户要么会付出比直接使用更高的价格,要么得忍受开发者在对话中插入的商业广告,以至于有资深媒体人感叹“那些倒卖 ChatGPT 使用方法的人,有的都赚走上百万元了。”
ChatGPT API 本身的本地化风险也让一些开发者表示担忧。已上线数个相关 AI 产品的老王表示,OpenAI 公司对目前公开接口返回的内容结果做了限制,色情、暴力、种族歧视等无法直接展示,然而还没有针对各国具体情况深入定制,需要开发者在基础上自行加以改造。
这给中国的对话式 AI 提供潜在机会,他们必定有相应投入,让开发者和普通用户更简单也更放心地使用 AI。百度的文心一言或许会是最早有所成果的产品,在正式发布对外上线之前,就已经有多家合作伙伴宣布将调用对话能力,也说明百度对商业化等环节准备多时。
百度与吉利合资的汽车品牌集度,将接入能力打造交互体验;蛰伏已久打算同时在手机和汽车上有所成就的魅族也表示,Flyme 智能服务将结合对话技术;爱奇艺、携程旅游、银联商务、尚美数智等公司纷纷宣布将接入文心一言,一场人工智能风暴有望在这片土地壮大。
人机交流新阶段
在经过大半个月的桌面端测试后,New Bing 终于登陆手机 App 并支持语音进行交流。相比过去的语音助手 Cortana,微软这次做到了交流更真实自然,不再有那么明显的机械对话痕迹。很显然,飞速发展的不只是 GPT-3.5 模型技术本身,还有实现大规模普及前提的成本和行业态度。
它为开发者和用户提供了一个强大、灵活、易用的工具,让聊天机器人能够更好地理解和满足人类的需求和期望。推动聊天机器人技术的发展和创新后,为各行各业带来更多的价值和便利正在眼前,人机交流新阶段已然展开。