OpenAI对ChatGPT的大部分更改涉及AI驱动的机器人可以执行的操作:可以回答的问题、可以访问的信息以及改进的底层模型。不过,这一次,它调整了您使用ChatGPT本身的方式。该公司正在推出新版本的服务,让你不仅可以通过在文本框中输入句子来提示人工智能机器人,还可以通过大声说话或上传图片来提示。据OpenAI称,新功能将在未来两周内向那些支付ChatGPT费用的人推出,其他人“很快”就会获得它。
语音聊天部分非常熟悉:您点击按钮并说出您的问题,ChatGPT将其转换为文本并将其提供给大型语言模型,获得答案,将其转换回语音,然后大声说出答案。感觉应该就像与Alexa或GoogleAssistant交谈一样,只是——OpenAI希望——由于底层技术的改进,答案会更好。看来大多数虚拟助手正在被重建以依赖法学硕士——OpenAI处于领先地位。
OpenAI出色的Whisper模型完成了大量的语音到文本工作,该公司正在推出一种新的文本到语音模型,据称可以“仅从文本和几秒钟的样本语音中生成类似人类的音频”。”你可以从五个选项中选择ChatGPT的语音,但OpenAI似乎认为该模型的潜力远不止于此。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保留播客的声音。合成语音有很多有趣的用途,OpenAI可能会成为该行业的重要组成部分。
但事实上,您只需几秒钟的音频就可以构建出强大的合成语音,这也为各种有问题的用例打开了大门。该公司在宣布新功能的博客文章中表示:“这些功能也带来了新的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性。”OpenAI表示,正是由于这个原因,该模型无法广泛使用。对于特定的用例和合作伙伴关系,它将受到更多的控制和限制。
与此同时,图像搜索有点像谷歌镜头。你拍下你感兴趣的任何东西的照片,ChatGPT会尝试找出你所问的问题并做出相应的回应。您还可以使用应用程序的绘图工具来帮助使您的查询变得清晰,或者说出或键入问题以配合图像。这正是ChatGPT的来回特性发挥作用的地方;您可以提示机器人并随时完善答案,而不是进行搜索、得到错误答案,然后再进行另一次搜索。(这也很像谷歌在多模式搜索方面所做的事情。)
显然,图像搜索有其潜在的问题。一是当你向聊天机器人提示某个人时可能会发生什么。OpenAI表示,出于准确性和隐私原因,它故意限制ChatGPT“分析和直接发表有关人们的言论的能力”。这意味着人工智能最科幻的愿景之一——能够看着某人并说“那是谁?”-不会很快到来。这可能是一件好事。
ChatGPT首次推出近一年后,OpenAI似乎仍在试图找出如何为其机器人提供更多特性和功能,同时又不会产生新的问题和缺点。通过这些版本,该公司试图通过刻意限制其新型号的功能来走这条路线。但这种方法不会永远有效。随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为真正的多模式、有用的虚拟助手,保持护栏将变得越来越难。