您现在可以通过图片和语音命令提示ChatGPT

时间：2023-09-27 16:12:54 来源：编辑：

OpenAI对ChatGPT的大部分更改涉及AI驱动的机器人可以执行的操作：可以回答的问题、可以访问的信息以及改进的底层模型。不过，这一次，它调整了您使用ChatGPT本身的方式。该公司正在推出新版本的服务，让你不仅可以通过在文本框中输入句子来提示人工智能机器人，还可以通过大声说话或上传图片来提示。据OpenAI称，新功能将在未来两周内向那些支付ChatGPT费用的人推出，其他人“很快”就会获得它。

语音聊天部分非常熟悉：您点击按钮并说出您的问题，ChatGPT将其转换为文本并将其提供给大型语言模型，获得答案，将其转换回语音，然后大声说出答案。感觉应该就像与Alexa或GoogleAssistant交谈一样，只是——OpenAI希望——由于底层技术的改进，答案会更好。看来大多数虚拟助手正在被重建以依赖法学硕士——OpenAI处于领先地位。

OpenAI出色的Whisper模型完成了大量的语音到文本工作，该公司正在推出一种新的文本到语音模型，据称可以“仅从文本和几秒钟的样本语音中生成类似人类的音频”。”你可以从五个选项中选择ChatGPT的语音，但OpenAI似乎认为该模型的潜力远不止于此。例如，OpenAI正在与Spotify合作，将播客翻译成其他语言，同时保留播客的声音。合成语音有很多有趣的用途，OpenAI可能会成为该行业的重要组成部分。

但事实上，您只需几秒钟的音频就可以构建出强大的合成语音，这也为各种有问题的用例打开了大门。该公司在宣布新功能的博客文章中表示：“这些功能也带来了新的风险，例如恶意行为者冒充公众人物或实施欺诈的可能性。”OpenAI表示，正是由于这个原因，该模型无法广泛使用。对于特定的用例和合作伙伴关系，它将受到更多的控制和限制。

与此同时，图像搜索有点像谷歌镜头。你拍下你感兴趣的任何东西的照片，ChatGPT会尝试找出你所问的问题并做出相应的回应。您还可以使用应用程序的绘图工具来帮助使您的查询变得清晰，或者说出或键入问题以配合图像。这正是ChatGPT的来回特性发挥作用的地方;您可以提示机器人并随时完善答案，而不是进行搜索、得到错误答案，然后再进行另一次搜索。(这也很像谷歌在多模式搜索方面所做的事情。)

显然，图像搜索有其潜在的问题。一是当你向聊天机器人提示某个人时可能会发生什么。OpenAI表示，出于准确性和隐私原因，它故意限制ChatGPT“分析和直接发表有关人们的言论的能力”。这意味着人工智能最科幻的愿景之一——能够看着某人并说“那是谁?”-不会很快到来。这可能是一件好事。

ChatGPT首次推出近一年后，OpenAI似乎仍在试图找出如何为其机器人提供更多特性和功能，同时又不会产生新的问题和缺点。通过这些版本，该公司试图通过刻意限制其新型号的功能来走这条路线。但这种方法不会永远有效。随着越来越多的人使用语音控制和图像搜索，并且ChatGPT越来越接近成为真正的多模式、有用的虚拟助手，保持护栏将变得越来越难。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:AppleVisionPro2或于2027年进入量产分析师称除非解决高价问题否则低成本型号可能不会推出

下一篇:Bo M电动滑板车被吹捧为世界上最复杂的微型移动车辆