cover of episode WTR | Severance 完结啦!OpenAI 推出语音合成 API

WTR | Severance 完结啦!OpenAI 推出语音合成 API

2025/3/28
logo of podcast 一周科技回顾 | WTR

一周科技回顾 | WTR

AI Deep Dive AI Chapters Transcript
People
周周
飙飙
Topics
周周: 我参与讨论了OpenAI发布的三个新语音模型:两个语音转文本模型GPT-4O Transcribe和GPT-4O Mini Transcribe,以及一个文本转语音模型GPT-4O Mini TTS。新的语音转文本模型比之前的Whisper模型更快,可以处理更短的音频。文本转语音模型可以通过自然语言指令控制生成的语音效果,但OpenAI并没有开源这些模型。我认为OpenAI新模型的效果与其他高级模型类似,自然语言指令的功能也并非创新。 关于iOS系统下的YouTube应用视频模糊问题,我也进行了讨论,YouTube已经承认了这个问题,并表示正在修复。此外,我还提到了Apple Intelligence的开发进度落后于预期,相关宣传视频已被苹果隐藏,并且Siri的研发负责人也已更换。 最后,我还谈到了可口可乐推出的氢动力自动贩卖机,以及我对美剧《Severance》第二季的评价。我认为该剧第二季的剧情推进缓慢,部分集数内容冗余,尤其是第九集和第十集,以及第八集篇幅过长,大结局也比较水。角色对话含糊不清,信息量不足,导致剧情发展缓慢。 飙飙: 我主要讨论了华为发布的Pura X折叠屏手机。这款手机展开后的屏幕比例为16:10,折叠后的屏幕比例为1:1,这导致折叠后屏幕较小,外屏实用性较差。但16:10的比例在观看横屏视频时有优势。这款手机的尺寸比iPad mini还要小,更像是一个改进版的Pocket手机。华为Pura X手机的定价与CEO于成东此前‘人人都买得起’的宣传存在矛盾。此外,华为Pura系列手机的设计和壁纸都与苹果iPhone系列相似。 我还讨论了Bigscreen Beyond 2 VR眼镜,这款眼镜轻便,但功能有限,需要连接PC使用。最后,我也谈到了Apple Intelligence功能远未达到宣传中的效果,引发用户不满,以及Vision Pro负责人Mike Rockwell接管Siri研发的情况。

Deep Dive

Chapters

Shownotes Transcript

  • 00:18 OpenAI     发布新语音模型

    • 试用网站:openai.fm
    • STT:gpt-4o-transcribe      和 gpt-4o-mini-transcribe(不叫 whisper 了)
    • TTS:gpt-4o-mini-tts
      • 11 种 voice 参数
      • 可以用自然语言引导的       instructions 参数
        • 官方给的示例:Voice        Affect,Tone,Pacing,Emotions,Pronounciation,Pauses
  • 03:44 华为 Pura X     阔折叠手机

    • 外屏是一个1:1的方形屏幕(3.5英寸),展开后 16:10 的折叠屏(6.3英寸)
    • 中国人都能买得起的手机,仅售 7499 起
  • 11:34 BigScreen     Beyond 2

    • 只有107g重(Quest 3重515g)
    • 两个      2560*2560 的 90Hz OLED
    • 116 度 FOV
    • 价格 1019 美元,加 200 带眼球追踪,发货排到六月
  • 13:47     iOS YouTube 视频模糊

    • 自动选了高质量模式,但只是360p
    • YouTube      承认了这件事
  • 14:56     Apple Intelligence 风波

    • 苹果隐藏关于 Apple Intelligence 的宣传视频

      • 一键认人
    • 宣传的功能根本没实现

  • Vision Pro 负责人 Mike Rockwell 接管 Siri 研发
  • 可口可乐推出氢动力自贩机

  • 不清楚能供电多久
  • 21:10 Severance 2 完结