SSI用量子计算来玩AI

news/2025/2/23 19:41:40

刚到家,早上说今天回来要写SSI为什么这么牛B,那就必须得写

SSI是什么公司?

Safe Super Intelligence

就是中间这个秃子的公司

Image

Image

ilya 前openAI 首席科学家(现在的mark chen确实有点水)

Daniel Gross、Ilya Sutskever、Daniel Levy(从左至右)

我们的blog不是玩人物传记,所以必须快速解释SSI为什么牛B,为什么什么产品都没发布,公司就不到10人就估值30B 美刀?

因为要拿量子计算做AI

没错,你没听错,而且现在已经开始了,只不过是GPU+QPU(量子计算单元混合部署的模式)

提到量子计算,大多数人想到的因式分解来暴力破译密码,要不就是拿量子态模拟化工生物啥的(因为世界是量子的,传统计算比如GPU要模拟一个真实的量子行为,比如CRP蛋白质反应,得老鼻子GPU了,可不是alapha fold那种预测能实现得难度,量子计算就很擅长这个)

但是其实量子计算也贼擅长矩阵计算,你们知道吗?

解释一下

手先:

比如你有3个bit位

|0/1|,|0/1|,|0/1|

这个大家都知道,给电压和没电压,让电路成不同得态,产生0/1bit,这就是传统计算机 (CPU/GPU)都一样

比如1.5V得一个 core,理想情况下 1.5V是1, 0 V就是逻辑0呗

但是实际操作上,比如你1.2也给你算1,这就是计算机得底层纠错能力,但是这玩意好纠错,有个误差就行,大差不差,所以传统计算算得就能用

但是量子就不一样了

比如你有3个Qbit位(量子bit位)

|0/01/1|,|0/01/1|,|0/01/1|

它可以同时存在0,1

这个01得玩意我们叫叠加态,数学公式如下

|ψ⟩ = α|0⟩ + β|1⟩

就比如你扔硬币,它属于一直再转得状态,说又是0,又是1让人不好理解,其实就是0到1得一个概率分布

测量塌缩: 当我们对量子比特进行测量时,叠加态会 塌缩 (collapse) 到其中一个基态,也就是 0 或 1。 测量结果是随机的,但概率由概率幅 α 和 β 决定。 就像硬币落地,旋转状态消失,变成明确的正面或反面。

叠加态的优势: 叠加态是量子计算强大能力的核心。 它可以让量子计算机同时处理 0 和 1 的所有可能性,从而实现并行计算,解决经典计算机难以解决的复杂问题。

另外量子bit又纠缠作用,说白了就能一起变

比如刚才这3个bit,可以表达为 000到111,也就是从0到7,8个数字,但是你从0到7,你要1个bit ,一个bit得变化,也就是要算8次

但是量子bit就折腾1次,这只是3个bit,如果更多呢?其实是个指数级别的算力降低

比如我们题目里面说的拿量子计算机做AI

AI其实目前玩的就是矩阵乘

比如一个BSH* HH,算力消耗就是BH^2S

最大头就是H,也就是模型的hidensize,现在一般要8192起吧?

如果要用2对数来算其实就是13

也就是用13个量子bit就可以表达8192这个hidensize

那你算算你模型就可以多小了,你消耗的算力和能量就会多小?

AGI的一个重要的实现部署能力就是低功耗!(人脑只有40瓦的灯泡耗电量的故事,我就不讲了)

有人说我草,态牛B了,那为什么不都用量子计算机呢?第一因为它的算法目前看就这几个比传统计算机有优势,就跟现在GPU不能完全替代CPU一样,QPU就是GPU和CPU的另外一个U,以后大家还是合作的工作的状态

另外刚才我讲了传统计算机有自己的控制误差底层纠错能力,但是Qbit就不太行,它的能量太小了,比如用超导的系统来做,一个量子Qbit就只有1个光子的能量而已,贼脆弱,特别容易收到环境干扰和内部误差的影响

而SSI的工作就是在缩小GPU集群的基础上旁边怼一个QPU集群,两个集群有高速通路,然后共同形成一个神经网络来进行训练(哪层受到量子错误的干扰会比较少,放在QPU合适呢?留个悬念大家自己想去)

所以SSI还啥也没弄出来呢,就能给到30B的估值

这个其实到不是太新的概念,以前就用quantum enhanced AI,不过没想到SSI真的开始实现了,ilya确实NB!

当然因为它叫safe吗?肯定也不只这一块,但是我主要对这块敢兴趣,光这个就值30B也并不过分,这要是成了,300B也是它

最后说一下MS前几天推出的量子芯片Majorana和google的Willow啥区别

Image

其实Willow是老方案就是超导,超导,量子态稳定,但是条件有点苛刻,可以说是按着既定路线走下去,媳妇熬成婆的案例(google现在创新真的越来越乏力),现在可以玩105个Qbit了

另外MS这个其实更惨,它的方案叫拓扑量子bit,其实都差点做成废案。。。

但是没想到真折腾出来了,它的特点是基于马约拉纳粒子(Majorana Zero Modes, MZMs)的拓扑超导体材料(砷化铟+铝),利用量子态的拓扑性质保护信息,理论上更稳定且错误率更低 ,错误率低原因是:

拓扑结构天然抗干扰,奇偶性存储信息减少环境噪声影响,逻辑量子比特寿命达毫秒级。

错误率中位数低于0.1%(单比特门0.035%,双比特门0.33%)

但是!

它只有8个qbit比起Willow来讲确实有点寒颤,但是它理论也是可以玩百万qbit的,而且尚未大规模验证纠错效率。就不知道以MS的心性能不能坚持到做出百万qbit那天


http://www.niftyadmin.cn/n/5863711.html

相关文章

Maven 基础环境搭建与配置(二)

四、本地仓库配置,存储依赖 在 Maven 的世界里,本地仓库就像是一个 “私人储物间”,专门用来存放项目所需的各种依赖构件,如 JAR 包、WAR 包等。当我们构建项目时,Maven 会首先在本地仓库中查找所需的依赖&#xff0c…

Python 性能剖析利器:DTrace 与 SystemTap 深度指南

在 Python 开发过程中,深入了解程序的运行时行为对于优化性能、排查问题至关重要。本文聚焦于 DTrace 和 SystemTap 这两款强大的监控工具,详细介绍它们在 CPython 中的应用,包括启用静态标记、编写 DTrace 和 SystemTap 脚本、利用可用的静态…

GPU和FPGA的区别

GPU(Graphics Processing Unit,图形处理器)和 FPGA(Field-Programmable Gate Array,现场可编程门阵列)不是同一种硬件。 我的理解是,虽然都可以用于并行计算,但是GPU是纯计算的硬件…

算法日记24:leetcode198打家劫舍(DFS->记忆化搜索->倒序动态规划->循序动态规划)

一、递归写法(dfs深搜) 1.1)思路讲解 递归思想: dfs(x)表示从第x家店开始的最大劫掠值。对每一家店铺,有两个选择: 不劫掠 当前店铺,即跳到下家 dfs(x1)。劫掠 当前店铺,且跳过下家…

《深度学习实战》第1集:深度学习基础回顾与框架选择

本专栏系列博文旨在帮助读者从深度学习的基础知识逐步进阶到前沿技术,涵盖理论、实战和行业应用。每集聚焦一个核心知识点,并结合实际项目进行实践,避免空谈理论,简洁明快,快速切入代码,所有代码都经过验证…

CSS `transform` 属性详解:打造视觉效果与动画的利器

CSS transform 属性详解:打造视觉效果与动画的利器 引言一、transform 属性简介二、平移(Translation)三、旋转(Rotation)四、缩放(Scale)五、倾斜(Skew)六、组合变换&am…

《微软量子芯片:开启量子计算新纪元》:此文为AI自动生成

量子计算的神秘面纱 在科技飞速发展的今天,量子计算作为前沿领域,正逐渐走进大众的视野。它宛如一把神秘的钥匙,有望开启未来科技变革的大门,而微软量子芯片则是这把钥匙上一颗璀璨的明珠。 量子计算,简单来说,是一种遵循量子力学规律调控量子信息单元进行计算的新型计算…

破解Docker镜像拉取难题:为Docker配置代理加速镜像拉取

为Docker配置代理加速镜像拉取 概述守护进程配置(推荐长期使用)Systemd环境变量配置(适合临时调整)其他 概述 为什么需要配置代理与镜像加速? 跨国网络限制:境外镜像仓库拉取速度慢或无法访问企业安全策略&#xff…