首页 > 资讯 > > 正文

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元时讯

2023-06-06 09:59:04 来源：量子位公众号

Arxiv上所有论文转成Token，加起来不过14.1GB而已。

(资料图片)

这是最新爆火开源计划亚历山大完成的壮举。

事实上，这还只是第一步。

他们最终是想要将整个互联网变成Tokens，换言之全都转化成ChatGPT等大模型理解这个世界的方式。

一旦这样的数据集诞生，那岂不是为开发出GPT-4这样的大模型又新增一大利器，上知天文下知地理指日可待了?!

消息一出，瞬间引发巨大关注。

网友们赞叹，史诗般的。

而这背后仅是四个平均年龄20岁的少年发起，目前Arxiv所有论文数据集已经发布，他们将于下周发布嵌入（Embedding）搜索平台。

从Arxiv上所有论文开始

这个名为亚历山大的开源计划，首先从Arxiv每篇论文上开始。

选择的方式是嵌入，简单来说，就是将现实世界的各种对象具象成计算机所能理解的向量。

最经典的例子就是将原始图像表示为灰度像素。

这种技术最大的特点就是能够表示出人类感知到的语义相似性。

比如，当有10个词表示同一事物时，很难通过关php键词查找论文。但嵌入就可以完成，因此很适用于搜索、聚类、推荐和分类。

基于实用性和效率的考虑android，开发团队只选择嵌入了论文的标题和摘要。

在测试各种模型之后，最终选择使用InstructorXL文本嵌入模型，通过简单地提供任务指令，而无需任何微调，适合于多种任务（比如分类、检索、聚类、文本评估等）和领域(比如科学、金融、医学等)》

下周他们将发布Arxiv搜索。目前为止的流程是，首先对100篇最接近的文章进行相似性搜索，然后即时计算这些内容的嵌入，并进行第二次更复杂的搜索。

最终目标是一整个互联网嵌入计划。

20岁少年的疯狂开源计划

之所以要开展这样一次疯狂的开源计划，主要有两方面的原因。

一方面是嵌入巨大的价值。世界上很多问题只是搜索、聚类、推荐或分类，而这些事情嵌入都非常擅长。而且也如前所述，可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元。

但他们并没有找到任何开放的嵌入数据集，因此这样的组织应运而生。

接下来他们还将开放更多的数据集，而这些均由这些用户自行选择。在官网上除了已公开的数据集，剩下的几个待开源项目开启了投票通道。

值得一提的是，背后是一群平均年龄仅为20岁的少年team完成的。

而他们的团队名字同样也很霸气，MACrocosm（宏观世界）联盟。

就官方介绍，他们致力于为ChatGPT和其他类似产品构建插件，同时也在开发核心产品，基于大模型的个人研究助理，帮助学习、教学和科研。

感兴趣的旁友可戳下方链接了解~

https://alex.macrocosm.so/download

参考链接:

[1]https://www.macrocosm.so/

[2]https://twitter.com/willdepue/status/1661javascript781355452325889

[3]https://github.com/macrocosmcorp

[4]https://www.pinecone.io/learn/vector-embeddings/

—完—

标签：

上一篇：存款利率向下大额存单再度走俏当前时讯

下一篇：最后一页

热点聚焦

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元时讯

Arxiv上所有论文转成Token，加起来不过14 1GB而已。这是最新爆火开源计

2023-06-06 09:59:04

存款利率向下大额存单再度走俏当前时讯

南方财经6月6日电，在存款利率下调背景下，大额存单再度走俏。记者调研

2023-06-06 09:22:38

蒸馏塔与精馏塔区别在哪_蒸馏塔与精馏塔区别

1、初馏塔是蒸馏。2、常压塔是精馏。本文到此分享完毕，希望对大家有所

2023-06-06 08:29:11

世界聚焦：关于名著的手抄报初中简单（关于名著的手抄报）

1、我想这个不是几句话就能说明白的。2、看你这么着急，给你一些建议和

2023-06-06 07:25:30

撬动“进口浓度”最高的地方上海打造淮海新天地“进口示范区”

淮海新天地“进口示范区”实景图上海黄浦供图中新网上海6月5日电(记者

2023-06-06 06:58:59

临近，河北衡水衡水市第十三中学高三班主任陈晨老师收集同学们用完的2023支笔芯，搭建了一艘之舟，寄语同学们未来，找到自己的诗和远方。梦想 #高考#高考 #2023高考加油

临近，河北衡水衡水市第十三中学高三班主任陈晨老师收集同学们用完的20

2023-06-06 05:43:41

WTI：减产落地，警惕主力洗盘

关注上方的关键阻力位74附近做空机会。

2023-06-06 04:27:18

每日视点！恒大许家印成为被执行人！债务1.9万亿，引发全民关注

近日，恒大集团掌门人许家印成为了被执行人的消息引起了广泛关注。恒大

2023-06-06 03:11:12

财政政策和货币政策的混合使用_财政政策和货币政策

1、1．什么是财政政策（1）财政政策的含义：国家通过财政收入与财政支

2023-06-06 02:25:09

全球今亮点！每100克玉米的热量有196大卡,富含膳食纤维还能帮你减肥

玉米是大家都喜欢吃的粗粮之一。它不仅味道甜，而且还有很多好处。它的

2023-06-06 01:45:05

Failed to connect to zw.gozuowen.com port 80: Timed out|天天亮点

1、枫木：略带浅红至浅褐色;结构均匀,纹理通直;木材坚固,耐冲击力;(枫

2023-06-06 00:57:54

天津发布环境资源审判白皮书助推经济社会发展全面绿色转型

天津市高级人民法院5日下午召开新闻发布会，介绍2022年天津法院环境资

2023-06-05 23:51:30

世界观天下！罗田90后青年作家匡彬荣获湖北文学奖

罗田90后青年作家匡彬荣获湖北文学奖---近日，第八届湖北文学奖在武汉

2023-06-05 23:01:36

大丰实业：6月1日公司高管GAVIN JL FENG增持公司股份合计8.45万股

证券之星讯，根据6月5日市场公开信息、上市公司公告及交易所披露数据整

2023-06-05 22:02:46

上海临港管委会主任陈金山带队调研高端装备制造产业快消息

据上海临港(600848)消息，6月5日上午，上海市委常委、临港新片区党工委

2023-06-05 20:38:51

精选！春望背景介绍_春望背景

1、kisstherain 朗诵万能搭配秋日私语我最喜欢的搭配。2、用过谷村新司

2023-06-05 20:27:26

发动机一定会被取消吗？-环球快报

从Carriage到Car，驱动力来源发生了根本性改变。如今大行其道的EV和减

2023-06-05 18:56:03

世界环境日|共建绿色家园共护碧水蓝天快看点

在第52个世界环境日到来之际，6月2日上午，长江航运公安局南通分局联合

2023-06-05 18:17:41

如何看待当前地方财政运行态势

财政部相关负责人说，整体来看，我国财政状况健康、安全，为应对风险挑

2023-06-05 17:19:01

每日快讯!福建启动中小学体育与健康教育质量监测心肺复苏成为必选项目

中国教育报-中国教育新闻网讯（记者黄星）近日，福建省启动2023年省级

2023-06-05 17:11:24

马币兑换人民币汇率今日最新价格查询（2023年6月5日）环球今热点

马币兑换人民币汇率今日最新价格查询（2023年6月5日）

2023-06-05 16:52:20

环球今亮点！杭州一居民家门口地面有80℃ 热到烫脚：挖2小时后找到原因网友称好险

近日，杭州余杭一居民求助，称自家农居房前的一块水泥地面很烫，温度奇

2023-06-05 15:14:55

导线架设、高压线抢修辽宁铁岭龙卷风灾后救援工作持续推进通讯

根据最新数据统计，龙卷风造成当地156座房屋受损、约4000亩农田受损，1

2023-06-05 14:39:35

魔兽世界冰霜暗纹三件套材料（wowtbc怀旧服冰霜暗纹三件套材料是什么）世界观天下

音频解说1、1 冰霜暗纹长靴：暗影布x8源生之水x12灵网蜘蛛丝x22、2 冰

2023-06-05 13:36:30

38场造25球！亲手送尤文踢欧协联，阿莱格里的脸被29岁旧将打肿了

百家观赛团在意甲联赛第38轮比赛中，罗马在主场迎战斯佩齐亚。只要罗

2023-06-05 12:40:43

2023建信龙耀一世C款终身寿险保什么?有什么亮点?

世界快报:巴黎圣日耳曼官宣梅西离队阿根廷巨星下一站去哪儿？

最高法发布湿地生态保护典型案例|观天下

全线率先贯通！湛江环城高速TJ3标主体工程完工

全日空机票贵_全日空机票|微头条

“五星”闪耀党旗红 | 强要素促发展

1986年出生女虎的运势，1985年出生女牛的运势_天天快报

理想三旬mp3网盘下载（理想三旬mp3下载）

王思聪被拍带五位美女出酒店，神情憔悴疲惫，酒店最低五千一晚|世界速看料

2022假刘海十大品牌排行榜_假刘海哪个牌子好焦点热议

郭艾伦恐无缘男篮集训名单！国家队生涯到此为止，一个时代将落幕

平安证券-长安汽车-000625-主航道上自我变革快，深蓝渠道领先优势大-230604 环球播报

焦点热讯:琼海，够靓！

三状元阵容？美媒提出1换4双赢方案，艾顿联手詹眉，太阳补强深度

首次参展！徐工携深井钻机等多款自主创新装备闪耀北京石油装备展全球今亮点

众生药业：一类创新药ZSP1601片Ⅱb期临床试验完成首例受试者入组天天热消息

杭州5月二手房市场回顾：非住宅签约“爆发”，临安投资客抛售，30%刚需小区价格跌回2017年

拉什福德：球队本赛季进步很多，下赛季归来会更强大-速读

烧伤级别划分为哪几个等级的|全球快讯

取代哈登搭档恩比德？这次利拉德会走吗

G1503一集卡侧翻事故引发超6公里严重拥堵

【全球时快讯】宜人贷贷款逾期9天延迟还款征信有什么影响

g3（hero）

今年京杭大运河全线贯通补水顺利完成-当前头条

河南麦收进程过半已收获小麦4410万亩

x 广告

电视

台属为防疫工作者送去卤肉饭：希望美食能缓解疲惫

从前

报告：超3成白领全年读书不足1本

从前

浙江金华：战疫求助平台令疫情防控显“温度”

从前

浙江一高校现考研“学霸寝室” 全员上岸985院校

从前

沙尘追踪：目前沙尘已抵达华北北京高空区域开始泛黄

从前

冰箱

汇聚公益力量 2022年“乡村振兴·重庆专场”公益活动开幕

中新网重庆4月21日电 (记者钟旖)2022年“乡村振兴·重庆专场”公益活动开幕暨宣传周启动仪式21日在重...

从前

外国人在上海：奔跑的“洋大白”

“我是一个健康的外国人生活在这个美丽的社区我所有的测试都是阴性我会说一点中文请让我把沉重的货物送...

从前

海南陵水新增3例新冠肺炎确诊病例

中新网海南陵水4月21日电 (记者王晓斌)海南省陵水黎族自治县新型冠状病毒肺炎疫情防控工作指挥部21日...

从前

加快实现社会面清零目标上海崇明继续做好“三区”分级管理

光明网讯(记者赵艳艳)在今日(4月21日)举行的上海市新冠肺炎疫情防控工作第160场新闻发布会上，上海市...

从前

上海金山朱泾镇：居民有序出门购物，商超使用场所码

“我们家是镇里第一批发的通行证，我们家人还是响应号召，非必要不出门。”几天前，上海市金山区朱泾镇...

从前

空调

x 广告

精彩推送

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元 时讯

从Arxiv上所有论文开始

20岁少年的疯狂开源计划

上一篇：存款利率向下 大额存单再度走俏 当前时讯

下一篇：最后一页

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元 时讯

Arxiv上所有论文转成Token，加起来不过14 1GB而已。这是最新爆火开源计

存款利率向下 大额存单再度走俏 当前时讯

南方财经6月6日电，在存款利率下调背景下，大额存单再度走俏。记者调研

蒸馏塔与精馏塔区别在哪_蒸馏塔与精馏塔区别

1、初馏塔是蒸馏。2、常压塔是精馏。本文到此分享完毕，希望对大家有所

世界聚焦：关于名著的手抄报初中简单（关于名著的手抄报）

1、我想这个不是几句话就能说明白的。2、看你这么着急，给你一些建议和

撬动“进口浓度”最高的地方 上海打造淮海新天地“进口示范区”

淮海新天地“进口示范区”实景图上海黄浦供图中新网上海6月5日电(记者

临近，河北衡水衡水市第十三中学高三班主任陈晨老师收集同学们用完的2023支笔芯，搭建了一艘之舟，寄语同学们未来，找到自己的诗和远方。梦想 #高考#高考 #2023高考加油

临近，河北衡水衡水市第十三中学高三班主任陈晨老师收集同学们用完的20

WTI：减产落地，警惕主力洗盘

关注上方的关键阻力位74附近做空机会。

每日视点！恒大许家印成为被执行人！债务1.9万亿，引发全民关注

近日，恒大集团掌门人许家印成为了被执行人的消息引起了广泛关注。恒大

财政政策和货币政策的混合使用_财政政策和货币政策

1、1．什么是财政政策（1）财政政策的含义：国家通过财政收入与财政支

全球今亮点！每100克玉米的热量有196大卡,富含膳食纤维还能帮你减肥

玉米是大家都喜欢吃的粗粮之一。它不仅味道甜，而且还有很多好处。它的

Failed to connect to zw.gozuowen.com port 80: Timed out|天天亮点

1、枫木：略带浅红至浅褐色;结构均匀,纹理通直;木材坚固,耐冲击力;(枫

天津发布环境资源审判白皮书助推经济社会发展全面绿色转型

天津市高级人民法院5日下午召开新闻发布会，介绍2022年天津法院环境资

世界观天下！罗田90后青年作家匡彬荣获湖北文学奖

罗田90后青年作家匡彬荣获湖北文学奖---近日，第八届湖北文学奖在武汉

大丰实业：6月1日公司高管GAVIN JL FENG增持公司股份合计8.45万股

证券之星讯，根据6月5日市场公开信息、上市公司公告及交易所披露数据整

上海临港管委会主任陈金山带队调研高端装备制造产业 快消息

据上海临港(600848)消息，6月5日上午，上海市委常委、临港新片区党工委

精选！春望背景介绍_春望背景

1、kisstherain 朗诵万能搭配秋日私语我最喜欢的搭配。2、用过谷村新司

发动机一定会被取消吗？-环球快报

从Carriage到Car，驱动力来源发生了根本性改变。如今大行其道的EV和减

世界环境日|共建绿色家园 共护碧水蓝天 快看点

在第52个世界环境日到来之际，6月2日上午，长江航运公安局南通分局联合

如何看待当前地方财政运行态势

财政部相关负责人说，整体来看，我国财政状况健康、安全，为应对风险挑

每日快讯!福建启动中小学体育与健康教育质量监测 心肺复苏成为必选项目

中国教育报-中国教育新闻网讯（记者黄星）近日，福建省启动2023年省级

马币兑换人民币汇率今日最新价格查询（2023年6月5日） 环球今热点

马币兑换人民币汇率今日最新价格查询（2023年6月5日）

环球今亮点！杭州一居民家门口地面有80℃ 热到烫脚：挖2小时后找到原因 网友称好险

近日，杭州余杭一居民求助，称自家农居房前的一块水泥地面很烫，温度奇

导线架设、高压线抢修 辽宁铁岭龙卷风灾后救援工作持续推进 通讯

根据最新数据统计，龙卷风造成当地156座房屋受损、约4000亩农田受损，1

魔兽世界冰霜暗纹三件套材料（wowtbc怀旧服冰霜暗纹三件套材料是什么） 世界观天下

音频解说1、1 冰霜暗纹长靴：暗影布x8源生之水x12灵网蜘蛛丝x22、2 冰

38场造25球！亲手送尤文踢欧协联，阿莱格里的脸被29岁旧将打肿了

百家观赛团 在意甲联赛第38轮比赛中，罗马在主场迎战斯佩齐亚。只要罗

2023建信龙耀一世C款终身寿险保什么?有什么亮点?

世界快报:巴黎圣日耳曼官宣梅西离队 阿根廷巨星下一站去哪儿？

最高法发布湿地生态保护典型案例|观天下

全线率先贯通！​湛江环城高速TJ3标主体工程完工

全日空机票贵_全日空机票|微头条

“五星”闪耀党旗红 | 强要素 促发展

1986年出生女虎的运势，1985年出生女牛的运势_天天快报

理想三旬mp3网盘下载（理想三旬mp3下载）

王思聪被拍带五位美女出酒店，神情憔悴疲惫，酒店最低五千一晚|世界速看料

2022假刘海十大品牌排行榜_假刘海哪个牌子好 焦点热议

郭艾伦恐无缘男篮集训名单！国家队生涯到此为止，一个时代将落幕

平安证券-长安汽车-000625-主航道上自我变革快，深蓝渠道领先优势大-230604 环球播报

焦点热讯:琼海，够靓！

三状元阵容？美媒提出1换4双赢方案，艾顿联手詹眉，太阳补强深度

首次参展！徐工携深井钻机等多款自主创新装备闪耀北京石油装备展 全球今亮点

众生药业：一类创新药ZSP1601片Ⅱb期临床试验完成首例受试者入组 天天热消息

杭州5月二手房市场回顾：非住宅签约“爆发”，临安投资客抛售，30%刚需小区价格跌回2017年

拉什福德：球队本赛季进步很多，下赛季归来会更强大-速读

烧伤级别划分为哪几个等级的|全球快讯

取代哈登搭档恩比德？这次利拉德会走吗

G1503一集卡侧翻 事故引发超6公里严重拥堵

【全球时快讯】宜人贷贷款逾期9天延迟还款征信有什么影响

g3（hero）

今年京杭大运河全线贯通 补水顺利完成-当前头条

河南麦收进程过半 已收获小麦4410万亩

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元时讯

上一篇：存款利率向下大额存单再度走俏当前时讯

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元时讯

存款利率向下大额存单再度走俏当前时讯

撬动“进口浓度”最高的地方上海打造淮海新天地“进口示范区”

上海临港管委会主任陈金山带队调研高端装备制造产业快消息

世界环境日|共建绿色家园共护碧水蓝天快看点

每日快讯!福建启动中小学体育与健康教育质量监测心肺复苏成为必选项目

马币兑换人民币汇率今日最新价格查询（2023年6月5日）环球今热点

环球今亮点！杭州一居民家门口地面有80℃ 热到烫脚：挖2小时后找到原因网友称好险

导线架设、高压线抢修辽宁铁岭龙卷风灾后救援工作持续推进通讯

魔兽世界冰霜暗纹三件套材料（wowtbc怀旧服冰霜暗纹三件套材料是什么）世界观天下

百家观赛团在意甲联赛第38轮比赛中，罗马在主场迎战斯佩齐亚。只要罗

世界快报:巴黎圣日耳曼官宣梅西离队阿根廷巨星下一站去哪儿？

全线率先贯通！湛江环城高速TJ3标主体工程完工

“五星”闪耀党旗红 | 强要素促发展

2022假刘海十大品牌排行榜_假刘海哪个牌子好焦点热议

首次参展！徐工携深井钻机等多款自主创新装备闪耀北京石油装备展全球今亮点

众生药业：一类创新药ZSP1601片Ⅱb期临床试验完成首例受试者入组天天热消息

G1503一集卡侧翻事故引发超6公里严重拥堵

今年京杭大运河全线贯通补水顺利完成-当前头条

河南麦收进程过半已收获小麦4410万亩

沙尘追踪：目前沙尘已抵达华北北京高空区域开始泛黄

中新网重庆4月21日电 (记者钟旖)2022年“乡村振兴·重庆专场”公益活动开幕暨宣传周启动仪式21日在重...

“我是一个健康的外国人生活在这个美丽的社区我所有的测试都是阴性我会说一点中文请让我把沉重的货物送...

中新网海南陵水4月21日电 (记者王晓斌)海南省陵水黎族自治县新型冠状病毒肺炎疫情防控工作指挥部21日...

加快实现社会面清零目标上海崇明继续做好“三区”分级管理

光明网讯(记者赵艳艳)在今日(4月21日)举行的上海市新冠肺炎疫情防控工作第160场新闻发布会上，上海市...