温哥华科技新闻，专题，未来，进步，发达，AI，信息 - 温哥华天空 - Vansky.com

ChatGPT面临销毁？被曝逐字照抄原文 OpenAI或赔数十亿

今天，纽约时报对OpenAI和微软正式提起诉讼，指控其未经授权就使用纽约时报内容训练人工智能模型。此案可能是人工智能使用知识版权纠纷的分水岭。今天，OpenAI和微软正式被《纽约时报》起诉！索赔金额，达到了数十亿美元。指控内容是，OpenAI和微软未经许可，就使用纽约时报的数百万篇文章来训练GPT模型，创建包括ChatGPT和Copilot之类的AI产品。并且，要求销毁「所有包含纽约时报作品的GPT或其他大语言模型和训练集」。酝酿了几个月，该来的终于来了。此案涉及到的，是AI技术和版权法之间的复杂关系。大模型爆火之后，业界一直未能有明确的立法，对于AI侵犯版权给出界定。纽约时报打响的这一炮，可以说是迄今为止规模最大、最具有代表性和轰动性的案例。在整个生成式AI历史上，这必定是一件具有重大意义的事件，标志着人工智能和版权的分水岭。起诉文件中，《纽约时报》的关键争议之一是ChatGPT训练权重最大的数据集——公共爬虫网站Common Crawl。其中2019年数据快照中，NYT的内容占比1亿个token。纽约时报甩出的证据，让OpenAI哑口无言。左边是GPT-4输出的句子，右边是纽约时报的原文，红色是重叠的部分。这种程度的逐字抄袭，简直是让人倒吸一口凉气。 OpenAI这一关，怕是难过了。 GPT-4被曝照搬原文起诉书明确提出OpenAI侵犯版权的指控，并强调了《纽约时报》的文章和ChatGPT输出内容之间高度相似性。「被告试图搭纽约时报对新闻业巨额投资的便车，无偿使用纽约时报的内容来创造它的替代品，并从中窃取读者。」文件中，NYT提供了许多关键事实。比如，NYT是Common Crawl中用于训练GPT的最大的专有数据集。从下表中，可以看出有1750亿参数的GPT-3训练数据中，大部分的数据集都来自Common Crawl，所占权重高达60%。下图中，是由501非营利组织Common Crawl提供的「网络副本」。在Common Crawl 2019年快照的过滤英语子集中，域名www.nytimes.com是代表度最高的专有来源（总体排名第三，仅次于维基百科和美国专利文件数据库），占1亿个token。具体来说，Common Crawl数据集包括至少1600万条来自《纽约时报》旗下的新闻网站（News）、烹饪程序Cooking、评论网站Wirecutter，体育新闻网站（The Athletic），以及超过6600万条来自NYT的内容记录。 OpenAl自己也承认，与其他低质量来源的内容相比，NYT在内的高质量内容对GPT模型的训练更为重要，更有价值。 NYT指出，GPT-4吐出与纽约时报文章内容大部分一致案例，足以证明OpenAI滥用自己的数据。比如，前面提到的如下这个案例，是《纽约时报》在2019年发表了一系列五篇关于约市出租车行业的掠夺性借贷的文章，并获得了普利策奖。这项为期18个月的调查，包括600次采访、100多次信息公开申请，大规模数据分析以及数千页的内部银行记录，以及其他文件审查。而OpenAI在这些内容的创作中没有参与，只是用很少的提示，就直接输出大部分内容。还有如下这篇报道，是NYT在2012年联系了数百位现任和前任苹果公司高管，最终从60多位苹果公司内部人士，获得了苹果和其他科技公司的外包如何改变了全球经济的信息。同样，GPT-4复制了这些内容，并能逐字背诵其中的大部分内容。看得出，ChatGPT回答时，会给出GPT模型所记忆的《纽约时报》作品的副本或衍生作品。对此，NYT推测，GPT模型在训练过程中一定使用了自家的许多作品，才使其生成如此一致的内容。下面这个例子中，ChatGPT就引用了2012年普利策奖获奖作品《纽约时报》的部分文章「Snow Fall：The Avalanche at Tunnel Creek」一文的部分内容。微软必应和ChatGPT在合成搜索时，也会吐露出相似的数据。 Bing几乎复制了纽约时报旗下网站Wirecutter的结果，但并没有链接到Wirecutter的链接。投诉称，这就会导致Wirecutter的流量减少，收入锐减。沃顿商学院教授Ethan Mollick表示，在这起诉讼中，我们可以看到训练数据和输出的关系是多么复杂。一方面，你可以诱导ChatGPT直接吐出纽约时报的原文。另一方面，ChatGPT也会产生幻觉，它会捏造说纽约时报在2020年1月发表了一篇《研究发现橙汁与非霍奇金淋巴瘤之间可能存在联系》的文章，实际上，这篇文章压根就不存在。纽约时报：我报道我自己就在今天，纽约时报自己也写了一篇文章报道此事，题为《纽约时报起诉OpenAI和微软使用受版权保护的作品》。纽约时报记者表示，自家媒体「在未经授权使用已发表作品训练AI技术日益激烈的法律斗争中，开辟了一条新战线」。的确，纽约时报是第一家就版权问题起诉ChatGPT平台的美国主流媒体机构。同时，它还呼吁这些公司销毁所有使用纽约时报版权材料的聊天机器人模型和训练数据。早在今年4月，纽约时报就曾与微软和OpenAI进行接触，表达了对其知识产权使用的担忧，并且探索友好的解决方案，以建立商业协议和技术护栏。但谈判并未达成任何解决方案。起诉书中也指出，知识版权问题可能也是引发OpenAI宫斗的导火索，因为前董事会成员Helen Toner曾经在一篇论文中提过这个问题，随后Altman与她就此发生了争执。 OpenAI发言人表示，公司一直在推进与纽约时报的洽谈，对于这起诉讼感到惊讶和失望。我们尊重内容创作者和所有者的权利，并致力于与他们合作，确保他们从人工智能技术和新的收入模式中受益。我们希望能找到一种互惠互利的合作方式，就像我们与许多其他出版商所达成的合作。网友热议这个案件之所以极富争议性，是因为许多生成式AI公司训练模型时，对于受版权保护内容的使用程度，这是个模糊的灰色地带。有人说，分歧的矛盾点就在于，训练并不是复制，而是学习。进行统计研究，并不会侵犯版权，比如通过检查一百万张图像，来计算互联网上包含小猫图像的百分比。有人反驳说，复制就是训练过程的一部分，训练显然涉及了复制。在美国，受版权保护内容是否被合理使用，由许多因素决定。统计研究就是合理的使用，但生成式AI就并不是。所以，究竟该在哪一步界定为侵权呢？在神经网络中创建权重有问题吗？还是问题在于使用神经网络生成新内容？如果自己在家做，不售卖结果，就不算侵权？这位网友总结道，许多人认为，AI公司不应该像Photoshop这样的工具那样，对用户的版权侵权承担责任，这是完全错误的。有一些AI公司的确获得了创作者的同意，但大多数公司并没有。有人甚至表示，《纽约时报》对OpenAI的诉讼完全误解了LLM的工作原理，如果法官弄错了这一点，将对人工智能造成巨大损害。基本要点：大模型不会「存储」基础训练文本。这在技术上是不可能的，因为GPT-3.5或GPT-4的参数大小不足以对训练集进行无损编码。简单讲，大模型的工作原理便是，从整个互联网获取大量的文本训练数据，然后训练注意力模型，来预测给定用户文本后面的下一个token。也就是说，如果你说「太阳」，下一个词可能是「是」、「升起」、「发出」。如果是提示「海明威的《太阳》」，很可能下一个词是「也」。注意力模型的权重大致就是这种概率分布。使用 LLM/Transformer的最大诀窍在于，了解先前文本的哪些部分对「准确」预测下一个token最有用。任何文本都不是从互联网上「记忆」下来的。也就是说，如果模型的参数远远超过训练数据量（比GPT4大得多），并且用户提供了独特的前文，该文本和后续文本多次与训练数据中的某些内容完全匹配，那么模型就可以重复生成训练数据中的内容，即后续内容的概率趋近于1！也就是说，超大模型确实可以复述训练文本，但这需要参数远超训练数据并给出相关文本。然而目前GPT水平还达不到这个状态。再回到NYT在诉讼文件中的例子。这里，GPT几乎完美地吐出了2012年一篇「Snow Fall」文章的开头段落。但这篇文章在互联网上到处都是，超级著名的文章！这就是为什么GPT对前一段文章的后验预测如此之好。而对于那些不太著名的文章，NYT指责ChatGPT传播误导的事实。主要是因为，如果给定的先前句子集在训练数据中只出现一次，则预测的后验文本将不会与训练数据匹配。它会「幻觉」出类似合理的文本。幻觉之所以会发生，是因为大模型根本不了解事实，而只知道下一个词的分布。这是一件大事，因为它可能为两个方面建立先例：1. 法院怎样确定新闻内容在训练大语言模型时的价值；2. 对于之前的使用情况，应当支付多少赔偿。 Midjourney吐出「原图」？不仅仅是OpenAI、微软，就连最强的AI作图神器Midjourney也将在未来面临一大波的起诉。 Midjourney V6升级后惊艳了全网，但同时有人发现，其输出的图片完全和好莱坞等电影剧照毫无差别。曾为漫威工作的插画家兼电影概念艺术家Reid Southen表示，只需要15分钟，就能找到Midjourney侵犯版权和剽窃的证据。如下的图片中，可以看出生成的图像与电影原作非常接近，仅在镜头角度或姿势等方面存在细微差别。他还制作了一段视频，展示了自己使用Midjourney V6进行的剽窃实验。因为他发表的评论，Southen已经被踢出了Midjourney Discord小组。据Southen表示，AI软件可以完全复制受版权保护的知识产权，并且可以创作无限的衍生品。艺术家将在同一市场上与自己的作品竞争。当网上50%的漫威作品最终都是人工智能的山寨品时，品牌形象问题和消费者的困惑又将如何解决？《蒙娜丽莎》这样的经典艺术品，只提供两个字的提示，就能完全复刻原图。而且在这种情况下，这种行为并不会在法律上被判为“剽窃”，因为《蒙娜丽莎》的年代久远，已经属于公有版权。 2019年由托德·菲利普斯执导的电影「小丑」中的画面，也被Midjourney V6「拿来即用」。这两张图如此相似，不得不让人怀疑，这似乎就是在训练数据中微调之后的版本。而它们的不同之处，在于灯光和色彩。矩阵中的基努，也和原片几乎一毛一样。 Midjourney V6甚至可以复制任何动画风格。小黄人、瑞克和莫迪、巴斯光年等等，完全逼真全现。为了最大限度地提高性能，新模型可能会在相同的数据上反复强化训练，导致输出结果与训练数据几乎完全相同。这就是所谓的「过拟合」，此前研究表明这种情况可能会发生。ChatGPT也会出现文本过拟合的迹象。全新的V6模型很可能是一枚重磅炸弹。目前，Midjourney已经卷入了至少一起诉讼。以后网上这些画面究竟是原动画还是AI生成，恐怕没人能分得清了。 Prompt: scene from the simpsons [character] --ar 16:9 --style raw --v 6 Prompt: scene from finding nemo [character] --ar 16:9 --style raw --v 6 Prompt: scene from dragonball [character] --ar 16:9 --style raw --v 6 Prompt: scene from rick and morty --ar 16:9 --style raw --v 6 Prompt: scene from frozen --ar 16:9 --style raw --v 6

1年前
平均每天714人丢饭碗，今年科技业超26万人被裁

2023年进入尾声，而据追踪就业人数的网站Layoffs.fyi统计，今年全球科技业有超过26万名员工被裁员，平均每天都有714人失业。而现在美国员工对高裁员率感到担忧。据Layoffs.fyi数据，全球1178家科技公司，目前共裁超过26万人，其中科技巨头Google居首，裁了全球员工数6%，共1.2万人，微软、Meta也都裁了1万人，亚马逊（Amazon）裁9000人，Ericsson裁8500人。半导体公司美光（Micron）裁员幅度为15%，7200人没了工作，英特尔今年也裁员5波，原本加州研发中心有超过5000人，现在不断裁员，明年继续观察。而Google广告销售部门高层近日也称，3万人的部门要进行重组，公司正在加大投资人工智慧相关领域，让客户能在搜寻引擎、YouTube等买更多广告，这也引发了裁员疑虑。据彭博社报道，根据员工匿名评论公司网站Glassdoor数据，有关裁员议题的讨论，创了2020年7月以来新高，从2016年以来，员工信心指数一直下跌。Glassdoor经济研究团队首席经济学家赵（Daniel Zhao）说，为什么经济数据强劲，员工信心却在下降，无论经济表现如何，美国员工可能最关心自己的工作保障。以产业来看，科技业员工的信心最弱，因为就业人数跟去年疫情高峰期，少了近10万人，一波波的裁员已经降低了员工的信心。而反观建筑业，一直是一个蓬勃发展且劳动力短缺的行业，该行业的员工信心水平是指数中最高。

1年前
令人惊叹 NASA分享银河系中闪光“圣诞树”

圣诞节临近，美国国家航空航天局（NASA）12月19日发布了一张“圣诞树星团”照片，为人们增添了节日气氛。无论是你的圣诞树上的仙女灯发出的光芒，还是你邻居家的闪光装饰，似乎都无法和这棵太空中的“圣诞树”媲美。 NASA表示，这是NGC 2264的一张图像，也被称为“圣诞树星团”，显示了带有恒星光芒的宇宙树的形状。 NGC 2264是银河系中一个由年轻恒星组成的星团，这些恒星的年龄在100万到500万岁，距地球约2500光年。NGC 2264中的恒星有大有小，大的比太阳都大。在这张复合图像中，蓝色和白色的光（在此图像的动画版本中闪烁）是年轻的恒星散发出的X射线，NASA的Chandra X射线观测器检测到了它们。 // 国家科学基金会（National Science Foundation）位于基特峰国家天文台（亚利桑那州图森市基特峰峰顶）的WIYN 0.9米望远镜的光学数据显示了绿色的星云中的气体，类似于圣诞树的“松针”，来自2微米全天巡天（2MASS）望远镜的红外数据显示了前景和背景里白色的星星。年轻恒星在X射线和不同类型的光中会散发强烈的耀斑，然而，在此图像的动画版本中显示的协调的闪烁是人为创建的，以强调X射线中的星星的位置，并突出显示该对象与圣诞树的相似性。现实中，恒星的变化并不同步。 NASA分享银河系中闪光的“圣诞树”。(NASA/CXC/SAO/L. Frattare & J.Major) NASA分享银河系中闪光的“圣诞树星团”。(NASA/CXC/SAO/L. Frattare & J.Major) 上个月，NASA詹姆斯·韦伯太空望远镜和哈勃太空望远镜拍下了距离地球约43亿光年的“圣诞树星系团”MACS0416，NASA称其是有史以来最详细的宇宙视图之一。结合韦伯望远镜拍摄的红外数据和哈勃望远镜收集的可见光观测数据生成的图片显示了一对遥远的碰撞星系团，其光波长范围很大，并且似乎闪烁著色彩。参与这项大规模研究的专家们将这其称为“圣诞树星系团”，因为它具有独特的多色外观。 NASA发布的“圣诞树星系团”MACS0416的全色视图。(NASA) 在图像中，颜色编码为蓝色的外太空物体代表研究中观察到的最短波长，通常由哈勃望远镜拍摄，而那些颜色编码为红色的外太空物体代表最长的波长，通常由韦伯望远镜拍摄。 NASA表示，颜色暗示了星系与地球的距离，最蓝色的星系被认为相对距离较近，而较红的星系则较远。图像中一些呈红色的星系“含有大量的宇宙尘埃，这些尘埃往往会吸收蓝色的星光”。

1年前
iPhone替以兵挡子弹！“防弹神机”型号曝光

手机对现代人来说是几乎离不开身的物体，令人想不到的是，在战场上，它或许还能救你一命。一名以色列士兵在前线遭子弹击中，没想到他口袋中的iPhone竟替他挡下这一弹，奇迹般的“防弹”功能震惊不少人。综合外媒报道，一名以色列士兵在战场上遭到枪击，原本会击穿他胸膛的子弹，竟不偏不倚地打在他口袋内的iPhone，让他幸运保住一命。从影片中可见，这支挡下子弹的iPhone被打出一个明显的洞。至于该支iPhone是什么型号？外媒报道指出，从外观判断应为iPhone X。以色列总理纳坦雅胡（Benjamin Netanyahu）前往医院探视，并送上一支全新iPhone 15。事实上，有关“手机保命”的故事，过去也曾发生过，2015年一款型号未透露的iPhone替一位24岁少年挡下抢匪的子弹，救了他一命。去（2022）年一名乌克兰士兵的iPhone 11 Pro也成功挡下一颗子弹，救了这名士兵的性命。

1年前
加拿大人购买中国产特斯拉可获5000元补贴！业界警告这有危险

根据加拿大交通部的零排放汽车奖励计划(iZEV)网站，在加拿大购买特斯拉中国制造的Model 3和Model Y，车主有资格获得联邦政府5000元的消费者奖励。图源：canada.ca 对此，加拿大汽车零部件行业担心，联邦政府的消费者激励措施正在助长中国制造的特斯拉的进口热潮，并以牺牲在本国企业为代价，补贴一家在加国没有生产的企业。汽车零部件制造商协会(Auto Parts Manufacturers ' Association)主席弗沃尔普(Flavio Volpe)周二在接受采访时表示，加拿大为消费者购买电动汽车提供的激励措施应该与美国保持一致，因为美国不对中国制造的电动汽车提供回扣。沃尔普说，通过鼓励购买中国制造的电动汽车，加拿大正在帮助中国发展电动汽车。他警告说，这样做的危险在于，中国将越来越多地与加拿大和北美的汽车零部件制造商和组装商竞争。他说：“这些利润用于帮助发展中国的能力，这些能力最终将用来取代加拿大的汽车和零部件来源。” 在美国，购买的电动汽车只有在美国最终组装，并且电池使用“在美国或美国自贸伙伴提取或加工”的关键矿物，才有资格获得全额7500美元的税收抵免。要有资格获得3750美元的信贷，电池组件价值的50%必须在北美生产或组装，关键矿物坐的40%必须来自美国或与之有自贸协定的国家（不包括中国）。不过，租赁汽车享受美国电动汽车税收抵免的限制较少。图源：Tesla.com 加拿大对电动汽车的购买激励措施没有类似的限制，没有将补贴与组装地点或电池材料的来源联系起来。目前还没有特斯拉从上海工厂进口到加拿大的公开跟踪数据。路透社今年5月报道称，特斯拉已经开始在加拿大上市销售中国制造的Model 3和Model Y汽车，“证实这家电动汽车制造商已经完成了从上海工厂向北美的首批发货。” 加拿大汽车经销商协会(Canadian Automobile Dealers Association)发言人威廉姆斯(Huw Williams)周二表示，近8到9个月，卑诗省低陆平原的经销商看到了中国制造的特斯拉在市场上“明显激增”。《环球邮报》上周的一份分析报告显示，特斯拉的Model Y是目前加拿大最受欢迎的电动汽车。今年早些时候，特斯拉推出了一款更便宜的中型电动SUV后轮驱动版，有资格获得加拿大联邦政府5000元的补贴。分析显示，自该车型今年4月上市以来，每售出五辆符合补贴条件的电动汽车中就有一辆是Y型。加拿大统计局的贸易数据显示，2023年1月至10月期间，从中国进口的电动汽车价值从6610万元跃升至18亿元，比去年同期增长了2700%以上。在同一时期，从美国进口的电动汽车价值从39亿元下降到24亿元，比去年同期下降了近40%。沃尔普问道，为什么加拿大会向消费者提供奖励，鼓励他们购买中国制造的特斯拉？“这是在加拿大没有足迹的美国公司在中国制造的汽车，车上没有加拿大成分。” 报道称，美国对电动汽车税收抵免的限制旨在将中国拒之门外，这是拜登(Joe Biden)总统的政府为减少美国对中国供应链的依赖所做的努力。加拿大补贴数百亿元打造本地企业对加拿大来说，中国电动汽车制造业的获利与加国打造本土电动汽车产业的努力形成了鲜明对比。联邦和安省已经为省内两家电池制造厂提供了巨额帮助，包括为大众在St. Thomas新建一家电动汽车电池厂提供132亿元的联邦生产补贴。联邦和安省还宣布为位于温莎的Stellantis-LG STLA-N Energy Solutions电动汽车电池制造厂提供价值高达150亿元的补贴。蒙特利尔银行(Bank of Montreal)高级经济师约翰逊(Erik Johnson)周二接受采访时说，特斯拉很可能是在为美国市场保留美国制造的汽车，美国消费者可以利用美国的一些税收抵免，同时依靠其上海工厂向加拿大消费者供应几款车型，因为加拿大对中国汽车的激励措施没有限制。特斯拉没有透露其营销策略，但约翰逊表示，这种方法将使特斯拉“有更多的汽车有资格享受这些奖励”。他说，在今天的汽车市场上，激励措施“是决定最终销量的一个重要因素”。他说，加拿大政府的激励措施并不歧视中国电动汽车，而是旨在“鼓励家庭尽快购买零排放汽车”。联邦政府周二发表一份声明说，交通部长已受权让加拿大人更能负担得起零排放车辆，包括二手车。声明称，联邦政府的激励措施极大地帮助将iZEV的市场份额从2019年该计划启动时的3%提高到今年的11%。

1年前

7
8
9
10
11

48小时内热点新闻