Notice: failed to open file: a_html_seo_function.php 瘦老头同志瘦老头69视频一:任你搞视频这里只有精品-两会对话丨黄海清委员:高质量语料数据决定大模型训练效果上限,建议加快明确合理使用规则_热点_糖心vlog官网

瘦老头同志瘦老头69视频一:任你搞视频这里只有精品-两会对话丨黄海清委员:高质量语料数据决定大模型训练效果上限,建议加快明确合理使用规则

糖心vlog下载 热点 2025-01-17 3 0

“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”

在2025年上海两会期间,上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示,未来,行业垂类大模型将成为中国大模型产业的主战场。基础大模型的数量会收敛至个位数,因此更多的大模型企业应该聚焦于研究ToB(面向企业)和ToG(面向政府)的商业模式。

上海市政协委员、上海库帕思科技有限公司CEO黄海清

黄海清表示,目前阶段,国内大模型与国外相比,最大的差距在于算力和语料数据。

当前,国内在算力方面已有很多布局,但也仍面临诸多限制。在黄海清看来,能够助力企业实现“换道超车”的是语料数据。

目前业界对于“数据瓶颈”一直存在不同看法。

黄海清表示,高质量的语料数据能极大降低大模型对算力的依赖,微调过的高质量语料数据,可能仅需百卡(GPU)就能达到万卡的训练效果,“高质量语料数据决定了大模型训练效果的上限,高质量语料数据集的构建能极大降低大模型对算力的需求以及推动算力成本降低”。

他认为,此前,用于大模型训练的数据大多来自互联网公用数据,预计到2026年,这些公用数据就会消耗殆尽。此外,使用公用数据训练出来的模型,差异通常不会很大。而中文语料库在整个语料数据中的占比不足5%,数据量显得更为稀少。

黄海清表示,未来语料数据应该向以“鲜活性、真实性、大样本、完整性、多样性、高知识密度为标志的高质量语料集”的方向发展。其中,高知识密度尤为重要,“要让大模型成为博士、成为专家,首先语料和数据要具有博士生教材课程和论文期刊的水平。”

对于大模型规模法则Scaling Law(尺度定律,亦称缩放定律)是否仍然有效,黄海清认为,Scaling Law还在起作用,但速度已放缓。除了算力,高质量语料数据的限制也是重要原因。

上海的数据服务行业在国内比较来看起步不算太早,库帕思科技便是按照上海市委、市政府的要求,于2024年专门设立的语料公司,定位于功能性语料服务专业化运营平台。曾担任甲骨文(中国)软件系统有限公司上海公司总经理,腾讯云副总裁,阿里巴巴集团副总裁、阿里云中国区总裁等职的黄海清在库帕思成立后便上任CEO一职。

对于大模型行业的未来格局,黄海清认为,未来基础大模型的数量会从“百模大战”收敛到个位数,即十个以内。他判断,“消失”的那些基础大模型,“在激烈的市场竞争中,一种情况是企业走向消亡,另一种可能是企业朝着行业垂类大模型的方向发展。展望未来大模型,特别是中国大模型的发展趋势,垂类大模型将成为竞争的主战场。上海市委、市政府成立了大模型产业社区,发展行业垂类大模型,这无疑是正确的方向,因为只有行业垂类大模型才具备较高的技术门槛。”

黄海清还向记者表示,ToB和ToG市场的大模型商业模式,在未来将会成为主要探索的方向,特别是国央企智能化转型等方面,将会存在非常大的市场,与行业垂类大模型的“千帆竞发”相辅相成。

今年上海两会,黄海清带来《探索语料数据合理使用规则,推动大模型产业健康发展》的提案。黄海清表示,大模型的训练数据通常是来自海量的公开数据集和网络内容,这些数据集包括书籍、文章、网站和其他公开可用的内容。但当前我国著作权的“合理使用豁免条款”无法涵盖大模型训练,这给国内大模型公司造成了三个主要问题。

黄海清指出,一是授权难,模型公司难以通过合规渠道获取语料,有碍于基础模型和垂类模型的商业化应用推广和技术迭代创新。二是成本高,当前购买语料的价格大部分是以版权计价的方式进行,授权周期通常为1年,到期还需销毁,继续使用需要再次收费。例如:训练中国版Sora至少需要30万小时视频,如按版权计费,常规每小时4000元至5000元,总成本将超1.2亿元,此成本非一般大模型公司所能承受。根据行业经验,语料数据成本占训练总成本的10%至30%。三是风险大,人工智能相关的版权纠纷呈现不断上升趋势。

对此,黄海清建议,一是加快明确大模型语料数据的合理使用规则,推动“文本与数据挖掘”在预训练领域的适用。参考欧盟“文本与数据挖掘”合理使用条款或日本“非欣赏性原则”,实现在国内推行针对机器学习的数据合理使用,平衡著作权人权利和科技发展需要,解决授权难的问题。

二是,政府出台鼓励政策,支持语料数据企业加强自动化工具链平台研发,降低语料数据成本。围绕上海“金融、制造、教育、医疗、文旅、城市治理”等6大重点行业,“具身智能、自动驾驶、智能终端、科学智能、在线新经济”等5大关键领域,加强自动清洗算子及自动标注算法等技术研发,打造AI自动化清洗与标注工具链平台,取代传统劳动密集型人工标注,降低语料成本。

三是加快人工智能生成物保护范围的法律研究,制定规则明确的人工智能生成物的权属与责任。可借鉴美国的“可转换性”合理使用条款,对于经过“清洗、标注和注释”处理后,不会对原始数据进行原样展示的高质量语料赋予新的权利,不再受原始版权的干扰,解决风险大的问题。

小洋楼PO笔趣阁

放轻松别太紧张我会很温柔的小说

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载独占1.v1叁安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
金元系统0 见花枝(古言重生1v2)青山候我1 电梯深度开发1V6笔趣阁2 水氏杨花与十二轿夫23 骄阳伴我原著4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 万兽之国黛妃
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,厨房春潮唐小米,嫁给楼下糙汉后以后免费阅读
二,抱紧大腿(校园末世)消灭糖果小说,恨透我的读书人们
三,睡醒发现还在C1V1,小城故事多(限)尚扇弱水
四,恨透我的读书人们,深不可测小说在线全文免费阅读
五,小小老婆我只要你,君王无情
六,家翁的粗大炮,校园刺激全黄H全肉细节文
七,1V1一觉醒来嫁给了年代文男配,入骨欢NP高H祁原

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
杂乱小说1第403部分,乐可小说在线读免费

她开始慢迎迎合徐平雪周玉梅

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 神秘老公不见面下载 4天前
    抱抱熊txt
  • 斩龙txt全集下载 7天前
    太子被暗卫c到合不拢腿的后果
  • 男娃JY灌溉系统游戏 7天前
    盗妃权倾天下
  • 桃花扇古言1v2掌中宝串串香 6天前
    镇国公nph文
  • 夹心饼干PO1V3小 2天前
    辰东新书《大宇宙》小说
  • 杂乱合集2全文阅读 4天前
    我和学霸下面连在一起写作业
  • 自W到高C夹枕头 5天前
    云娇雨怯PO青灯 (古言 1V1)
  • 成佛1v2 4天前
    老师别我我受不了了动漫漫画
  • 软糯小受趴着顶撞研磨H 4天前
    锅炉房老陈头和蓝诗曼
  • 荡乳尤物3HP1V5 9天前
    大不大试试不就知道了笔趣阁