自然语言处理(NLP)经过60多年的技术沉淀,近年来取得了长足进步,预训练语言模型的发展成为NLP最大的突破之一。NLP技术的快速发展和商业前景吸引了大量资本和科技公司的投入,推动了产业链的整合与优化。据预测,到2029年,NLP市场规模将达到929.9亿美元,在全球数字经济的发展中将起到关键推动作用。
预训练语言模型的门槛让众多开发者望而生畏,这也促使Hugging Face在AI模型界“一炮而红”,用短短几年时间,成为全球最大的AI模型开源社区,积累了大量顶尖模型资源,并在技术研发与各行业应用之间搭建起平台和桥梁。
Hugging Face的成功再次验证了开源在推动技术进步方面的威力,它也成为继Github之后又一个估值高达45亿美元的开源社区。在自然语言处理、机器学习等前沿领域,开源是如何产生的?全球顶尖的开发者们,又将如何被组织起来、协作共享,然后推动技术的开发和应用?对于在开源方面较为落后的中国企业来说,这些都是值得探讨的经验。
* * *
2001年,全球最大软件公司微软的掌门人史蒂夫·鲍尔默,曾痛恨地将Linux斥为“癌症”,预言这种开源操作系统将导致专有软件的终结。然而,17年后,在新任掌门人萨蒂亚·纳德拉的主导下,微软以75亿美元的金额收购GitHub——这家全球最大的开源社区。
开源的实践起源于1980年代,并随着商用研究等不同许可证的开发而逐渐正式化。在1990年代互联网普及期间,开源软件变得普遍,诸如LAMP这种开源套件倍广泛使用,并加速了互联网的发展。开源软件的使用,节省了许多开发成本,仅Apache这一款开源Web服务器软件,就估计为美国互联网经济带来了数十亿美元的收入。开源软件整体带来的经济价值,就更难以估量了。
开源软件取得了令人瞩目的成功,全球超过一半的网站运行在开源软件之上。而随着开源的普及,开源软件公司的价值也水涨船高。在被微软收购前,Github的年营收仅为2亿美元,却最终得到了75亿美元的估值。因为全球有2800万开发人员将代码托管在这个平台,并且它还为开发者提供了一系列服务和工具。
然而,在技术的浪潮中,每一个时代都有其独特的引领者。如今,随着人工智能新纪元的到来,扛起开源精神大旗的,变成了Hugging Face。这家公司在席卷全球的AI浪潮中,实现了持续的指数级增长,并在2023年8月D轮融资后,估值高达45亿美元。
Hugging Face如何成为了全球AI 模型开发的聚集地?这个全球性的开源社区又如何组织、运营和赚钱?
开源社区的创立和形成
2016年,三位志同道合的朋友——克莱门特·德朗格(Clément Delangue)、朱利安·肖蒙德(Julien Chaumond)和托马斯·沃尔夫(Thomas Wolf)——决定共同踏上一段新的创业旅程。他们彼此是朋友,并对机器学习(ML)带来的构建技术的新方法感到兴奋。在当时充斥着许多基础且“无聊”的对话式人工智能(AI)聊天机器人的市场中,他们看到了一个机会:创建一个既有趣又能进行深入对话的AI,并寻求商业化变现。
这个想法并非没有挑战。当时市场上的聊天机器人大多依赖简单的规则或有限的预设对话路径,“注重生产力,而不是真正的对话。”而三人设想的是一种能够理解并参与更自然对话的AI,这要求它能够处理复杂的语言模式并做出更加人性化的反应。他们以Hugging Face作为公司名称,就是表明要通过技术为用户带来友好的体验。
为了实现这一目标,Hugging Face团队投入了大量的时间和资源来开发和训练他们的AI模型,采用了广泛的数据集,来解决不同主题的对话问题。最终的结果超出了他们的预期,并在著名的机器学习会议NeurIPS 2018上,从第二届对话智能挑战赛(ConvAI2)中脱颖而出。
在打造知名度和使命感的激励下,他们在科学会议上发表了他们的工作,并在开源许可下提供了他们的代码。肖蒙德来自开源背景,他认为这样做很重要。其中,Transformers库成为一个意外之喜。这是一个Python 包,其中包含用于文本、图像和音频任务的 Transformer 模型的开源实现,简单来说,它可以使ML模型易于访问,并与一些深度学习库兼容。
Transformers库受到欢迎,这使他们看到了比聊天机器人更广阔的空间。他们决定开源自己的技术,而让他们始料未及的是,一个社区开始围绕这个库形成,开源贡献者们也开始在社区里面分享他们的模型。尽管他们为聊天机器人筹集了120万美元天使轮融资,但当开源技术所带来的增长量摆在面前时,他们开始面临着公司发展方向的选择。
“我们看到了创业公司中一直想要的指数级增长——用户数量和库的安装量都呈现出指数级增长。”沃尔夫表示。因此,他们开始提出一个新的目标,即创建一个开源的机器学习生态系统。这从根本上改变了他们此前的开发方式。
社区为先的开发方式
转向开源的Hugging Face没有聘请工程师来直接开发ML模型,而是组建了团队,为更广泛的社区提供可以工作的框架。他们创建了一个网站,以便更轻松地查找和访问模型库相关的技术,为了补充Transformers库,他们还添加了第二个开源库Datasets,聚合了用于训练模型的数据,降低训练模型的难度。这一开发方式与谷歌等大型科技公司形成鲜明对比,后者更多为自己开发软件,而很难关心公司之外的人。
2022年春季,Hugging Face围绕三个核心优先事项组织了团队——开发主平台、支持开源社区和追求前沿科学研究。该团队的愿景是作为一个多边平台,将用户(即研究人员、公司和个人)与丰富的ML技术资源连接起来。
Hugging Face平台提供了从数据集到完整模型演示的多样化资源,旨在简化机器学习(ML)的应用。其最受欢迎的资源之一是预训练模型,这些模型能够解决广泛的ML问题,如语言解析或图像识别,并可通过微调来适配特定场景。这些预训练模型不仅支持常规的自然语言处理(NLP)任务,如情感分析,还能被定制化应用于特定的业务需求,例如开发客户服务机器人。此外,Hugging Face还提供了丰富的文本数据集,促进了模型训练和研究的进展。
访问这些资源可以通过两种方式:一个是用户友好的网站,另一个是技术性的软件库,如Transformers和Datasets。虽然大部分模型代码都托管在GitHub上,但模型权重存在于 Hugging Face的网站上,使用户更容易访问和训练模型权重。该网站非常实用,并且专注于 ML,使其成为搜索和识别新模型的首选。此外,该网站还提供了Spaces,用户可以直接 通过他们的互联网浏览器与演示进行交互,鼓励用户实验并分享自己的创新应用。
德朗格强调,平台的开放性和资源间的互动促进了知识的共享和创新的快速迭代。平台允许任何人自由访问、使用和修改所有模型和数据集,这种开源精神大大扩展了技术的应用潜力。他认为,开源不仅让创造者能分享其价值,还能通过社区合作将价值最大化,这比传统封闭式开发更加成功。
随着平台的完善,Hugging Face的继续呈现指数级增长。从2020年到 2022年春末,Hugging Face的员工人数已经从38人发展到150 多人。其网站也拥有3万个数据集10万个模型和 2万个空间(或演示)的网站。
“通才”的自由协作
这种分布式、社区驱动的开发方式,决定了Hugging Face的运营结构也是分散的。尽管德朗格和联合创始人提供了项目优先级的指导,并帮助将员工和社区贡献者的工作联系起来,但员工和贡献者可以自由地启动他们所从事的项目。
这种自主权吸引并留住了有才华的开发人员,因为他们更看重自主权和社区影响力,而不是薪水等其他因素。从一开始,Hugging Face的团队就希望公司能够自然地发展,而不是建立僵化结构或职位。员工被鼓励成为“通才”,可以承担多个任务,并在各个领域共享责任。德朗格试图将其变为公司的优势,“你的主要工作可以是开发人员、研究人员、财务人员,这并不重要,你也可以做传播营销,或者其他任何事情。”相对于大型组织,这种通才思维使员工被允许做更多事情,极大影响了团队在整个组织中构建自身角色的方式。
Hugging Face采用远程工作模式,该公司注册地在纽约,创始人分别在巴黎、迈阿密和荷兰工作。大多数员工全球范围内远程工作,而在伯尔尼、蒙特利尔、纽约市、巴黎和旧金山等城市设有小型办公室,以支持员工。由于员工遍布不同的时区,召开大型会议较为困难,因此团队主要通过Slack进行内部沟通,通过Discord、GitHub、Hugging Face社区选项卡、在线论坛、Slack和社交媒体与贡献者和用户进行交流。为了提高透明度,公司优先通过Slack进行异步讨论,而不是所有人一起同步会议,最后将会议纪要并发布在Slack上。
Hugging Face没有围绕传统职能进行组织,其组织结构围绕着三个重点进行:收入、可见性和使用量。不同的团队分别专注于各自的重点,而不需要考虑其他方面。例如,业务团队专注于收入,科学团队专注于可见性,开源团队专注于使用量。这种关注点的分离使得公司的开源工作更加自由和开放,不会鼓励将重要功能隐藏在付费墙后面。
在每个重点领域内,该组织都是采用扁平化结构,只有少数指定的领导人。员工被鼓励承担多个任务,并以通才的心态对待自己的工作。“当你开发一个新产品、一个新功能、一项新技术时,你应该花时间在推特上谈论它,你应该花时间和记者谈谈这件事。”德朗格表示。
Hugging Face仅在少数几个方面偏离了其通才结构。它没有维护自己的计算机服务器,而是依靠内部团队与云计算服务签订合同并管理他们空间的使用。一些后勤职能也需要更专注的专业知识,例如,财务和法律是基础的首要职能,因此Hugging Face有一名全职财务人员和一名全职律师。
在招聘方面,由于其社区贡献者众多,Hugging Face不必聘请自然语言处理(NLP)和机器学习(ML)方面的专家。但如果创始人发现某一组模型、库引起了大家的兴趣,他们会考虑引入该领域的专家。
Hugging Face已经在开源圈子里成为开发人员理想的工作场所,吸引新员工相对容易。潜在员工需要适应工作的方式,因为所有工作几乎都是自主的,所有对话几乎都是公开的,包括对失败项目的讨论。招聘也是分散的,只要有团队十分需要某个人,那么就永远不会放弃招聘。但总而言之,还是需要雇用愿意适应任何需求的人,因为没有员工只担任一个角色。
尽管一些贡献者渴望成为员工,但Hugging Face不鼓励将志愿服务视为试镜过程。不过,Hugging Face也还是经常聘请贡献者来填补新职位,因为团队熟悉他们的工作,他们也了解公司。但从贡献者变为员工,还是需要转变思维方式,作为员工,他们不再是贡献模型,而是负责创建方法,使得模型库更上一层楼,使机器学习工程执行起来更加容易。
基于开源精神的社区运营
开源社区的运营基于合作和共享原则,通常涉及大量参与者,其中包括用户来扮演共同开发者的角色。这种文化不仅鼓励新参与者学习新技能,还强调每位合作者的信任与尊重。由于许多贡献者是积极的志愿者,开源软件的构建往往比公司开发的程序更快速、成本更低,也往往比专有软件更具弹性。
一些开源框架和语言模型在人工智能中被广泛使用,如Google在2015年开源发布的TensorFlow,及其2019年更新的TensorFlow 2.0,支持多种编程语言并提供了神经网络模型开发框架;同样,Meta(原Facebook)在2017年发布的PyTorch因其适用于开发大规模模型而受到程序员青睐。这些框架在发布后,得到了开源社区贡献的不断改进。
Hugging Face平台上的技术主要由开源社区的志愿者开发,他们通常无偿贡献,开发新的机器学习模型。这些志愿者的动机包括推动人工智能技术的发展、提升自身技能以及帮助他人,体现了ML社区中的开源精神,强调协作、透明度和团队合作。这些志愿者往往拥有高水平的专业知识,使Hugging Face能够提供最先进的模型,并在各种用例中发挥作用。
Hugging Face的模型库和模型吸引了众多志愿者的贡献,即使在2020年该团队人数仅为30多人时,每月也有多达30个团队为Transformers库做出贡献。社区成员不仅为代码库直接做出贡献,还通过模型中心为其他用户贡献新模型。该公司主要通过Slack和论坛进行管理,大部分会议异步进行,以促进包容性。
在Hugging Face,贡献者常常是专家,他们愿意分享知识,并与其他学者、专业程序员或独立开发者协作。这种开源文化使公司能够跟上NLP和ML技术的快速发展。正如开源负责人利桑德尔·德布特(Lysandre Debut)所述,启用社区意味着公司可以与时俱进,因为社区成员对新技术的兴趣和研究,使得最新工具得以提供并服务于其他成员。
拥有如此多的专业开发者做贡献,对于Hugging Face来说,最重要的是如何使贡献者们更好的协作。为此,公司采取了一些措施。
比较典型的做法是,Hugging Face的员工致力于组织和支持贡献者生成的代码和数据,提供建议和创造工具。这种合作模式促使Hugging Face能够拓展其服务范围,不仅限于自然语言处理(NLP)领域,还包括音频和视觉处理功能,这些新增功能分别在2021年2月和3月推出。德布特表示,尽管这些新领域的扩展并没有立即转化为实际应用,但社区对此反响热烈,积极讨论和分享。
为了进一步鼓励贡献者的参与,Hugging Face采取了社区贡献者优先而非公司员工优先的策略。如果员工和贡献者开发了相似的模型,通常会优先采纳贡献者的模型,从而鼓励社区的积极贡献。德布特强调,公司致力于帮助社区贡献者完成他们的工作,并确保他们在这一过程中能够学习、享受乐趣并愿意继续贡献。
为了深入了解社区的需求和兴趣,Hugging Face每六个月对其贡献者进行一次调查。2021年4月的一次社区调查表明,Hugging Face的库深受NLP研究人员、数据科学家和机器学习工程师的欢迎,并且与PyTorch的集成比起与TensorFlow的集成更受用户喜爱。
Hugging Face还定期组织冲刺活动,聚焦于短期、实验性的项目,鼓励员工和贡献者的共同参与。例如,2021年针对Google研究人员创建的开源数值计算框架JAX的冲刺,吸引了800名参与者参加了为期一个月的活动,其中包括DALL-E mini项目。DALL-E mini试图复制ML公司Craiyon的一个早期程序,通过生成与文本提示相匹配的图像。这一项目引发了广泛的兴趣,并促使Hugging Face继续进行了一年多的实验,最终在2022年春季向公众发布,并迅速获得了大量用户的关注。
在Hugging Face,任何人(无论是员工还是贡献者)都可以提出新项目,这些项目既可以是研究项目也可以是Hugging Face平台的新功能。虽然公司没有正式的机制来关闭项目,但管理层的支持对于获取项目内部认可和吸引其他社区及内部成员的资源支持至关重要。项目提案可以通过Google文档、Notion帖子、Slack或其他异步通信形式获得支持。有时,如果这种媒介看起来的工作量比较大,则会采用面对面的会议。
对于这些项目,管理团队将自己视为顾问和联络人,而不是拥有批准或关闭项目的正式权力。他们提供诚实的反馈,说明他们是否认为这个项目值得投入精力和资源。德朗格强调,在领导和保持公司权力下放之间需要保持微妙的平衡。通过反馈和沟通,社区能够高效地进行自我调节,确保项目的方向和公司的整体目标保持一致。
这种工作模式不仅提高了项目的完成速度,还增强了团队的凝聚力和创新能力。公司结构的一个特点是,每个员工都可以产生相当于5到10人影响力的效果,因为他们能够利用志愿者团队的力量。此外,管理层认为,通过之前项目失败的经历,员工在识别潜在成功或失败的项目方面会变得更加敏感和可靠。这种对失败的包容态度,以及由此产生的学习经验,被视为未来项目成功的关键因素。
谨慎地货币化推动社区可持续
开源项目的货币化,能够为Hugging Face和贡献者带来更多的资源,推动开源社区的可持续发展。
开源软件虽然是免费和公开的,但也存在许多服务帮助公司进行私有化开发和部署。一部分开源软件采用了“免费增值”模式,在免费提供基本服务的同时,对增强软件功能和可靠性的高级功能收费,通常针对的是大型企业。例如,成立于1993年的Red Hat为基于开源程序的计算机套件提供咨询服务,并已被IBM于2019年6月收购。拥有2800万贡献者的GitHub,其收入也来源于为私有存储提供的高级订阅以及其他面向业务的功能,其价格区间在每位用户每月7美元到21美元之间。
Hugging Face在许多方面运作得类似于一个开源且以研究为导向的社区,但它是一家由风险投资资金支持的营利性公司,因此它也必然要考虑营利问题。不过,Hugging Face在货币化方面持谨慎态度,担心维护其社区的开源精神与向支持平台的用户收费之间会形成紧张关系。德朗格表示,这种策略对Hugging Face的发展很有帮助,很庆幸他们这样做了,而不是过早地进行货币化。
然而,市场的需求推动Hugging Face在商业化方面采取了一些措施。由于公司收到了许多大公司的请求和知名行业专家的建议,这些公司开始将ML整合到产品中,并希望将 Hugging Face的功能整合到自己的基础设施中,以提高安全性和定制性。对此,2021年,Hugging Face开始对一些新功能进行特殊的收费,这些功能旨在通过简化公司的MLOps管理来加速人工智能的部署和使用。此外,针对那些不知道从哪里下手的企业,Hugging Face也开始提供咨询服务。到2022年度,Hugging Face 拥有了超过1000 名付费客户,其中大部分是寻求在其产品或运营中使用AI和NLP工具但缺乏技术能力的公司。
结论
当德朗格、肖蒙德和沃尔夫在2016年推出聊天机器人模型并为此成立一家名叫Hugging Face的公司时,他们一定想不到,这家公司会发展成为机器学习领域最大的开源社区,并持续了指数级增长的态势,受到无数开发者和筹备应用AI模型的公司的青睐。
作为一个开源社区,Hugging Face的成功,首先在于抓住了AI模型这个垂直领域快速发展的趋势,并通过自身模型的开源,吸引了一批开发者的参与和贡献。但是,其核心还是在于其独特的公司组织和社区运营方式。高度去中心化的通才结构,使员工拥有了更大的创新空间和自主权,使每个人自主决定自己的工作,而不是被束缚在某个职能下的某个岗位。而基于开源精神的运营、谨慎地货币化策略、帮助贡献者紧密协作,使开源社区始终保持活跃,也为公司带来了可持续的商业模式,实现了开源理念和营利目标的有机结合。
本文为未来学人原创文章,未经授权禁止转载。获取授权请在“未来学人”微信公众号留言。