Skip to Content
Academy: BIS Training

机器学习:AI的"养成系玩家",企业自动化的核心

"通用人工智能是一种能在各种不同工作中发挥与人类同等水平的系统。"
DeepMind 首席信息官 Colin Murdoch

这是 DeepMind 为通用人工智能(AGI)下的定义。虽然我们现在的技术还远没有达到这一步,但已经预见到了人工智能(AI)超越人类的场景,这主要归功于它的速度。我们如何教一个机器达到如此高的水平?当前看到了哪些应用?您和您的企业又该如何释放AI的能量呢?

机器学习与人工智能(AI)

在并不久远的过去,机器人做决策、从数据中学习并适应人们的需求,似乎还是科幻小说中的情节。时至今日,人工智能(AI)已经无缝地融入了人们的日常生活,并正在塑造我们的工作、娱乐和联系方式。

人工智能无处不在是不争的事实,而这场技术革命的核心是机器学习,这一领域令人着迷。从为社交媒体提供动力算法,到引导自动驾驶汽车,机器学习已成为人工智能的支柱,悄无声息地编排着计算机语言的游戏。

上述两段内容不是 SEEBURGER 作者所写,而是由 ChatGPT 在大约3秒钟内完成的,它是生成式人工智能的一个范例。

什么是生成式人工智能?

生成式人工智能是指机器能够根据用户的提示独立创建内容。生成的内容可以是文本,如 ChatGPT 、Cohere 和 Gemini(前身为Google Bard),甚至可以是图像,如 DALL-E 2 和 Stability AI 。

在软件开发领域,生成式人工智能已被用于帮助开发人员编写更简洁、更高效的代码,方法是审查他们编写的代码,在问题扩大之前突出显示错误并提出潜在的修复建议。SEEBURGER BIS平台集成了ChatGPT,让 iPaaS 客户可更轻松地使用映射设计工具(Mapping Designer)

生成式人工智能在客服聊天中也得到了广泛应用。如果您使用企业的在线聊天工具沟通,那么您很有可能不是在与人交谈。

1950年,科学家 Alan Turing 提出了后来众所周知的图灵测试。要想通过测试,机器必须能够以与人类无异的方式进行交流。目前还没有系统(完全)通过图灵测试。然而,人工智能在我们的日常工作和私人生活中出现的频率已经高的令人惊讶。事实上,麦肯锡(Mckinsey)估计,到2030年,生成式人工智能将使各行各业平均30%的工作时间实现完全自动化,其中一些行业的自动化程度将超过传统工作量的50%。

人工智能(AI)如何用于商业领域?

人工智能不仅用于生成内容。它超强的处理速度和识别模式还可用于检测金融欺诈;在IT安全领域识别和预防网络攻击;在 HR 领域筛选应聘者;在市场营销中,人工智能可用于客户分类和聚类;在医疗保健领域,人工智能被用来在病人的诊断材料中搜索某些疾病。无论如何,人工智能都能以比人类快得多的速度完成工作。生物研究领域的一个极端例子是:人工智能驱动的 AlphaFold 能够在几年内确定200万个蛋白质的折叠结构,每个蛋白质只需几分钟。如果采用传统方法,折叠这200万个蛋白质需要10亿年。

人工智能还被大量用于商业分析。可以是描述性分析,报告企业目前的定位和表现。可以是预测性分析,预测如果企业保持当前的轨道和轨迹,企业及其业绩将如何发展。人工智能还研究如何变革才能在未来取得良好业绩,并向企业决策者提出适当建议。

那么,人工智能是怎样发展到这种程度的呢?其关键就在于机器学习。

什么是机器学习?

使用人工智能AI完成任务之前,您必须教会它如何完成这项任务。而根据预期的结果,有很多方式可以实现这一点,但它们都是从数据开始的。通常来说,都需要处理大量的数据。

需要的数据量取决于您希望AI最终能够执行的操作。举一个极端的例子:Gemini(之前被称为Google Bard)是一个大型语言模型(LLM),它能够在任何主题上生成语言。它是基于一个名为 LaMDA 的庞大的AI语言模型进行训练的,这个模型包含了1.56万亿词汇,这些词汇被特别挑选出来,以教会聊天机器人进行对话。而且目前它只支持一种语言:美式英语。

那么,机器学习都有哪些方法呢?其中一种机器学习模型被称为监督学习。

什么是监督学习?

如果你正在开发一个涉及分类或识别特定变量的AI应用,监督学习模型是个好的开始。

在监督学习中,数据预先被组织成输入和输出对。输入包含某些特征或属性,而输出是一个标签或目标值。这种方法的理念是,通过足够多次对这些配对数据的学习后,机器能够学会识别哪些特征与哪些标签相关联。

让我们通过一个非商业的、有趣的例子来看看这是如何工作的。

有人想训练一个AI来玩一个游戏:“这是老鼠还是房子?”他开始通过标记图片为“老鼠”或“房子”来训练AI。这里的输入是图片,而输出的标签是“老鼠”和“房子”。

随着时间的推移,机器开始识别与“老鼠”或“房子”相关联的某些属性。“老鼠”的图片通常有两只小眼睛、胡须和很多毛。“房子”的图片则涉及直线、体积更大、看起来更坚固,而且没有眼睛、手臂或腿,但有门。

然后给机器一些未标记的老鼠和房子的图片。机器利用它已经学到的与“老鼠”或“房子”相关的特征来对图片进行分类。如果机器能够准确地完成这个任务,那么它现在就能独立玩这个游戏了。如果它犯了错误,可以提供更多的训练材料,专注于它难以识别的属性。

哪些AI的商业应用是监督学习训练出来的?

监督学习在AI商业领域应用广泛,可处理不同类型的输入数据。比如,生产制造企业可利用监督学习处理生产线上的图片,用于实时检测并丢弃有缺陷的产品。零售网站可利用监督学习处理服装图片,自动将上新季的衣物按类型、颜色、风格、长度等分类,以满足客户的需求。

除了图像数据,文本数据也可以作为监督学习的输入组。企业可利用监督学习处理社交媒体和评论网站上的客户帖子,并将它们分类。这种情感分析能够让企业及时发现并回应负面评价,保护自身声誉。

网站活动数据也可作为输入。流媒体平台可利用监督学习按照用户观看记录提供个性化推荐,而零售平台也可利用浏览和购买的历史记录进行跨渠道的个性化推荐。此外,制造企业可利用监督学习处理来自生产机器和工业物联网设备的传感器数据,预测机器故障。这种预测性维护可以有效避免昂贵的计划外停机,为企业节省大量成本。

什么是无监督学习?

如果想将输入数据映射到已定义的输出,监督学习很适用,但现实生活中情况并非总是这么简单。有时,你可能拥有大量数据,知道其中隐藏着价值,但不一定能立刻发现。这时,无监督学习方法就显得尤为重要。

在无监督学习中,你会运用多种算法来处理这些大量的数据。算法可能包括聚类算法,它可以根据定义的或未定义的共享属性对数据进行分组,并根据数据集之间的相似性和差异性来进行图形化表示。还可能包括多种数学算法,用以清理数据并使数据的模式与其他数据组的关联更加明显。随着模式的逐渐明确,算法会调整其参数,从而学会自动捕捉有意义的关联。“无监督”是指您没有标注您希望机器学习什么内容。机器学习是一门严肃的学科,训练有素的从业者可以在任何阶段进行干预。

训练大型语言模型

人工智能 AI 也用于生成和处理文本。比如它可以是一个减轻客服团队压力、自动翻译公司网站或生成文案的聊天机器人。

生成式 AI 并不理解它所创建的内容。虽然它可以写出一篇关于机器学习的文章引言(甚至可能在几秒钟内写出一篇语义正确的文章),但它实际上并不理解机器学习是如何工作的,也没有对此的看法。相反,大型语言模型(LLM)是通过无监督学习算法在数十亿词上进行训练的,以推断出下一个可能出现的词。这包括识别依存介词,或识别搭配词,或识别出统计上常接在“遛”后面的词是“狗”。

使这项技术取得突破的是 Google 在2017年开发的变压器(Transformer)架构。事实上,这让您能够在上下文中分析一个词。一旦一个词被成功解码,它就会被定位在一个向量上,基本上是在与该语言中所有其他词的关系图上的一个位置。

以我们之前的例子“mouse”(老鼠)和“house”(房子)。尽管这些词押韵,但它们有非常不同的含义。在坐标轴附近,“mouse”被放在接近“rodent”(啮齿动物)、“hamster”(仓鼠)和“gerbil”(沙鼠)的位置,而“house”则被定位在接近“home”(家)、“abode”(住所)、“domicile”(住宅)、“residence”(住处)、“cottage”(小屋)、“flat”(公寓)和“mansion”(豪宅)的参数之间。

然而,这些聚集的词不一定是同义词。“abode”(住所)、“domicile”(住宅)和“residence”(住处)是更正式或法律上的居住地描述,而“cottage”(小屋)和“mansion”(豪宅)分别表示小型和大型的房屋。为了区分这些细微差别,一个2D图表突然不够用了。一般的大型语言模型需要一个具有10005个参数的多维模型,而 LamDa(Gemini背后的LLM)有1370亿个参数。

顺便提下,这也是机器翻译的工作原理。一旦为两种语言绘制了多维模型,机器只需要查看第二种语言中同一坐标上的词是什么。

如何在业务中使用人工智能AI?

DeepMind 首席信息官 Colin Murdochh 表示:“首先,您必须搞清楚我的数据在哪里,我如何获取这些数据来进行预测?这是所有公司需要解决的大问题,即我如何从我的财务管理系统中获取数据......我有哪些外部数据源可以帮助我......我如何连接到制造商的系统......”

如何将数据传输到需要的地方?

访问机器学习环境和预建人工智能AI模型有许多方法。然而,无论你是在检索和整合自己的数据、在自有数据上训练AI、在提供商基于云的机器学习环境中使用自己的数据,还是集成提供商基于云的AI解决方案实现系统自动化,有一件事是明确的:有大量的数据需要被正确传输。

SEEBURGER BIS 是一个集多种功能于一身的集成平台,无论何时何地任意传输数据。BIS 平台的可控大文件传输(MFT)功能可以实时将大量机密数据移动到数据湖或任何其他终端,包括API连接。EAI/A2A 功能支持连接到其他应用程序,而 API 功能,包括非常强大的 API 管理,如果通过 API 访问人工智能 AI 服务或使用 API 将自己的数据从一个系统移动到另一个系统,可以控制并跟踪每个 API 的性能、安全和访问权限。

随着越来越多的人工智能 AI 服务以 SaaS 形式提供,BIS 平台上的 EAI/A2A 功能可以让您实现快速连接。这些功能中也包括一系列安全、功能丰富的连接器,连接器不断更新,紧随发展步伐。

在公有云中访问机器学习和AI工具

三个主要的超大规模云服务商为其云客户提供了一系列人工智能AI服务,通常会有免费的低容量版本。BIS 平台可作为 iPaaS(集成平台即服务)提供,轻松部署在您选择的公有云上,无论是 AWS 、Microsoft Azure 还是 Google Public Cloud。将 BIS 平台与您其他应用程序和数据放在一起,以降低公有云的数据流量费用和潜在的延迟问题。

除了 MFT、API 和 EAI/A2A 功能外,BIS 平台还支持 IIoT(工业物联网)、EDI 和自动化功能。您可以选择 SEEBURGER 云实施完全托管服务、或选择将 BIS 作为 iPaaS 方案放在私有或公有云上,也可选择在本地安装部署软件。

博客
EU-NIS2:网络安全刻不容缓,企业何去何从?
EU-NIS2:网络安全刻不容缓,企业何去何从?
博客
可持续IT:构建绿色未来的“流量密码”
可持续IT:构建绿色未来的“流量密码”
博客
品牌直营的IT战略:如何应对零售DTC的商业挑战?
零售
品牌直营的IT战略:如何应对零售DTC的商业挑战?