人类的循环:人工智能和机器学习在彭博终端

2023年5月12日下午2:45等

最初发表在bloomberg.com

彭博终端提供超过3500万的金融工具在所有资产类别。大量的数据,使它有用,人工智能和机器学习(ML)扮演越来越重要角色在终端的不断进化。

机器学习是在数据的速度和规模远远超出人类分析师能做什么。模式或异常,发现可以用来获得强大的见解和指导各种艰苦的自动化或乏味的任务,人类必须手动执行。

而人工智能仍然达不到人类智慧在许多应用程序中,有领域大大,远非人类代理的性能。机器可以识别趋势和隐藏在数以百万计的文件,随着时间的推移,这种能力提高。机器也表现一致,以公正的方式,没有犯的各种错误,人类不可避免的。

故意“人类擅长做的事情,但当我们做出决定时,我们从整个布,”吉迪恩曼说,彭博ML产品&研究主管办公室的首席技术官。“机器每次都以同样的方式执行,所以即使他们犯错误,他们这样做同样的错误特征。”

彭博终端目前采用人工智能和ML技术在几个令人兴奋的方式,我们可以期待这一实践在未来几年迅速扩大。故事开始大约20年前…

保持人类的循环

当我们开始在80年代,数据提取是一个手动过程。今天,我们的工程师和数据分析师构建、训练,并使用人工智能来处理非结构化数据以巨大的速度和规模,所以我们的客户都知道的更快。

机器的崛起

在2000年代之前,所有任务相关的数据收集、分析、和分布在布隆伯格是手动执行,因为技术不存在自动化。新世纪带来了一些低级自动化公司的工作流程,与原始模型的出现操作通过一系列的if - then规则编码的人类。随着十年来结束,真正的ML了飞行在公司内部。在这种新方法,人类注释数据训练机器使各种协会根据他们的标签。机器“学习”如何做出决策,指导下训练数据,随着时间的推移产生更精确的结果。这种方法可以规模大大超出了传统的基于规则的编程。

在过去的十年中,已经有一个爆炸性的增长在彭博毫升的使用应用程序。根据詹姆斯·钩头公司数据的部门,有许多广泛应用人工智能/毫升,在彭博数据科学。

一是信息提取,计算机视觉和/或自然语言处理(NLP)算法用于读取非结构化数据——数据安排在机器的格式,通常难以阅读,为了提取语义。随着这些技术,终端用户提出见解,来自视频,音频,博客、微博等等。

安居Kambadur,彭博的人工智能工程集团负责人解释说这是如何工作的:

“这通常首先提问的每个文档。假设我们有一份新闻稿。文档中提到的实体是什么?涉及的主管是谁?谁是其他公司他们做生意?有供应链关系暴露在文档?然后,一旦你确定了实体,需要测量它们之间的关系的突出,并将内容与特定的主题。文档可能对电动汽车,它可能对石油,这可能是与美国有关,这可能与亚太地区——所有这些被称为“主题代码”和他们分配使用机器学习。”

所有这些信息,更可以从非结构化文档中提取使用自然语言处理模型。

另一个领域是质量控制,异常检测技术是用来发现问题和数据的准确性,在其他领域。使用异常检测方法,终端可以发现隐藏的潜在投资机会,或标志可疑的市场活动。例如,如果一个金融分析师是改变他们的特定的股票评级公司宣布季度收益后,异常检测能够提供上下文在这被认为是一个典型的行为,是否还是这个行动是值得被提交给彭博客户数据点值得考虑的投资决策。

然后有洞察力的一代,AI /毫升是用于分析大型数据集和解锁投资不可能观察到的信号。这方面的一个例子是使用高度相关数据像信用卡交易获得可见性最近的公司业绩和消费趋势。另一个是分析和总结了数以百万计的新闻故事,每天摄取到彭博终端了解驾驶的关键问题和主题特定的市场或经济部门或在一个特定的公司的证券交易量。

人类的循环

当我们把机器智能,我们想象一个无情的自动机器,寒冷的和公正的。在现实中,然而,毫升的做法非常人类和机器之间的团队合作。人类,至少到目前为止,仍然定义本体和方法,执行注释和质量保证任务。布隆伯格迅速大规模增加员工执行这些任务的能力。在这个场景中,机器不会取代人类工人;他们只是把工作流远离更繁琐,重复的任务向更高层次的战略监督。

“这的确是一个人类的技能从手动提取数据点转移到思考定义和创建工作流,”曼恩说。

高级研究员Ketevan Tsereteli彭博工程的人工智能(AI)组,解释了在实践中这种转移是如何工作的。

“以前,人工工作流,您可能有一个团队的数据分析师将训练发现并购新闻在新闻发布和提取相关信息。他们会有很多专业领域如何报告这些信息在不同的地区。今天,这些人在收集和标记这些信息,并提供反馈毫升模型的性能,指出了正确的和不正确的假设。以这种方式,专业领域正逐渐从人类转移到机器。”

人类是需要执行每一步,确保模型优化和改善。这是一个涉及毫升工程师的共同努力构建的学习系统和底层基础设施、人工智能研究人员和科学家们设计和实现工作流的数据,和注释器,记者和其他主题专家,收集和标签训练数据和执行质量保证。

“我们有成千上万的分析师在我们数据部门有很深的专业技能领域最重要的客户,如金融,法律,政府,“ML /人工智能数据分析师蒂娜曾解释道。“他们不仅了解这些领域的数据,而且数据如何使用我们的客户。他们与我们的工程师密切合作和数据科学家来开发我们的自动化解决方案。”

注释是至关重要的,不仅对训练模型,而且对评估他们的表现。

“我们将注释数据作为一组事实——他们称之为“黄金”复制的数据,“曾说。”模型的输出可以自动评价组相比,以便我们可以计算统计量化模型是如何执行的。评价集是用于监督和非监督学习。”

查看“数据注释项目管理的最佳实践彭博社”,一个实用指南出版的首席技术官办公室和数据部门规划和实施数据注释计划。

读到现在

更多的从彭博

2023年Climate-Tech初创公司看

在低碳转型的前沿工作

长期碳抵消Outlook 2023