Dow Jones felt obligated to renegotiate licensing agreements because they license content from other publishers and wanted to ensure transparency and fair compensation. As a publisher themselves, they are protective of their content and wanted to extend the same principles to other publishers when using their content for generative AI.
Factiva's fully licensed content ensures that all publishers have granted permission for their content to be used in generative AI summarization. This guarantees that the content is legally compliant, traceable, and citable, maintaining trust and transparency for users.
Factiva started with manual news indexing, where articles were tagged with metadata. As the volume of news grew, they adopted natural language processing to automate the process. Today, they use generative AI for semantic search and summarization, making it easier for users to access and understand vast amounts of information quickly.
One major challenge was ensuring that all content used in generative AI was fully licensed. Dow Jones had to renegotiate licensing agreements with publishers to secure additional rights for AI use, ensuring transparency and fair compensation for all parties involved.
Factiva ensures reliability by licensing content from trusted publishers and using a dedicated team to verify the credibility of sources. They also conduct extensive and ongoing testing of AI tools to minimize hallucinations and maintain the accuracy of the information provided.
Human judgment is crucial in deciding which sources are reliable, testing AI outputs, and determining what constitutes good results. Factiva emphasizes 'authentic intelligence,' where AI handles tasks efficiently, freeing humans to conduct deeper investigations and add value to clients.
Dow Jones partnered with Google due to their existing relationship and use of Google Cloud solutions. Google's Gemini model offered multilingual capabilities and low latency, which were essential for handling Factiva's vast and diverse content in 32 languages.
The RAG model allows Dow Jones to control the input and output of information, ensuring transparency and traceability. It also enables them to remove content if a publisher withdraws permission, which would not be possible if the content were merged into a large language model.
Factiva's structured data processing, which includes fielded information, allows for easier slicing and dicing of data. This structure ensures compliance with regulations and enables users to exclude specific information when necessary, enhancing the platform's flexibility and reliability.
Ingrid envisions the next big advancement as the ability to combine structured and unstructured data seamlessly. By merging these data types and applying advanced search capabilities, Factiva aims to create a more intelligent platform for risk management and decision-making.
您在亚洲管理分布式团队的IT吗?而且您知道这有多痛苦。SFL 通过帮助您的内部团队减轻繁琐的任务,并为他们提供有效管理 IT 的工具来提供帮助。
在亚太地区的八个国家/地区获得帮助,从入职和离职、采购设备到实时 IT 支持和设备管理。借助我们最先进的平台,在一个地方完全控制所有 IT 基础设施。我们的 IT 支持专业人员团队热衷于帮助您发展壮大。因此,请查看 ESEVEL.com 并立即获得演示。使用我们的推荐代码 ASIA 可享受三个月的免费试用。适用条款和条件。
我们非常清楚地意识到,我们从其他出版物获得内容许可。正如我之前提到的,我们通过许可协议这样做。我们向出版商透明地说明其内容的处理方式。我们确保他们因我们使用的内容获得公平的补偿。但是,因此,当我们开始讨论我们如何想要使用 GenAI 时,我们实际上觉得有义务回到出版商那里,并要求获得额外的许可权。
我认为,部分原因是道琼斯是一家出版商。我们自己也是出版商。我们非常保护我们的内容。我们希望确保我们了解我们内容的去向:它去了哪里?谁在使用它?我们希望为此获得公平的补偿。因此,如果这是我们的核心原则之一,那么我们也希望确保我们对所有其他出版商采取完全相同的态度。
因此,其中一个挑战是我们必须回到所有出版商那里,并要求获得额外的 Gen-AI 许可权。
这样做的积极方面是,现在通过 GenAI 摘要提供的内容实际上是完全获得许可的内容。所有出版商都已允许我们将其内容用于此特定用例。
欢迎收听 Analyze Asia,这是一个致力于剖析亚洲商业技术和媒体脉搏的顶级播客。我是 Bernard Leung,生成式 AI 改变了全球信息流动的方式。像 Factiva 这样的商业智能平台如何在 AI 时代导航?今天和我一起的是 Ingrid Verschuren。
道琼斯执行副总裁,数据和人工智能以及欧洲、中东和非洲地区总经理。Ingrid,欢迎来到节目。非常感谢您邀请我。我很高兴今天能谈论这个话题。是的,我很高兴能进行这次对话。之前,我在节目中与 Joelle 谈过人工智能和合规性,但我认为这更令人兴奋,因为我们正在谈论 Factiva,
这是一个许多企业在金融信息流中使用的平台。但首先,我们总是喜欢谈论我们客人的起源故事。那么,您是如何开始您的职业生涯,最终导致您在道琼斯的当前职位呢?
是的,我很乐意谈谈这个。我认为有趣的是,我有拉丁美洲研究硕士学位,辅修工商管理。然后我最初来自荷兰,正如您很可能从我的口音中听出来的那样。但是当我很久以前搬到西班牙时,我真的很需要找一份工作。
而且很难找到与我的学位直接相关的工作。因此,我最终找到了一份工作,当时是路透社,现在是道琼斯,至少路透社的那一部分是。我被聘用来手动索引德语、荷兰语、西班牙语和葡萄牙语的新闻文章。
随着时间的推移,我意识到,以及我仍然留在道琼斯的原因是,它实际上给了我换主题的机会。有时我会谈论缅甸名字的格式,然后在下一个小时我会谈论技术解决方案。
然后我会谈论预算。因此,最终,我感兴趣的一切都融合到这个职业中。因此,鉴于您在道琼斯拥有如此长的任期,您能与我的听众分享哪些关于您职业生涯的宝贵经验教训?就像
三个主要的教训,我会说。第一个,我认为也是最重要的一个,是与你喜欢的人一起工作。我们在工作中花费大量时间,我们都这样做,被友善的人包围会让它更令人愉快,聪明的人。所以总是人排在第一位。
其次,我认为这是多年来才有的,最终是找到一份有意义的工作,对吧?我认为目标非常重要。如果您考虑道琼斯的目标,即向人们提供最值得信赖的新闻报道、新闻、数据分析以做出决策,那么最终我们所做的是,我们正在
让世界承担责任,用事实告知人们。这是一个伟大的目标。这是度过一天和职业生涯的好方法。第三,只是想想一些建议,那就是永远不要害怕说“是”。有时会有挑战摆在你面前,你会觉得,哦,也许我做不到。也许我可以。就说“是”。
我在职业生涯早期就开始这样做,这绝对对我有益。我们将进入今天的主题,即在生成式 AI 时代谈论 Factiva。我认为对于那些不太熟悉的人来说,您能否介绍道琼斯及其 Factiva 商业智能平台?我认为它在支持企业提供可靠的数据、见解和风险管理解决方案方面扮演着什么角色?当我担任 Factiva 的 AI ML 负责人时,
AWS 当我与 FSI 客户打交道时,Factiva 总是谈话的一部分。
对于那些不了解 Factiva 的人来说,这是一个了不起的平台。它是一个商业智能平台,最简单的理解方式是它是一个巨大的新闻聚合数据库。它包含 32 种语言的 33,000 多个来源。这些来源真正的好处在于我们实际上获得了这些来源的许可。因此,我们所做的是,我们出去与出版商交谈
我们获得许可,将内容包含到我们的数据库中。我们不仅这样做,而且我们还为此付费,对吧?这意味着使用该数据库的人知道他们将找到的信息是可信的信息。另一个使其真正有趣的是,它有很多
网络上无法免费获得的信息,对吧?因此,如果您现在考虑一下我在谷歌搜索它或以任何其他方式查找信息,许多实际新闻都隐藏在付费墙后面。Factiva 允许您访问这些信息。它拥有一个非常庞大的档案库,包含数十亿篇新闻文章,这意味着您可以
非常轻松地进行历史备份,对吧?将其与公司信息相结合,例如关于公司和高管的信息,这确实允许商业专业人士(无论是政府部门、学术界、法律专业人士,还是大型咨询公司的工作人员)进行真正深入的研究。
所以在来参加这次采访之前,我对您进行了一些广泛的研究,我知道您亲眼目睹了 Factiva 的发展历程,从在路透社担任新闻索引员手动标记数据开始。然后从所有数字化到今天在人工智能时代监督其作用,我认为
拥有像您这样的人来见证整个演变过程实际上非常罕见。那么,在整个旅程中,Factiva 的哪些核心价值观或原则保持不变?这些价值观如何塑造平台适应新技术(如生成式 AI)的方式?
您提到这一点很有趣,因为我经常谈论这一点,主要是因为这个角色的有趣之处。所以,为了让大家快速解释一下,我们实际上是花钱阅读不同语言的新闻文章,我们必须标记它们或在其上添加元数据。我们手动完成此操作。因此,我们必须说这是关于合并的。这两家公司参与其中,这个行业和这两个国家。
但我们意识到,随着新闻文章数量的增长,手动操作是不可扩展的,因为这意味着随着新闻的增长,您必须不断增加越来越多的人。因此,我们很早就开始使用自然语言处理的初步形式。
处理允许我们自动化它。因此,在我开始这份工作四年或五年后,这项工作就完全自动化了,对吧?然而我在这里,这是一件好事,因为它实际上我认为有助于消除许多人在谈到人工智能或生成式人工智能时所产生的恐惧。
因此,我认为由于 Factiva 处理的大量数据,目前我们每天处理 600,000 到 700,000 篇新闻文章,我们总是不得不考虑如何更聪明地做事以及如何使用技术来做到这一点。最终,这导致我们已经开始使用 Gen AI。最初,我们使用它来改进我们的搜索。我们实际上在去年推出了 Factiva 语义搜索,以使搜索、您在 Factiva 中搜索的方式对并非信息专业人员的人们来说更直观、更容易使用。我们现在正在推出的是下一步
即 GenAI 摘要。GenAI 摘要真正帮助我们的用户更快地理解 Factiva 中的所有信息。它简洁地总结。如果您提出问题,您将获得搜索结果的摘要。因此,您可以以非常快速有效的方式了解您是否真的获得了之前提出的问题的答案
但它也允许我们做到,我认为这回答了您关于什么没有改变的问题,对吧?因为那是问题的另一部分。
它还会向您显示搜索结果的来源。因此,关于这个摘要来自这三个来源非常清楚,这里有来源,如果您想阅读全文,您可以这样做。因此,信息是可追溯的、可引用的,您实际上也可以在审计中使用它,因为您确切地知道信息来自哪里。
坚持这种透明度,确保我们拥有正确的内容,这一点从未改变。25 多年前就是这样,今天仍然如此。哇,这是一个非常有趣的观点。那么,您能否解释一下,除了简单的自动化之外,人工智能是如何改变企业今天处理风险管理的方式?
是的,我认为这很有趣,我认为最终人工智能和生成式人工智能有助于自动化,对吧?它们帮助企业提高效率。但是,如果您从我们的角度来看,我认为它允许我们做的一部分是解决真正复杂的问题。
问题,对吧?当我们引入新技术时,我们的出发点绝不是为了引入新技术而引入新技术。我们想要做的是,我们希望确保我们倾听客户的声音,了解他们的问题是什么,然后我们才能真正解决问题。我认为有趣的是,如果您不考虑自动化部分,而是超越它,
人工智能和生成式人工智能使我们能够加快理解大量非结构化信息的过程,这在过去一直具有挑战性。当您开始适应生成式 AI 时,平台中是否存在任何重大挑战?此外,这些技术进步也可能带来机遇。您能分享一些吗?
是的,我认为其中一个挑战是它不是我们的内容,对吧?我们非常清楚地意识到,我们从其他出版物获得内容许可。正如我之前提到的,我们通过许可协议这样做。我们向出版商透明地说明其内容的处理方式。我们确保他们因我们使用的内容获得公平的补偿。
但是,因此,当我们开始讨论我们如何想要使用 GenAI 时,我们实际上觉得有义务回到出版商那里,并要求获得额外的许可权。
我认为,部分原因是道琼斯是一家出版商。我们自己也是出版商。我们非常保护我们的内容。我们希望确保我们了解我们内容的去向:它去了哪里?谁在使用它?我们希望为此获得公平的补偿。因此,如果这是我们的核心原则之一,那么我们也希望确保我们对其他
其他出版商采取完全相同的态度。因此,其中一个挑战是我们必须回到所有出版商那里,并要求获得额外的 Gen AI 许可权。
这样做的积极方面是,现在通过 GenAI 摘要提供的内容实际上是完全获得许可的内容。所有出版商都已允许我们将其内容用于此特定用例。
例如,道琼斯 Gen-AR 驱动的工具如何专门防范诸如错误信息之类的事情并帮助检测异常情况?您能否提供一些此类技术的实际示例?
是的,我认为关键在于一切始于您用作输入的信息,对吧?因此,我们希望确保我们实际上使用的是可信赖的、可靠的信息,这就是为什么当我们出去获得内容许可时,我们希望确保我们实际上,就像出版商提供给我们的内容一样可靠。我们有一个 CRM。
专门负责此事的团队。因此,这是一个了解并遍布全球的许可团队。因此,他们非常了解特定地区的媒体环境。他们可以使用他们的判断来实际理解,我可以信任这些信息吗?这个出版商可靠吗?如果是这样,那么让我们签订许可协议。这意味着输入是
是可靠的。这并不总是意味着幻觉不会发生。有一些例子仍然会发生,但您绝对可以最大限度地减少这种情况。第二个部分是持续测试,对吧?您必须不断测试它,因为特别是如果您使用提示,即使您进行最小的更改,
它也可能会扰乱您的整个提示。因此,我们进行了广泛的测试和持续测试。我们不是测试它,然后启动它,现在我们完成了。测试正在进行中。那么,您对 Factiva 中的数据和人工智能了解多少,而很少有人知道呢?
我对 RENI 了解很多。我们分享所有这些。完全正确。我认为我将分享两个。我认为其中一个是,我们已经谈了很多关于 Factiva 的新闻方面。
另一个方面是您可以在 Factiva 中找到的公司和高管信息。我们的客户实际上对此很了解。这并非秘密。但我认为这构成了一个非常有趣的组合。因此,我们涵盖了 4000 多万家公司和 8000 多万名高管。因此,将其与我们处理的新闻量相结合。这就是一个。另一件事是,
我认为这很有趣,这有点回到从一开始,对吧?从一开始,我们就必须处理大量信息。我们当时也在处理多语言。即使在 25 年前,我们的语言少于 32 种,但我们肯定不止英语。
那么,您如何实际允许用户找到所有这些信息,即使您不会说所有这些语言呢?同样,现在很容易。每个人都会说,好吧,使用谷歌翻译,对吧?25 年前,没有谷歌翻译。因此,我们实际上想出了……
回到我最初的工作,为所有这些文章添加元数据。因此,有一个合并代码,对吧?因此,即使我不懂日语或中文,我仍然可以搜索并购,我将获得这些具体的文章。所以它实际上……
我们处理多语言内容,以及多年来它使我们能够做到的事情,因为在我们开始使用机器学习或监督机器学习时,我们从未停止过这种标记,所有信息都已标注,我认为一个很大的
对于许多企业主,特别是大型企业的挑战是决定他们是否应该构建自己的大型语言模型或简称为 LLM,而不是说,使用现有的企业大型语言模型创建具有查询的检索增强生成。选择与谷歌合作并在 Techiva 中采用 Gemini 模型背后的思维模型是什么?
是的,我认为我将把它分成两部分,我认为,因为一方面是选择平台,另一方面是如何实际使用平台。从第二部分开始,使用 RAC 模型使我们能够做到的一件事是真正很好地控制输入和输出,对吧?因为最终它使我们能够做到的是使用所有获得 Factiva 内容许可的 Gen AI,将其放入向量数据库中,然后 RAC 模型实际上可以使用其中的信息。这是一个好方法,一个
控制在提供答案时使用哪些信息。
其次,它还允许我们对出版商非常透明,因为最终我们可以将每段文本追溯到出版商,对吧?这是来自该出版物的,这是来自该出版物的,这对我们来说非常重要。这也意味着,如果在任何时候出版商决定不再与我们合作,
我们可以将其删除。如果我们将其合并到大型语言模型中,它将永远保留在那里,对吧?所有这些都是选择 RAC 模型的原因。我们决定与谷歌合作的原因是我们已经与他们建立了良好的关系。我们正在使用谷歌云中的各种解决方案。
Gemini 就是其中一种解决方案。他们还拥有一个多语言模型,考虑到我们必须处理的 32 种语言,这非常有帮助。总的来说,这段旅程非常好,并且一直是一项真正支持性的、协作性的努力。那么,基于这种合作关系,谷歌将如何帮助道琼斯呢?
将他们的人工智能驱动的解决方案应用到 Factiva 产品上。我认为它使我们能够做到,而我认为这也很重要,并且绝对是合作关系的结果
回到大量内容,当我们查看延迟时,它实际上是我们正在寻找的。所以我认为这很重要。然后回到多语言模型,这也是对我们来说非常重要的事情。易用性是另一个。是的。
我认为刚才您提到找到数据的正确轨迹,这是一种数据来源的出处,当然,如果许可证消失了,出处就会消失,因此一切仍然是一致的,所以也许企业从 Gemini Power 工具中嵌入的透明功能中获得的具体好处是什么,我认为
我认为主要好处在于这种可审计性。我不知道这是否是一个词,但是,不,不,不,没关系。但我认为它确实回到了我们的大多数客户需要理解,他们需要证明他们从哪里获得信息,对吧?因为如果他们正在进行研究,同样,无论您是在咨询公司工作还是在合规部门工作,对吧?
您确实需要记录为什么做出某个决定。因此,能够提供这些信息,知道一点,它是获得许可的。因此,没有版权问题,这也很重要。然后了解它的来源也很重要。我建议许多首席执行官使用生成式人工智能,我总是告诉他们幻觉是一种功能,而不是错误。因此,每个人心中最大的问题是幻觉问题。
在您的产品中使用生成式 AI 时,您需要整合哪些框架或原则?因为 Factiva 是一种值得信赖的资源,对吧?人们相信您放入其中的数据以及您拥有的来源提出的查询。我认为它会,我不是技术人员,对吧?所以我只能笼统地谈论它。我认为……
主要的事情回到了测试和不断测试,因为有一些方法可以调整提示以防止幻觉。因此,如果您看到幻觉正在发生,那么您能否实际调整提示以防止这种情况发生?
但回到我之前所说的,这是一段永无止境的旅程,对吧?因为一旦你解决了这个问题,你可能会看到下一个或下一个。这就是为什么测试如此极其重要。那么,您将如何建议您的客户使用 GenAI 工具来敏捷地响应,比如说,新的数据以合规性或法规的形式出现?
我认为重要的是,我们正在遵循类似的结构,我认为,尽可能灵活。我的意思是,与其专注于解决一个问题的解决方案,不如实际提供更多解决方案
整体解决方案,服务于多种目的,这可能是因为您正在构建平台或正在构建多个模块。通过这样做,您可以实际使用它,并且可以根据合规性需求进行调整。我认为第二个部分,这与技术关系不大,但我更多地是从数据角度或内容角度考虑的,
您为数据和内容带来的结构越多,最终对数据进行切片和切块就越容易。所以即使您之前问过关于 Infectiva 没有改变什么的问题。
从一开始,我们处理、摄取新闻的方式就非常非常有条理。因此,即使是非结构化文本,在其中,它也是非常结构化的。所以它都是字段信息。这使您可以说,实际上,我知道我不允许使用这些信息。我可以轻松地将其排除在外。所以这实际上是关于您的数据结构。嗯哼。
我认为生成式 AI 的发展非常非常迅速。我认为几乎每周我都在追逐一项新的创新。当然,对于一些人来说,道琼斯也持续在商业智能领域进行创新。您如何设想人工智能在风险管理和决策方面的下一个重大进步?我的意思是,不一定是预测,但也许您正在关注哪些事情?我本来想说,如果我能预测未来,那就太容易了。这不是一个坏问题。但我认为……
如果我考虑更近的未来,我感到兴奋的一件事是真正能够……到目前为止,我们看待这个问题的方式非常类似于结构化数据或非结构化数据。然而……
下一步是将这两者结合起来。我们拥有大量结构化数据,我们拥有大量非结构化数据。我们能否实际将它们合并在一起,然后在上面做同样的事情,例如添加相同的搜索功能?如果您设法做到这一点,您实际上就创建了一个非常智能的平台。那么,您希望更多人问您关于 AI 和数据感染的一个问题是什么?
我认为在这些对话中有趣的是,很多讨论都围绕着技术展开。我认为一个有趣的问题是,人类在这个问题中的重要性是什么,对吧?所以……我要问你这个问题。人类在整个对话中的重要性是什么?谢谢。
这在几年前的道琼斯,我们使用了“真实智能”这个词。真实智能实际上是为了表明人工智能本身并不是答案。我们已经看到了多个这样的例子。您仍然需要人类智能、人类知识,例如,才能决定,
哪些来源是好的输入,您需要能够决定您可以做什么……
从输出的角度来看,如果您正在测试输出,那么好的输出是什么样的?目前,机器无法做到这一点。因此,我们看待它的方式是,机器最擅长做什么?让机器做这件事,然后实际上解放人类,以便他们可以进行更深入的调查,例如,为我们的客户带来更多价值。
所以这是关于判断的。这引出了我传统的结束问题,那么,好的结果是什么样的?但我实际上要问的是,在未来生成式 AI 的新时代,Factiva 启用后,伟大的结果是什么样的?我认为好的结果是回到我之前所说的。我认为将结构与非结构化数据结合起来的挑战,基本上,
但我认为,如果我们能够坚持我们对可靠信息的依赖、对出版合作伙伴的透明度以及对他们的公平补偿这一核心原则,我认为我们做得很好。
Ingrid,非常感谢您来到节目,并花时间与我讨论 Factiva 和生成式 AI 的使用。当然,也祝贺您使用 Gemini 模型。我期待看到其中的一些功能。最后,我有两个快速的问题。最近有什么推荐激励了你吗?我要说的是,我读了一本书。这实际上是几年前的事了,但不幸的是,从那以后我读过的最好的书仍然是它。
它叫做《小生命》。《小生命》是一本非常令人沮丧的书。它写得非常好。所以你可以感受到焦虑从书页中渗透出来。但这让我意识到,生命短暂,享受生活。这就是我的推荐,即使这并非故事的本意,因为故事与之相反。但我认为它表明了这样做很重要。
一本非常有趣的书,因为我们刚刚结束了美国总统大选的结论,但我们不会谈论这个,所以我的最后一个问题是,我的听众如何找到你?我在领英上,所以这是一个找到我的方法,你还会发现一些
我认为在 YouTube 上的采访。几年前我做了一个非常著名的采访,人们仍然在观看,这很有趣。然后我现在正在与出版界互动,因为我们相信
作为社群共同努力,我们实际上更有机会获得所有内容的公平补偿。非常感谢。当然,您可以在所有播客平台以及 YouTube 和 Spotify 上找到我们。当然,订阅我们的时事通讯,无论是在领英还是我们的主要网站上。所以英格丽德,感谢你来到节目。非常感谢。我期待着继续对话。太好了,谢谢。
你