使用多模态提示在 Amazon Bedrock 中阅读图表、图解、表格和扫描页面机器学习博客

2026/04/29

使用多模态提示在Amazon Bedrock中读取图表、图示、表格及扫描页面

关键要点

大型语言模型（LLMs）不仅能够读取文本，还能理解图形、图示、表格和图像。
Amazon Bedrock提供高性能的基础模型，支持多种AI应用的安全与责任合规。
本文介绍了如何利用Amazon Bedrock中的模型提取图像、表格和扫描文档中的信息。

在这篇文章中，我们将探讨如何使用Amazon Bedrock中的LLM来提取文本并深入理解图像中的信息。

Amazon Bedrock是一个完全托管的服务，提供来自AI公司（如AI21 Labs、Anthropic、Cohere、Meta、MistralAI、StabilityAI和Amazon）的高效基础模型（FMs），通过单一API进行访问。它还提供一整套构建生成性AI应用的能力，同时确保安全性、隐私和负责任的AI实践。

解决方案概述

在本帖子中，我们展示了如何使用Amazon Bedrock上的模型，从图像、表格和扫描文档中提取信息。以下是一些示例：

执行物体分类和物体检测任务
阅读和查询图表
读取流程图和架构图（例如AWS架构图）并将其转换为文本

我们还探讨了具体的应用案例，展示了Amazon Bedrock如何帮助您从图像中生成信息：

确定图像中的动作
命名产品并提取元数据以生成宣传标语和描述
为物业生成房产列表
从菜肴图像生成食谱

使用LLM执行物体分类和检测任务

截止目前，物体分类和检测的最佳算法基于卷积神经网络。然而，像Anthropic的Claude 3Sonnet这样的LLM也能够使用零样本提示来执行这些任务，即在没有提供具体示例或训练数据的情况下向模型给出任务。在下面的示例中，我们演示如何根据提示中的类别对图像进行分类。以下图像是一个的澳大利亚医疗卡。

删除)

我们使用以下提示与Anthropic的Claude 3 Sonnet进行图像分类：

这是客户申请贷款时上传的文档。该图像可以属于四个类别中的一个：身份证、银行对账单、申请表或水电费账单。请确定该文档的类别，并只给我类别名称。现在不需要其他信息。

我们收到了以下LLM的回复：

根据提供的图像，该文档的类别似乎是身份证或识别证件。图像显示的似乎是医疗卡或类似的政府签发的身份证明文件，上面显示了姓名和识别号码。

删除)

虽然它正确识别了类别，但返回的JSON格式响应会使处理更为简单。因此，我们在提示末尾添加如下内容：

以JSON格式提供响应，键为“class”，值为文档的类别

我们得到的响应为：

json { "class": "ID" }

现在，您可以使用您选择的库（例如Python的库）读取JSON响应。

在下一个示例中，我们使用Meta的Llama 3.2 90B Vision模型从图像中识别一个物体。以下图像是一个齿轮箱。

删除)

我们使用以下提示来识别图像中的齿轮箱：

识别此图像中的整个机械部件。仅以JSON格式提供机械部件的名称，键为“name”，值为机械部件的名称。

以下截图展示了提示和模型的回答。

删除)

阅读和查询图表

在下一个示例中，我们展示了如何读取图表，并插值和外推图表中的值。以下图表显示了一些国家的人口增长情况（）。

删除)

我们将此图像传递给Anthropic的Claude 3 Sonnet，并使用以下提示：

从此图表中创建印度的人口表，第一列为年份，第二列为以百万计的人口。每5年创建一行，起始年份为1950，到2025年。

我们要求模型每5年创建一行，因此模型必须进行插值。同时，我们要求将表格延续到2025年，因数据仅至2021年，模型需要外推值。我们得到的响应如下：

以下是印度的人口表，第一列为年份，第二列为以百万计的人口，从1950年到2025年，每5年一行：

| 年份 | 人口（百万） | |------|--------------------------| | 1950 | 357.6 | | 1955 | 390.5 | | 1960 | 427.8 | | 1965 | 468.0 | | 1970 | 510.9 | | 1975 | 556.9 | | 1980 | 605.7 | | 1985 | 658.0 | | 1990 | 713.8 | | 1995 | 773.0 | | 2000 | 835.6 | | 2005 | 901.7 | | 2010 | 971.5 | | 2015 | 1045.0 | | 2020 | 1122.0 | | 2025 | 1202.4 |

外推结果可能不够准确，这也是传统机器学习（ML）方法能发挥作用的地方。

您还可以要求模型将自身知识与图表中的知识相结合。以下提示要求提供该图表中2021年各国人口及其首都：

能否创建一个2021年的人口表，第一列为国家名称，第二列为人口（百万），第三列为该国的首都？

以下截图展示了响应。

删除)

LLM已根据图表及其自身关于各国首都的信息填充了表格。

您还可以尝试更复杂的内容。以下图像是来自天气图。

删除)

您可以向LLM提出具体问题，例如：

这是澳大利亚的降水图。目前在悉尼下雨吗？

您无需告知LLM悉尼的位置或该图像是降雨情况。

我们得到的响应为：

根据降水图，悉尼地区似乎没有显著的降水发生。该图使用等高线和颜色表示降水水平，但在悉尼周围没有阴影区域或等高线表示在该时间段内有降雨。因此，可用数据表明在该降水图所表示的时间，悉尼可能没有下雨。

从这个用例中有几个有趣的观察：

Anthropic的Claude 3 Sonnet能够读取地图
模型可以读取地图上的叠加信息
像“悉尼周围地区”这样的短语表明模型不需要精确的信息，而可以使用近似值，就像人类一样

阅读流程图和架构图

您可以使用Meta Llama 3.2 90B Vision模型读取AWS架构图。以下是一个现代化应用架构图的示例，使用微服务与配合。

删除)

我们使用以下提示读取此图：

此图中的步骤通过数字1到11进行解释。数字显示在蓝色方块中。您能否使用1到11的数字解释图，并说明每个步骤发生了什么？

以下截图展示了我们得到的LLM响应（为简便起见已截断）。

删除)

此外，您还可以基于此图进行后续提问：

在此架构中，我们为什么需要网络负载均衡器？

以下截图展示了模型的响应。

删除)

可以看到，LLM现在充当您关于该架构的顾问。

然而，我们的用途并不仅限于软件工程。您还可以读取来自工程、建筑和医疗保健的图表和图像。

/media/vpn_article_14698_image_11x.webp)的过程图。

删除)

若要了解此过程图的内容并描述该过程，您可以使用以下提示：

您能命名示例中显示的过程吗？同时使用编号步骤描述该过程，按从左到右的顺序进行。

以下截图展示了响应。

删除)

LLM理清楚了该图是为了生产氨的哈柏过程，并描述了过程步骤。

识别图像中的动作

您可以识别和分类图像中发生的动作。模型通过分析上下文信息（如周围物体、环境和个体或实体在图像中的位置）的能力，进一步增强了准确识别动作的能力。通过结合这些视觉线索和上下文元素，Anthropic的Claude3 Sonnet能够对所执行动作的性质做出明智的判断，从而为图像中描绘的场景提供全面的理解。

以下是一个示例，我们不仅可以对运动员的动作进行分类，还可以将该动作与专业运动员进行比较并提供反馈。

我们向模型提供了以下网球运动员的图像。该图像是使用Stability AI（SDXL 1.0）模型生成的。

删除)

以下截图展示了提示和模型的响应。

删除)

命名产品并提取元数据以生成推广语和描述

在市场营销和产品开发领域，想出一个完美的产品名称和创意推广内容可能具有挑战性。借助Anthropic的Claude 3Sonnet的图像到文本能力，您可以上传产品图像，模型可以生成独特的产品名称并为目标受众定制推广语。

对于这个示例，我们向模型提供了以下运动鞋图像（该图像是使用Stability AI（SDXL 1.0）模型生成的）。

删除)

以下截图展示了提示。

删除)

以下截图显示模型的响应。

删除)

在零售和电子商务领域，您还可以利用Anthropic的Claude 3 Sonnet从图像中提取详细的产品信息进行库存管理。

例如，我们使用以下截图中的提示。

删除)

以下截图展示了模型的响应。

删除)

创建房产的房产列表

您可以上传房产平面图和房屋内部及外部的照片，然后获取用于房地产列表的描述。这对房地产经纪人在宣传房产时提高创造力和生产力非常有帮助。建筑师也可以利用这种机制向客户解释平面图。

我们向模型提供了以下示例平面图。

删除)

以下截图展示了提示。

删除)

以下截图展示了响应。

删除)

从菜肴图像生成食谱

您还可以使用Anthropic的Claude 3Sonnet根据菜肴的图片创建食谱。然而，默认情况下，模型只能识别训练数据集中包含的菜肴。成分替代、烹饪技巧和文化差异可能会带来显著挑战。

例如，我们向模型提供了以下蛋糕图像以提取食谱。该图像是使用Stability AI模型（SDXL 1.0）在Amazon Bedrock中生成的。

删除)

以下截图展示了提示。

删除)

模型成功识别该菜肴为“黑森林蛋糕”，并创建了详细的食谱。尽管结果可能不完全是图示的蛋糕，但确实接近黑森林蛋糕。

![](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4

使用多模态提示在 Amazon Bedrock 中阅读图表、图解、表格和扫描页面机器学习博客

使用多模态提示在Amazon Bedrock中读取图表、图示、表格及扫描页面

关键要点

解决方案概述

使用LLM执行物体分类和检测任务

阅读和查询图表

阅读流程图和架构图

识别图像中的动作

命名产品并提取元数据以生成推广语和描述

创建房产的房产列表

从菜肴图像生成食谱

Leave a Reply

Recent Posts

Categories

注册优惠

使用多模态提示在 Amazon Bedrock 中阅读图表、图解、表格和扫描页面 机器学习博客

使用多模态提示在Amazon Bedrock中读取图表、图示、表格及扫描页面

关键要点

解决方案概述

使用LLM执行物体分类和检测任务

阅读和查询图表

阅读流程图和架构图

识别图像中的动作

命名产品并提取元数据以生成推广语和描述

创建房产的房产列表

从菜肴图像生成食谱

Leave a Reply

Recent Posts

Categories

注册优惠

使用多模态提示在 Amazon Bedrock 中阅读图表、图解、表格和扫描页面机器学习博客