我在AWS S3存储桶中有500个文件夹。每个文件夹中都有2到3张图片。我如何对这些图片应用Textract并使用Node.js提取完整的文本(所有文本连接在一起)?我编写了以下代码来获取S3对象:
const aws = require('aws-sdk');const config = require('./config.js');(async function(){ aws.config.setPromisesDependency(); try{ aws.config.update({ accessKeyId: config.accessKeyId, secretAccessKey: config.secretAccessKey, region: config.awsRegion }); const s3 = new aws.S3(); const response = await s3.listObjectsV2({ Bucket : '<Bucket Name>', Prefix : '<Prefix>' }).promise(); console.log(response); } catch(e) { console.log('our err.',e); } })();
我如何遍历这些子文件夹及其中的图片?
回答:
你可以选择以下方法:
- 使用S3 API列出并遍历所有图片,对每张图片应用文本提取
- 使用S3清单遍历所有图片并执行相同的操作
对于新文件,你可以设置一个Lambda函数和S3 PUT
触发器来自动对新文件应用文本检测。