我已经成功地在AWS Sagemaker上部署了我的Jupyter笔记本,并为预测算法(用例)创建了端点。我想知道如何在AWS Sagemaker中实现多实例环境,以及如何对端点的多个请求进行负载均衡。
如果这个问题不合理,请告诉我。
回答:
你可能像这样创建了你的端点:
predictor = estimator.deploy(initial_instance_count=1, instance_type=’ml.m4.xlarge’)
如果你将initial_instance_count设置为大于1,SageMaker会自动为你的端点分配相应数量的实例。预测请求将自动进行负载均衡,不需要做其他操作。
如果需要,你还可以设置自动缩放来处理流量变化:https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html