update.

jiweibo · jiweibo · commit 7cb44d9e455f · 2020-11-06T04:58:08.000Z
diff --git a/paddle/fluid/inference/api/analysis_predictor.cc b/paddle/fluid/inference/api/analysis_predictor.cc
@@ -889,9 +889,9 @@ bool AnalysisPredictor::LoadParameters() {
   return true;
 }
 
-void AnalysisPredictor::ShrinkMemory() {
+uint64_t AnalysisPredictor::TryShrinkMemory() {
   ClearIntermediateTensor();
-  paddle::memory::Release(place_);
+  return paddle::memory::Release(place_);
 }
 
 void AnalysisPredictor::ClearIntermediateTensor() {
@@ -982,6 +982,8 @@ AnalysisPredictor::~AnalysisPredictor() {
   if (sub_scope_) {
     scope_->DeleteScope(sub_scope_);
   }
+  // TODO(wilber): release weight memory.
+  paddle::memory::Release(place_);
 
 #if PADDLE_WITH_MKLDNN
   if (mkldnn_quantizer_) {
@@ -1146,7 +1148,7 @@ void Predictor::ClearIntermediateTensor() {
   predictor_->ClearIntermediateTensor();
 }
 
-void Predictor::ShrinkMemory() { predictor_->ShrinkMemory(); }
+uint64_t Predictor::TryShrinkMemory() { return predictor_->TryShrinkMemory(); }
 
 int GetNumBytesOfDataType(DataType dtype) {
   switch (dtype) {
diff --git a/paddle/fluid/inference/api/analysis_predictor.h b/paddle/fluid/inference/api/analysis_predictor.h
@@ -195,9 +195,14 @@ class AnalysisPredictor : public PaddlePredictor {
 
   ///
   /// \brief Release all tmp tensor to compress the size of the memory pool.
-  /// After this operation, we reduced the memory usage.
+  /// The memory pool is considered to be composed of a list of chunks, if
+  /// the chunk is not occupied, it can be released.
   ///
-  void ShrinkMemory() override;
+  /// \return Number of bytes released. It may be smaller than the actual
+  /// released memory, because part of the memory is not managed by the
+  /// MemoryPool.
+  ///
+  uint64_t TryShrinkMemory() override;
 
   ///
   /// \brief Get the argument used by predictor
diff --git a/paddle/fluid/inference/api/analysis_predictor_tester.cc b/paddle/fluid/inference/api/analysis_predictor_tester.cc
@@ -135,7 +135,7 @@ TEST(AnalysisPredictor, ZeroCopy) {
   auto* out_data = out->data<float>(&place, &size);
   LOG(INFO) << "output size: " << size / sizeof(float);
   LOG(INFO) << "output_data: " << out_data;
-  predictor->ShrinkMemory();
+  predictor->TryShrinkMemory();
 }
 
 TEST(AnalysisPredictor, Clone) {
@@ -546,7 +546,7 @@ TEST(Predictor, Run) {
   int size = 0;
   out->data<float>(&place, &size);
   LOG(INFO) << "output size: " << size / sizeof(float);
-  predictor->ShrinkMemory();
+  predictor->TryShrinkMemory();
 }
 
 }  // namespace paddle_infer
diff --git a/paddle/fluid/inference/api/api_tester.cc b/paddle/fluid/inference/api/api_tester.cc
@@ -60,7 +60,7 @@ TEST(paddle_inference_api, demo) {
   auto predictor = CreatePaddlePredictor(config);
   std::vector<PaddleTensor> outputs;
   predictor->Run({}, &outputs);
-  predictor->ShrinkMemory();
+  predictor->TryShrinkMemory();
 }
 
 TEST(paddle_inference_api, get_version) {
diff --git a/paddle/fluid/inference/api/paddle_api.h b/paddle/fluid/inference/api/paddle_api.h
@@ -321,9 +321,14 @@ class PD_INFER_DECL PaddlePredictor {
 
   ///
   /// \brief Release all tmp tensor to compress the size of the memory pool.
-  /// After this operation, we reduced the memory usage.
+  /// The memory pool is considered to be composed of a list of chunks, if
+  /// the chunk is not occupied, it can be released.
   ///
-  virtual void ShrinkMemory() {}
+  /// \return Number of bytes released. It may be smaller than the actual
+  /// released memory, because part of the memory is not managed by the
+  /// MemoryPool.
+  ///
+  virtual uint64_t TryShrinkMemory() { return 0; }
 
   /// \brief Clone an existing predictor
   /// When using clone, the same network will be created,
diff --git a/paddle/fluid/inference/api/paddle_inference_api.h b/paddle/fluid/inference/api/paddle_inference_api.h
@@ -226,9 +226,14 @@ class PD_INFER_DECL Predictor {
 
   ///
   /// \brief Release all tmp tensor to compress the size of the memory pool.
-  /// After this operation, we reduced the memory usage.
+  /// The memory pool is considered to be composed of a list of chunks, if
+  /// the chunk is not occupied, it can be released.
   ///
-  void ShrinkMemory();
+  /// \return Number of bytes released. It may be smaller than the actual
+  /// released memory, because part of the memory is not managed by the
+  /// MemoryPool.
+  ///
+  uint64_t TryShrinkMemory();
 
  private:
   std::unique_ptr<paddle::PaddlePredictor> predictor_;
diff --git a/paddle/fluid/pybind/inference_api.cc b/paddle/fluid/pybind/inference_api.cc
@@ -566,7 +566,7 @@ void BindAnalysisPredictor(py::module *m) {
       .def("zero_copy_run", &AnalysisPredictor::ZeroCopyRun)
       .def("clear_intermediate_tensor",
            &AnalysisPredictor::ClearIntermediateTensor)
-      .def("shrink_memory", &AnalysisPredictor::ShrinkMemory)
+      .def("try_shrink_memory", &AnalysisPredictor::TryShrinkMemory)
       .def("create_feed_fetch_var", &AnalysisPredictor::CreateFeedFetchVar)
       .def("prepare_feed_fetch", &AnalysisPredictor::PrepareFeedFetch)
       .def("prepare_argument", &AnalysisPredictor::PrepareArgument)
@@ -594,7 +594,7 @@ void BindPaddleInferPredictor(py::module *m) {
       .def("get_output_handle", &paddle_infer::Predictor::GetOutputHandle)
       .def("run", &paddle_infer::Predictor::Run)
       .def("clone", &paddle_infer::Predictor::Clone)
-      .def("shrink_memory", &paddle_infer::Predictor::ShrinkMemory)
+      .def("try_shrink_memory", &paddle_infer::Predictor::TryShrinkMemory)
       .def("clear_intermediate_tensor",
            &paddle_infer::Predictor::ClearIntermediateTensor);
 }

Original file line number	Diff line number	Diff line change
`@@ -889,9 +889,9 @@ bool AnalysisPredictor::LoadParameters() {`
`889`	`889`	`return true;`
`890`	`890`	`}`
`891`	`891`
`892`		`-void AnalysisPredictor::ShrinkMemory() {`
	`892`	`+uint64_t AnalysisPredictor::TryShrinkMemory() {`
`893`	`893`	`ClearIntermediateTensor();`
`894`		`- paddle::memory::Release(place_);`
	`894`	`+ return paddle::memory::Release(place_);`
`895`	`895`	`}`
`896`	`896`
`897`	`897`	`void AnalysisPredictor::ClearIntermediateTensor() {`
`@@ -982,6 +982,8 @@ AnalysisPredictor::~AnalysisPredictor() {`
`982`	`982`	`if (sub_scope_) {`
`983`	`983`	`scope_->DeleteScope(sub_scope_);`
`984`	`984`	`}`
	`985`	`+ // TODO(wilber): release weight memory.`
	`986`	`+ paddle::memory::Release(place_);`
`985`	`987`
`986`	`988`	`#if PADDLE_WITH_MKLDNN`
`987`	`989`	`if (mkldnn_quantizer_) {`
`@@ -1146,7 +1148,7 @@ void Predictor::ClearIntermediateTensor() {`
`1146`	`1148`	`predictor_->ClearIntermediateTensor();`
`1147`	`1149`	`}`
`1148`	`1150`
`1149`		`-void Predictor::ShrinkMemory() { predictor_->ShrinkMemory(); }`
	`1151`	`+uint64_t Predictor::TryShrinkMemory() { return predictor_->TryShrinkMemory(); }`
`1150`	`1152`
`1151`	`1153`	`int GetNumBytesOfDataType(DataType dtype) {`
`1152`	`1154`	`switch (dtype) {`
Original file line number	Diff line number	Diff line change
`@@ -60,7 +60,7 @@ TEST(paddle_inference_api, demo) {`
`60`	`60`	`auto predictor = CreatePaddlePredictor(config);`
`61`	`61`	`std::vector<PaddleTensor> outputs;`
`62`	`62`	`predictor->Run({}, &outputs);`
`63`		`- predictor->ShrinkMemory();`
	`63`	`+ predictor->TryShrinkMemory();`
`64`	`64`	`}`
`65`	`65`
`66`	`66`	`TEST(paddle_inference_api, get_version) {`