اگر قصد دارید رو cpu بار محاسباتی را کم کنید .transorm_graph یکی از کارهایی که انجام میده quantize کردن گراف به 8 بیت با پارامتر quantize_weights هستش البته تا جایی که من تجربه داشتم رو سرعت inference تاثیری نداشته ولی حجم مدل را به طور چشمگیری کاهش میده .
transform_graph --in_graph="graph_frozen.pb" --out_graph="graph_frozen_opt.pb" --inputs="input_1" --outputs="dense_1/Sigmoid" --transforms="strip_unused_nodes(type=float, shape=\"1,160,160,3\") remove_nodes(op=Identity, op=CheckNumerics) fold_constants(ignore_errors=true) fold_batch_norms fold_old_batch_norms quantize_weights
quantize_nodes strip_unused_nodes sort_by_execution_order "
جهت کاهش زمان اجرای عملیات inference بهتر تنسورفلو رو با MKL بیلد کنید و یا از openvino برای بهینه سازی مدا استفاده کنید.