Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 3 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -174,13 +174,14 @@ PaddleNLP 提供了方便易用的 Auto API,能够快速的加载模型和 Tok
>>> model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-0.5B", dtype="float16")
>>> input_features = tokenizer("你好!请自我介绍一下。", return_tensors="pd")
>>> outputs = model.generate(**input_features, max_length=128)
>>> print(tokenizer.batch_decode(outputs[0]))
>>> print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))
['我是一个AI语言模型,我可以回答各种问题,包括但不限于:天气、新闻、历史、文化、科学、教育、娱乐等。请问您有什么需要了解的吗?']
```

### 大模型预训练

```shell
git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # 如已clone或下载PaddleNLP可跳过
mkdir -p llm/data && cd llm/data
wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.bin
wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.idx
Expand All @@ -191,6 +192,7 @@ python -u -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" run_pretrain.py
### 大模型 SFT 精调

```shell
git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # 如已clone或下载PaddleNLP可跳过
mkdir -p llm/data && cd llm/data
wget https://bj.bcebos.com/paddlenlp/datasets/examples/AdvertiseGen.tar.gz && tar -zxvf AdvertiseGen.tar.gz
cd .. # change folder to PaddleNLP/llm
Expand Down
4 changes: 3 additions & 1 deletion README_en.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,13 +93,14 @@ PaddleNLP provides a convenient and easy-to-use Auto API, which can quickly load
>>> model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-0.5B", dtype="float16")
>>> input_features = tokenizer("你好!请自我介绍一下。", return_tensors="pd")
>>> outputs = model.generate(**input_features, max_length=128)
>>> print(tokenizer.batch_decode(outputs[0]))
>>> print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))
['我是一个AI语言模型,我可以回答各种问题,包括但不限于:天气、新闻、历史、文化、科学、教育、娱乐等。请问您有什么需要了解的吗?']
```

### Pre-training for large language model

```shell
git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # if cloned or downloaded, can skip this step
mkdir -p llm/data && cd llm/data
wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.bin
wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.idx
Expand All @@ -110,6 +111,7 @@ python -u -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" run_pretrain.py
### SFT finetuning forlarge language model

```shell
git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # if cloned or downloaded, can skip this step
mkdir -p llm/data && cd llm/data
wget https://bj.bcebos.com/paddlenlp/datasets/examples/AdvertiseGen.tar.gz && tar -zxvf AdvertiseGen.tar.gz
cd .. # change folder to PaddleNLP/llm
Expand Down
125 changes: 58 additions & 67 deletions docs/get_started/installation.rst
Original file line number Diff line number Diff line change
@@ -1,111 +1,102 @@
安装PaddleNLP
^^^^^^^^
以下安装过程默认用户已安装好paddlepaddle-gpu或paddlepaddle(版本大于或等于2.0),paddlepaddle安装方式参照 飞桨官网_。
~~~~~~~~~~~~~~~

.. _飞桨官网: https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/2.0/install/pip/windows-pip.html
以下指南将引导您完成安装过程,确保您能够轻松上手。请注意,本安装过程假设您已安装好`paddlepaddle-gpu`或`paddlepaddle`(版本大于或等于3.0)。如果您尚未安装PaddlePaddle,请参考 `飞桨官网`_ 进行安装。

.. _飞桨官网: https://www.paddlepaddle.org.cn/

pip安装
--------
.. code-block::

pip install --upgrade paddlenlp>=2.0.0rc -i https://pypi.org/simple
最简单快捷的安装方式是使用pip。只需在命令行(终端)中运行以下命令:

Anaconda安装
--------
Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。使用Anaconda可以通过创建多个独立的Python环境,避免用户的Python环境安装太多不同版本依赖导致冲突。
.. code-block:: bash

pip install --upgrade --pre paddlenlp

这将会自动安装最新版本的PaddleNLP。

1、windows安装Anaconda
>>>>>>>>>
使用Anaconda或Miniconda安装
--------------------------

第一步 下载
:::::::::
* 在 Anaconda官网_ 选择下载Windows Python3.7 64-Bit版本。
Anaconda和Miniconda是流行的Python发行版本,它们能够简化包管理和环境配置。

.. _Anaconda官网: https://www.anaconda.com/products/individual

* 确保已经安装Visual C++ Build Tools(可以在开始菜单中找到),如未安装,请点击 下载安装_。
**Windows安装步骤**:
^^^^^^^^^^^^^^^^^^^^^

.. _下载安装: https://go.microsoft.com/fwlink/?Linkid=691126
1. **下载**:访问 `Anaconda官网`_ 或 `Miniconda官网`_,下载适用于Windows 64-Bit的安装包。

第二步 安装
:::::::::
运行下载的安装包(以.exe为后辍),根据引导完成安装, 用户可自行修改安装目录(如下图)。
.. _`Anaconda官网`: https://www.anaconda.com/download/success
.. _`Miniconda官网`: https://docs.anaconda.com/miniconda/

.. image:: ../imgs/anaconda_windows.png
2. **安装**:运行下载的安装包,按照屏幕上的指示完成安装。

第三步 使用
:::::::::
* 点击Windows系统左下角的Windows图标,打开:所有程序->Anaconda3/2(64-bit)->Anaconda Prompt
* 在命令行中执行下述命令
3. **配置环境**:

.. code-block::
- 打开“Anaconda Prompt”或“Miniconda Prompt”。
- 创建一个新的环境并安装PaddleNLP:

# 创建名为my_paddlenlp的环境,指定Python版本为3.7
conda create -n my_paddlenlp python=3.7
# 进入my_paddlenlp环境
conda activate my_paddlenlp
# 安装PaddleNLP
pip install --upgrade paddlenlp>=2.0.0rc -i https://pypi.org/simple
.. code-block:: bash

按如上方式配置后,即可在环境中使用PaddleNLP了,命令行输入python回车后,import paddlenlp试试吧,之后再次使用都可以通过打开'所有程序->Anaconda3/2(64-bit)->Anaconda Prompt',再执行conda activate my_paddlenlp进入环境后,即可再次使用PaddleNLP。
# 创建名为my_paddlenlp的环境,指定Python版本为3.9或3.10
conda create -n my_paddlenlp python=3.9
# 激活环境
conda activate my_paddlenlp
# 安装PaddleNLP
pip install --upgrade --pre paddlenlp

2、Linux/Mac安装Anaconda
>>>>>>>>>
或者,如果您想安装nightly版本:

第一步 下载
:::::::::
在 Anaconda官网_ 选择下载对应系统 Python3.7版本下载(Mac下载Command Line Installer版本即可)。
.. code-block:: bash

.. _Anaconda官网: https://www.anaconda.com/products/individual
pip install --pre --upgrade paddlenlp -f https://www.paddlepaddle.org.cn/whl/paddlenlp.html

第二步 安装
:::::::::
打开终端,在终端安装Anaconda
现在,您可以在这个环境中使用PaddleNLP了。

.. code-block::

# ~/Downloads/Anaconda3-2019.07-Linux-x86_64.sh即下载的文件
bash ~/Downloads/Anaconda3-2019.07-Linux-x86_64.sh

安装过程中一直回车即可,如提示设置安装路径,可根据需求修改,一般默认即可。
**Linux/Mac安装步骤**:
^^^^^^^^^^^^^^^^^^^^^

第三步 使用
:::::::::
1. **下载**:访问 `Anaconda官网`_ 或 `Miniconda官网`_,下载适用于Linux/Mac操作系统的安装包。

.. code-block::
.. _`Anaconda官网`: https://www.anaconda.com/download/success
.. _`Miniconda官网`: https://docs.anaconda.com/miniconda/

# 创建名为my_paddlenlp的环境,指定Python版本为3.7
conda create -n my_paddlenlp python=3.7
# 进入my_paddlenlp环境
conda activate my_paddlenlp
# 安装PaddleNLP
pip install --upgrade paddlenlp>=2.0.0rc -i https://pypi.org/simple
2. **安装**:打开终端,导航到下载文件的目录,并执行安装脚本。

按如上方式配置后,即可在环境中使用PaddleNLP了,命令行输入python回车后,import paddlenlp试试吧,之后再次使用都可以通过打开'所有程序->Anaconda3/2(64-bit)->Anaconda Prompt',再执行conda activate my_paddlenlp进入环境后,即可再次使用PaddleNLP。
3. **配置环境**:

- 创建一个新的环境并安装PaddleNLP,步骤与Windows相同。

代码安装
---------
github代码会跟随开发进度不断更新
--------

.. code-block::
如果您希望从源代码安装PaddleNLP,可以通过克隆GitHub仓库来实现:

.. code-block:: bash

git clone https://github.com/PaddlePaddle/PaddleNLP.git
cd PaddleNLP
git checkout develop

然后,您可以按照仓库中的说明进行后续安装步骤。

使用Docker镜像体验PaddleNLP
^^^^^^^^
-------------------

如果您没有Docker运行环境,请参考 `Docker官网`_ 进行安装
如果您想在一个隔离的环境中体验PaddleNLP,可以使用Docker。首先,请确保您已安装Docker。然后,您可以拉取PaddlePaddle提供的Docker镜像,并在其中安装PaddleNLP:

.. _Docker官网: https://www.docker.com
.. code-block:: bash

PaddleNLP提供了带有最新代码的docker镜像供您使用,您只需要*拉取docker镜像*,然后*运行docker镜像*,无需其他任何额外操作,即可开始使用PaddleNLP的所有功能。
# 假设您已经拉取了PaddlePaddle的Docker镜像
# 进入Docker容器后
pip install --upgrade --pre paddlenlp

在 `Docker Hub`_ 中获取这些镜像及相应的使用指南,包括CPU、GPU、ROCm版本。
或者,如果您想安装开发版本:

.. _Docker Hub: https://hub.docker.com/repository/docker/paddlecloud/paddlenlp
.. code-block:: bash

如果您对自动化制作docker镜像感兴趣,或有自定义需求,请访问 `PaddlePaddle/PaddleCloud`_ 做进一步了解。
pip install --pre --upgrade paddlenlp -f https://www.paddlepaddle.org.cn/whl/paddlenlp.html

.. _PaddlePaddle/PaddleCloud: https://github.com/PaddlePaddle/PaddleCloud/tree/main/tekton
这样,您就可以在Docker容器中轻松使用PaddleNLP了。