Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
31 changes: 28 additions & 3 deletions datasets/arabic_billion_words/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@ language_creators:
languages:
- ar
licenses:
- unkown
- unknown
multilinguality:
- monolingual
size_categories:
Expand Down Expand Up @@ -37,6 +37,7 @@ task_categories:
task_ids:
- language-modeling
paperswithcode_id: null
pretty_name: Arabic Billion Words
---

# Dataset Card for Arabic Billion Words Corpus
Expand Down Expand Up @@ -92,7 +93,18 @@ Arabic

### Data Instances

[More Information Needed]
This is an example of the "Almasryalyoum" configuration subset:
```python
{
"url": "http://today.almasryalyoum.com/printerfriendly.aspx?ArticleID=61300",
"head_line": "رئيس وزراء المجر: عنصرية جماهير أوجبيست جلبت العار للبلاد",
"date": "19/5/2007",
"text": """قال متحدث باسم الحكومة المجرية: إن رئيس الوزراء فيرنك جيوركساني رحب بقرار اتحاد كرة القدم المجري بخصم ثلاث نقاط من نادي أوجبيست بسبب السلوك العنصري الذي صدر من جماهيره.
وعاقب الاتحاد المجري فريق أوجبيست بعد أن سخرت جماهيره من إبراهيم سيديبي مهاجم فريق ديبرينسين الأسود أثناء مباراة الفريقين أوائل مايو الجاري.
يذكر أن الاتحاد فرض أيضا غرامة مالية قدرها 20 ألف دولار علي أوجبيست في عام 2005 بعد أن رددت جماهيره شعارات معادية للسامية خلال مباراة بالدوري المجري.
وأوضح جيوركساني في خطاب إلي إيستفان كيستليكي رئيس الاتحاد المجري لكرة القدم، أن هذا السلوك العنصري من الجماهير «جلب العار لكرة القدم وللمجر». يذكر أن المجر بها مجموعة من مشجعي كرة القدم المشاغبين «الهوليجانز»، وشارك الكثير منهم في أعمال شغب معادية للحكومة في العام الماضي.""",
}
```

### Data Fields

Expand All @@ -104,7 +116,20 @@ The data fields are:

### Data Splits

[More Information Needed]
There is only one "training" split for all configuration subsets, containing the following number of examples:

| | Number of examples |
|:---------------|-------------------:|
| Alittihad | 11551 |
| Almasryalyoum | 3170 |
| Almustaqbal | 12627 |
| Alqabas | 16449 |
| Echoroukonline | 34931 |
| Ryiadh | 13112 |
| Sabanews | 23036 |
| SaudiYoum | 73922 |
| Techreen | 37491 |
| Youm7 | 33460 |

## Dataset Creation

Expand Down
6 changes: 3 additions & 3 deletions datasets/arabic_billion_words/arabic_billion_words.py
Original file line number Diff line number Diff line change
Expand Up @@ -157,14 +157,14 @@ def _generate_examples(self, filepath):
pattern = f"<{data_tag}(.*?)</{data_tag}>"
data = re.finditer(r"" + pattern, current_multi_line, re.MULTILINE | re.DOTALL)
text, url, head_line, date = ["", "", "", ""]
for _, record in enumerate(data):
for record in data:
try:
text = self._clean_text(self._extract_tags(record, "Text"))
url = self._extract_tags(record, "URL")
head_line = self._clean_text(self._extract_tags(record, "Headline"))
date = self._extract_tags(record, "Dateline")
except ValueError:
pass
except IndexError:
continue
yield str(_idx), {"url": url, "head_line": head_line, "date": date, "text": text}
_idx += 1
current_multi_line = ""
Loading