Skip to content

Commit 6bdc52d

Browse files
Fix IndexError while loading Arabic Billion Words dataset (#2729)
* Catch IndexError and ignore that record * Update metadata JSON * Add pretty_name tag to dataset card * Add Data Splits to dataset card * Add Data Instances to dataset card * Fix licenses tag in dataset card
1 parent 202f253 commit 6bdc52d

File tree

3 files changed

+32
-7
lines changed

3 files changed

+32
-7
lines changed

datasets/arabic_billion_words/README.md

Lines changed: 28 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -6,7 +6,7 @@ language_creators:
66
languages:
77
- ar
88
licenses:
9-
- unkown
9+
- unknown
1010
multilinguality:
1111
- monolingual
1212
size_categories:
@@ -37,6 +37,7 @@ task_categories:
3737
task_ids:
3838
- language-modeling
3939
paperswithcode_id: null
40+
pretty_name: Arabic Billion Words
4041
---
4142

4243
# Dataset Card for Arabic Billion Words Corpus
@@ -92,7 +93,18 @@ Arabic
9293

9394
### Data Instances
9495

95-
[More Information Needed]
96+
This is an example of the "Almasryalyoum" configuration subset:
97+
```python
98+
{
99+
"url": "http://today.almasryalyoum.com/printerfriendly.aspx?ArticleID=61300",
100+
"head_line": "رئيس وزراء المجر: عنصرية جماهير أوجبيست جلبت العار للبلاد",
101+
"date": "19/5/2007",
102+
"text": """قال متحدث باسم الحكومة المجرية: إن رئيس الوزراء فيرنك جيوركساني رحب بقرار اتحاد كرة القدم المجري بخصم ثلاث نقاط من نادي أوجبيست بسبب السلوك العنصري الذي صدر من جماهيره.
103+
وعاقب الاتحاد المجري فريق أوجبيست بعد أن سخرت جماهيره من إبراهيم سيديبي مهاجم فريق ديبرينسين الأسود أثناء مباراة الفريقين أوائل مايو الجاري.
104+
يذكر أن الاتحاد فرض أيضا غرامة مالية قدرها 20 ألف دولار علي أوجبيست في عام 2005 بعد أن رددت جماهيره شعارات معادية للسامية خلال مباراة بالدوري المجري.
105+
وأوضح جيوركساني في خطاب إلي إيستفان كيستليكي رئيس الاتحاد المجري لكرة القدم، أن هذا السلوك العنصري من الجماهير «جلب العار لكرة القدم وللمجر». يذكر أن المجر بها مجموعة من مشجعي كرة القدم المشاغبين «الهوليجانز»، وشارك الكثير منهم في أعمال شغب معادية للحكومة في العام الماضي.""",
106+
}
107+
```
96108

97109
### Data Fields
98110

@@ -104,7 +116,20 @@ The data fields are:
104116

105117
### Data Splits
106118

107-
[More Information Needed]
119+
There is only one "training" split for all configuration subsets, containing the following number of examples:
120+
121+
| | Number of examples |
122+
|:---------------|-------------------:|
123+
| Alittihad | 11551 |
124+
| Almasryalyoum | 3170 |
125+
| Almustaqbal | 12627 |
126+
| Alqabas | 16449 |
127+
| Echoroukonline | 34931 |
128+
| Ryiadh | 13112 |
129+
| Sabanews | 23036 |
130+
| SaudiYoum | 73922 |
131+
| Techreen | 37491 |
132+
| Youm7 | 33460 |
108133

109134
## Dataset Creation
110135

datasets/arabic_billion_words/arabic_billion_words.py

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -157,14 +157,14 @@ def _generate_examples(self, filepath):
157157
pattern = f"<{data_tag}(.*?)</{data_tag}>"
158158
data = re.finditer(r"" + pattern, current_multi_line, re.MULTILINE | re.DOTALL)
159159
text, url, head_line, date = ["", "", "", ""]
160-
for _, record in enumerate(data):
160+
for record in data:
161161
try:
162162
text = self._clean_text(self._extract_tags(record, "Text"))
163163
url = self._extract_tags(record, "URL")
164164
head_line = self._clean_text(self._extract_tags(record, "Headline"))
165165
date = self._extract_tags(record, "Dateline")
166-
except ValueError:
167-
pass
166+
except IndexError:
167+
continue
168168
yield str(_idx), {"url": url, "head_line": head_line, "date": date, "text": text}
169169
_idx += 1
170170
current_multi_line = ""

0 commit comments

Comments
 (0)