Pandas, фильтрация данных с помощью регексов
Для того, чтобы отфильтровать данные в датафрейме pandas с помощью регулярного выражения, можно воспользоваться функцией contains
с указанием параметра regex
для строковых типов данных.
Представим датафрейм df
:
value | text
------|-----------
1 | первый работник
2 | цветок
3 | робот
4 | второй работник
Выборка строк содержащих упоминания работников и роботов в столбце text
:
filter_regex = 'р[а|о]бот(ник)?'
filtered_df = df[df['text'].str.contains(filter_regex, flags=re.IGNORECASE, regex=True)]