В Python 3 для веб-скрапинга прокси обычно используют, чтобы избежать блокировки IP и повысить эффективность сбора данных. Они помогают имитировать обращения с разных IP-адресов. Прокси бывают бесплатными и платными: бесплатные часто нестабильны, а платные обычно работают заметно надежнее.
Ниже перечислены основные сценарии использования прокси в Python 3 скрапинге:
Защита от блокировки IP: многие сайты ограничивают частоту обращений с одного IP. Если лимит превышен, адрес могут временно или навсегда заблокировать. Прокси помогает распределить трафик и снизить этот риск.
Повышение скорости сбора: прокси позволяют запускать несколько соединений параллельно и быстрее собирать нужные данные.
Обход географических ограничений: если сайт открывает разные разделы для разных стран, прокси помогает получить доступ к данным именно из нужного региона.
Итог простой: прокси IP играют важную роль в Python 3 скрапинге. При этом важно выбирать надежных провайдеров и соблюдать правила безопасности и условия использования сайтов.
Подготовка
Сначала нужен рабочий прокси. Обычно это комбинация IP-адреса и порта в формате ip:порт. Если прокси требует авторизацию, понадобятся также имя пользователя и пароль.
В моем примере локально запущено прокси-приложение: оно поднимает HTTP-прокси на порту 7890, то есть прокси имеет адрес 127.0.0.1:7890. Дополнительно на порту 7891 поднимается SOCKS-прокси, то есть 127.0.0.1:7891. После настройки такого прокси локальный IP меняется на IP сервера, к которому подключено приложение.
Во всех примерах ниже я использую именно этот прокси, но вы можете подставить любой собственный рабочий вариант.
После настройки прокси для проверки удобно использовать http://httpbin.org/get. В ответе будет поле origin с IP клиента, по которому легко понять, подменился ли ваш исходный IP на IP прокси.
Теперь разберем, как настраивать прокси в популярных библиотеках для запросов и браузерной автоматизации.
Где получить прокси для Python 3 скрапинга
Многие сайты отслеживают частые обращения к своим данным и могут блокировать такой трафик. Прокси-сервер позволяет распределять запросы между разными IP и тем самым повышает вероятность успешного скрапинга.
Лучший статический прокси IP для США
IPRoyal — провайдер прокси с хорошим балансом цены и качества, а его резидентские решения особенно удобны для задач по сбору данных и автоматизации.
Обзор IPRoyal
Самый дешевый статический прокси
Proxy-Seller — популярный провайдер дата-центровых прокси, которым часто пользуются небольшие маркетинговые и автоматизационные команды.
Обзор Proxy-Seller
Лучший вариант по цене
Shifter.io — известный провайдер прокси, ориентированный на приватность, стабильность и удобную работу с автоматизацией.
Обзор Shifter.io
2. urllib
Сначала разберем самый базовый вариант, `urllib`, и посмотрим, как в нем настраивается прокси. Код выглядит так:
from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener
proxy = '127.0.0.1:7890'
proxy_handler = ProxyHandler({
'http': 'http://' + proxy,
'https': 'http://' + proxy
})
opener = build_opener(proxy_handler)
try:
response = opener.open('https://httpbin.org/get')
print(response.read().decode('utf-8'))
except URLError as e:
print(e.reason)
Результат выполнения будет таким:
{
"args": {},
"headers": {
"Accept-Encoding": "identity",
"Host": "httpbin.org",
"User-Agent": "Python-urllib/3.7",
"X-Amzn-Trace-Id": "Root=1-60e9a1b6-0a20b8a678844a0b2ab4e889"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Здесь прокси настраивается через `ProxyHandler`. В него передается словарь, где ключи обозначают протокол, а значения содержат адрес прокси. В адресе обязательно нужно указывать схему, например http:// или https://. Если целевой URL использует HTTP, будет задействован прокси из ключа `http`; если HTTPS, то из ключа `https`. В этом примере оба ключа указывают на HTTP-прокси, поэтому и HTTP, и HTTPS-запросы будут проходить через один и тот же прокси-сервер.
После создания объекта `ProxyHandler` его нужно передать в `build_opener()`, чтобы получить opener с уже настроенной прокси-маршрутизацией. Затем достаточно вызвать у этого opener метод `open()`, чтобы отправить запрос на нужный адрес.
В ответе возвращается JSON, а поле `origin` показывает IP клиента. Если там указан IP прокси, а не ваш реальный IP, значит прокси настроен правильно и помогает скрывать исходный адрес.
Если прокси требует авторизацию, настройка будет такой:
from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener
proxy = 'username:password@127.0.0.1:7890'
proxy_handler = ProxyHandler({
'http': 'http://' + proxy,
'https': 'http://' + proxy
})
opener = build_opener(proxy_handler)
try:
response = opener.open('https://httpbin.org/get')
print(response.read().decode('utf-8'))
except URLError as e:
print(e.reason)
Меняется только переменная `proxy`: перед адресом прокси нужно добавить логин и пароль для авторизации. Например, если имя пользователя `foo`, а пароль `bar`, строка прокси будет выглядеть так: foo:bar@127.0.0.1:7890.
Если используется прокси типа SOCKS5, настройка будет такой:
import socks
import socket
from urllib import request
from urllib.error import URLError
socks.set_default_proxy(socks.SOCKS5, '127.0.0.1', 7891)
socket.socket = socks.socksocket
try:
response = request.urlopen('https://httpbin.org/get')
print(response.read().decode('utf-8'))
except URLError as e:
print(e.reason)
Для этого нужен модуль `socks`, который можно установить такой командой:
pip3 install PySocks
Здесь предполагается, что локальный SOCKS5-прокси уже запущен на порту `7891`. При корректной настройке результат будет таким же, как и в примере с HTTP-прокси:
{
"args": {},
"headers": {
"Accept-Encoding": "identity",
"Host": "httpbin.org",
"User-Agent": "Python-urllib/3.7",
"X-Amzn-Trace-Id": "Root=1-60e9a1b6-0a20b8a678844a0b2ab4e889"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Поле `origin` снова показывает IP прокси, то есть настройка выполнена успешно.
3. Настройка прокси в `requests`
В библиотеке `requests` все еще проще: достаточно передать параметр proxies.
Если использовать локальный прокси как пример, HTTP-настройка будет выглядеть так:
import requests
proxy = '127.0.0.1:7890'
proxies = {
'http': 'http://' + proxy,
'https': 'http://' + proxy,
}
try:
response = requests.get('https://httpbin.org/get', proxies=proxies)
print(response.text)
except requests.exceptions.ConnectionError as e:
print('Error', e.args)
Результат будет следующим:
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.22.0",
"X-Amzn-Trace-Id": "Root=1-5e8f358d-87913f68a192fb9f87aa0323"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Как и в `urllib`, для HTTP-ссылок используется прокси из ключа `http`, а для HTTPS-ссылок — из ключа `https`. В этом примере оба случая направляются через один HTTP-прокси.
Если значение origin в ответе совпадает с IP прокси-сервера, значит настройка прокси выполнена корректно.
Если прокси требует авторизацию, достаточно добавить логин и пароль перед адресом:
proxy = 'username:password@127.0.0.1:7890'
Здесь нужно только заменить username и password на свои учетные данные.
Если нужен SOCKS-прокси, используйте такую конфигурацию:
import requests
proxy = '127.0.0.1:7891'
proxies = {
'http': 'socks5://' + proxy,
'https': 'socks5://' + proxy
}
try:
response = requests.get('https://httpbin.org/get', proxies=proxies)
print(response.text)
except requests.exceptions.ConnectionError as e:
print('Error', e.args)
Для этого потребуется дополнительно установить пакет requests[socks]:
pip3 install "requests[socks]"
Результат будет таким же:
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.22.0",
"X-Amzn-Trace-Id": "Root=1-5e8f364a-589d3cf2500fafd47b5560f2"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Есть и другой способ: напрямую использовать модуль `socks`. Для него также должна быть установлена библиотека `socks`, как и выше. Код выглядит так:
import requests
import socks
import socket
socks.set_default_proxy(socks.SOCKS5, '127.0.0.1', 7891)
socket.socket = socks.socksocket
try:
response = requests.get('https://httpbin.org/get')
print(response.text)
except requests.exceptions.ConnectionError as e:
print('Error', e.args)
Этот способ тоже позволяет настроить SOCKS-прокси и дает тот же результат. Разница в том, что здесь настройка действует глобально на уровне сокетов, поэтому выбирать подход нужно в зависимости от сценария.
4. Настройка прокси в `httpx`
`httpx` по своему синтаксису очень похож на `requests`, поэтому прокси там тоже настраиваются через параметр `proxies`. Главное отличие в том, что ключами должны быть не просто http и https, а строки http:// и https://. Все остальное работает похоже.
Для HTTP-прокси настройка выглядит так:
import httpx
proxy = '127.0.0.1:7890'
proxies = {
'http://': 'http://' + proxy,
'https://': 'http://' + proxy,
}
with httpx.Client(proxies=proxies) as client:
response = client.get('https://httpbin.org/get')
print(response.text)
Если прокси требует авторизацию, достаточно изменить значение `proxy`:
proxy = 'username:password@127.0.0.1:7890'
Нужно лишь заменить username и password на реальные данные.
Результат будет похож на пример с `requests`:
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-httpx/0.18.1",
"X-Amzn-Trace-Id": "Root=1-60e9a3ef-5527ff6320484f8e46d39834"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Для SOCKS-прокси потребуется библиотека `httpx-socks`, которую можно установить так:
pip3 install "httpx-socks[asyncio]"
Она добавит поддержку как синхронного, так и асинхронного режима.
Для синхронного режима настройка такая:
import httpx
from httpx_socks import SyncProxyTransport
transport = SyncProxyTransport.from_url(
'socks5://127.0.0.1:7891')
with httpx.Client(transport=transport) as client:
response = client.get('https://httpbin.org/get')
print(response.text)
Здесь создается объект `transport`, в котором указывается адрес SOCKS-прокси. Затем этот `transport` передается в `httpx.Client()`. Результат будет таким же, как и раньше.
Для асинхронного режима используйте такой вариант:
import httpx
import asyncio
from httpx_socks import AsyncProxyTransport
transport = AsyncProxyTransport.from_url(
'socks5://127.0.0.1:7891')
async def main():
async with httpx.AsyncClient(transport=transport) as client:
response = await client.get('https://httpbin.org/get')
print(response.text)
if __name__ == '__main__':
asyncio.get_event_loop().run_until_complete(main())
От синхронного варианта он отличается тем, что вместо `SyncProxyTransport` используется `AsyncProxyTransport`, а вместо `Client` — `AsyncClient`. Все остальное остается без изменений.
5. Настройка прокси в `Selenium`
`Selenium` тоже поддерживает работу через прокси. Ниже примеры показаны на базе Chrome.
Для прокси без авторизации настройка выглядит так:
from selenium import webdriver
proxy = '127.0.0.1:7890'
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)
browser.get('https://httpbin.org/get')
print(browser.page_source)
browser.close()
Результат будет таким:
{
"args": {},
"headers": {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate",
"Accept-Language": "zh-CN,zh;q=0.9",
"Host": "httpbin.org",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36",
"X-Amzn-Trace-Id": "Root=1-5e8f39cd-60930018205fd154a9af39cc"
},
"origin": "210.173.1.204",
"url": "http://httpbin.org/get"
}
Прокси настроен успешно: поле origin также показывает IP-адрес прокси.
Если прокси требует авторизацию, настройка становится немного сложнее. Пример:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import zipfile
ip = '127.0.0.1'
port = 7890
username = 'foo'
password = 'bar'
manifest_json = """{"version":"1.0.0","manifest_version": 2,"name":"Chrome Proxy","permissions": ["proxy","tabs","unlimitedStorage","storage","<all_urls>","webRequest","webRequestBlocking"],"background": {"scripts": ["background.js"]
}
}
"""
background_js = """
var config = {
mode: "fixed_servers",
rules: {
singleProxy: {
scheme: "http",
host: "%(ip) s",
port: %(port) s
}
}
}
chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});
function callbackFn(details) {
return {
authCredentials: {username: "%(username) s",
password: "%(password) s"
}
}
}
chrome.webRequest.onAuthRequired.addListener(
callbackFn,
{urls: ["<all_urls>"]},
['blocking']
)
""" % {'ip': ip, 'port': port, 'username': username, 'password': password}
plugin_file = 'proxy_auth_plugin.zip'
with zipfile.ZipFile(plugin_file, 'w') as zp:
zp.writestr("manifest.json", manifest_json)
zp.writestr("background.js", background_js)
options = Options()
options.add_argument("--start-maximized")
options.add_extension(plugin_file)
browser = webdriver.Chrome(options=options)
browser.get('https://httpbin.org/get')
print(browser.page_source)
browser.close()
Здесь нужно локально создать файл manifest.json и скрипт background.js, чтобы настроить прокси с авторизацией. После запуска будет создан архив proxy_auth_plugin.zip с текущей конфигурацией.
Результат будет таким же, как и в предыдущем примере: поле origin покажет IP-адрес прокси.
Настройка SOCKS-прокси тоже проста: достаточно заменить протокол на socks5. Для прокси без пароля пример будет таким:
from selenium import webdriver
proxy = '127.0.0.1:7891'
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=socks5://' + proxy)
browser = webdriver.Chrome(options=options)
browser.get('https://httpbin.org/get')
print(browser.page_source)
browser.close()
Результат будет тем же.
6. Настройка прокси в aiohttp
В aiohttp прокси можно настроить напрямую через параметр proxy. Для HTTP-прокси пример выглядит так:
import asyncio
import aiohttp
proxy = 'http://127.0.0.1:7890'
async def main():
async with aiohttp.ClientSession() as session:
async with session.get('https://httpbin.org/get', proxy=proxy) as response:
print(await response.text())
if __name__ == '__main__':
asyncio.get_event_loop().run_until_complete(main())
Если прокси требует имя пользователя и пароль, как и в requests, достаточно изменить значение proxy следующим образом:
proxy = 'http://username:password@127.0.0.1:7890'
Здесь нужно просто подставить свои username и password.
Для SOCKS-прокси потребуется библиотека aiohttp-socks, которую можно установить такой командой:
pip3 install aiohttp-socks
Затем для настройки SOCKS-прокси можно использовать ProxyConnector из этой библиотеки:
import asyncio
import aiohttp
from aiohttp_socks import ProxyConnector
connector = ProxyConnector.from_url('socks5://127.0.0.1:7891')
async def main():
async with aiohttp.ClientSession(connector=connector) as session:
async with session.get('https://httpbin.org/get') as response:
print(await response.text())
if __name__ == '__main__':
asyncio.get_event_loop().run_until_complete(main())
Результат будет тем же.
Эта библиотека также поддерживает SOCKS4, HTTP-прокси и авторизацию для разных типов прокси. За подробностями можно обратиться к официальной документации.
7. Настройка прокси в Pyppeteer
Pyppeteer использует Chromium, похожий на Chrome, поэтому настройка здесь очень близка к Selenium. Для HTTP-прокси без авторизации обычно используется параметр args:
import asyncio
from pyppeteer import launch
proxy = '127.0.0.1:7890'
async def main():
browser = await launch({'args': ['--proxy-server=http://' + proxy], 'headless': False})
page = await browser.newPage()
await page.goto('https://httpbin.org/get')
print(await page.content())
await browser.close()
if __name__ == '__main__':
asyncio.get_event_loop().run_until_complete(main())
Результат будет таким:
{
"args": {},
"headers": {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Host": "httpbin.org",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3494.0 Safari/537.36",
"X-Amzn-Trace-Id": "Root=1-5e8f442c-12b1ed7865b049007267a66c"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Как видно, прокси настроен успешно.
Для SOCKS-прокси все аналогично: достаточно заменить протокол на socks5. Код будет таким:
import asyncio
from pyppeteer import launch
proxy = '127.0.0.1:7891'
async def main():
browser = await launch({'args': ['--proxy-server=socks5://' + proxy], 'headless': False})
page = await browser.newPage()
await page.goto('https://httpbin.org/get')
print(await page.content())
await browser.close()
if __name__ == '__main__':
asyncio.get_event_loop().run_until_complete(main())
Результат также будет тем же.
8. Настройка прокси в Playwright
По сравнению с Selenium и Pyppeteer, в Playwright работа с прокси еще удобнее: у него есть встроенный параметр proxy, который задается при запуске браузера.
Для HTTP-прокси настройка выглядит так:
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(proxy={
'server': 'http://127.0.0.1:7890'
})
page = browser.new_page()
page.goto('https://httpbin.org/get')
print(page.content())
browser.close()
При вызове метода launch можно передать параметр proxy в виде словаря. Обязательное поле — server, куда подставляется адрес HTTP-прокси.
Результат будет таким:
{
"args": {},
"headers": {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Host": "httpbin.org",
"Sec-Ch-Ua": "\" Not A;Brand\";v=\"99\", \"Chromium\";v=\"92\"",
"Sec-Ch-Ua-Mobile": "?0",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4498.0 Safari/537.36",
"X-Amzn-Trace-Id": "Root=1-60e99eef-4fa746a01a38abd469ecb467"
},
"origin": "210.173.1.204",
"url": "https://httpbin.org/get"
}
Для SOCKS-прокси все делается точно так же: достаточно заменить значение поля server на адрес SOCKS-прокси.
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(proxy={
'server': 'socks5://127.0.0.1:7891'
})
page = browser.new_page()
page.goto('https://httpbin.org/get')
print(page.content())
browser.close()
Результат будет таким же, как и выше.
Если прокси требует имя пользователя и пароль, в объекте proxy можно дополнительно указать поля username и password. Например:
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(proxy={
'server': 'http://127.0.0.1:7890',
'username': 'foo',
'password': 'bar'
})
page = browser.new_page()
page.goto('https://httpbin.org/get')
print(page.content())
browser.close()
Так Playwright позволяет очень удобно настроить прокси с авторизацией.
9. Итоги
Мы разобрали, как использовать прокси в разных библиотеках для запросов и браузерной автоматизации. Подходы в целом похожи, и после освоения этих приемов проблему блокировки IP можно решать значительно быстрее.
Прокси в разных геолокациях помогают имитировать доступ из нужных регионов и получать локальные данные. Кроме того, они скрывают реальный IP скрапера, помогают обходить ограничения по частоте запросов и повышают общую успешность сбора данных.