Swego czasu napisałem artykuł o tym, jak znaleźć publiczne proxy korzystając z operatora filetype w Google. W tym artykule napiszę jak znaleźć serwery proxy SOCKS. Dzięki czemu pozyskamy znacznie więcej dobrych proxy, które będziemy mogli wykorzystać do zacnych celów np. do harvestowania, czy też sprawdzania PageRank.
1. Podczas harvestowania proxy trzeba zaznaczyć pole: Custom Footprint, a w boxie „Keywords” wkleić poniższe footprinty.
":80" ":81" ":443" ":1080" ":1081" ":1174" ":3124" ":3127" ":3128" ":8000" ":8080" ":8088"
2. Natomiast w polu tekstowym harvester wpisujemy jeden z poniższych footprintów, lub wszystkie korzystając z operatora OR:
– intitle:”SOCKS”
– intitle:”SOCKS4″
– intitle:”SOCKS5″
3. Ustawiamy harvestowanie z Google dla ostaniach 24 godzin!
4. Gdy już będziemy dysponowali listą źródeł proxy, to importujemy adresy do programu ScrapeBox, a dokładniej do modułu proxy.
Oczywiście na samym końcu trzeba przefiltrować nasze źródła proxy (usunąć te, z których zharvestowano 0 proxy). Ta metoda jest dla leniwych. Już tłumaczę dlaczego… Otóż nawet jak z danego źródła proxy uda nam się zharvestować określoną ich ilość np. 50, to nie mamy gwarancji, że ów proxy będą działać :) Dlatego ja stosuję inną metodę filtrowania źródeł. Niestety metoda jest czasochłonna, ale moim zdaniem gra jest warta świeczki. Po prostu każde źródło testuje osobno. Jak np. uda mi się wyciągnąć jakieś proxy z danego źródła, a nie będzie działało przynajmniej jedno proxy, to źródełko trafia na czarną listę. Dzięki temu, jak harvestuję nowe źródła do sprawdzenia to mogę szybko usunąć z niej adresy, które znajdują się w pliku z czarną listą. Nie ma sensu wykonywać tej samej roboty drugi raz :)
To jest druga porada związana z pozyskiwaniem proxy, i oczywiście nie ostatnia, bo mam jeszcze parę w zanadrzu. Niemniej jednak poradę, którą przedstawiłem w tym artykule, jak i w poprzednim można śmiało rozbudować. To już pozostawiam dla dociekliwych :)
7 komentarzy
A mógłbyś napisać czym się te proxy różnią i dlaczego są lepsze/takie same/inne id zwykłych publicznych? Wiem że niektórym wystarczy że po prostu harvestuje się takie i takie, ale ja lubię wiedzieć dlaczego :)
garść przydatnych informacji, dzięki
Dzięki za poradę :)
@Marko
Trochę niezrozumiale się wyraziłem. Pisząc: dobre proxy, miałem na myśli działające, które można wykorzystać do różnych celów.
Dobre proxy – działające
złe proxy – nie działające
:)
Świetny pomysł, że też sam na to nie wpadłem :) Kolejny sposób na darmowe proxy. Dzięki za info.
Może tutaj ktoś mi pomoże w moim problemie w SB.
Problem w SB jest taki że przy „harvestowaniu” proxy po przejściu do proxy manager i wejściu do Harvest Proxies nie można usunąć adresów url. Taka sytuacja jest również po przeszukaniu adresów i próbie usunięciu pustych rekordów. Adresy nie są szare, nie wiem dlaczego nie mogę usunąć.
Z technicznymi sprawami, to musisz pisać do Supportu. U mnie wszystko działa.
Spróbuj zainstalować świeżą instancje SB i na niej sprawdzić.