Programmeerimine rakenduses Visual Basic .Net Kuidas ühendada juurdepääsu andmebaas VB.NET-iga

Lõime kogemata mitu linki samale lehele, mille tulemusel Google indekseeris umbes 5000 lehte üle 100 000 lehe.

Oleme selle hiljem parandanud, tagastades 404 URL-i, kuid Google testib endiselt neid URL-e - mitusada päevas - ja tagastab need Webmaster Toolsis kui 404 viga. Eeldan, et kui me ootaksime, lahendaks Google selle lõpuks, kuid kuna see pole meie Google'i paremusjärjestuse jaoks hea - meil on tegelikult iga lehe jaoks 10 URL-i, siis tahaksin selle eemaldamist kiirendada.

Eemaldame need URL-id käsitsi Google Webmaster Toolsiga, kuid see on väga aeganõudev. Kahjuks pole URL-e lihtne kirjeldada ühe kataloogiga, nagu siin kirjeldatud

Kas kellelgi on soovitusi URL-i pakkide eemaldamise tööriistade kohta?

Nagu ma näen, on teil põhimõtteliselt kaks probleemi:

  1. Google tagastab otsingutulemites ekslikult loodud URL-ide duplikaate, segades kasutajaid ja

  2. Googlebot jätkab URL-ide duplikaatide uuesti indekseerimist, pidurdades teie tegelike lehtede indekseerimist.

Esimene probleem on tõsisem, kuna kaotate tegelikult külastajaid. Parim viis selle lahendamiseks oleks HTTP 301 püsivate ümbersuunamiste tagastamine juhuslikult loodud URL-idelt õigetele, nii et teie külastajad saadetakse otsitud lehele. See toob lõpuks kaasa ka selle, et otsingumootorid viskavad ümbersuunatud URL-id oma indeksist välja.

(Siin on oluline kasutada 301 ümbersuunamise asemel 301, sest otsingumootorid tõlgendavad 301 ümbersuunamist kui käsku allika asemel siht-URL indekseerida.)

Teise probleemi korral soovitaksin luua (ja regulaarselt värskendada) oma tegelike lehtede XML-i saidikaardi. See ei takista Googlebotit kogemata loodud URL-ide indekseerimisel (ja te ei soovi seda, kuna robot peab leidma 301 ümbersuunamist), kuid see hoiab robotit kursis teie tegelike lehtede värskendustega, nii et see saab neid kiiremini uuesti joonistada.

Niikaua kui teie serverid suudavad koormusega sammu pidada, võiksite ka Webmaster Toolsis oma saidi maksimaalset roomamissagedust ajutiselt suurendada.

Saate Webmaster Toolsist eemaldada üksikud lingid, kuid paljude linkide jaoks korraga seda teha ei saa.

Kui teate kogemata loodud lehtede aadressi, võite need lisada faili robots.txt, et Google neid ei indekseeriks.

Kasutage olekukoodi 410, nagu on kirjeldatud siin: http://support.google.com/webmasters/bin/answer.py?hl=et&answer=1663419

Kui lehte enam pole, veenduge, et server tagastaks 404 (pole leitud) või 410 (kadunud) HTTP olekukoodi. Mitte-HTML-fail (näiteks PDF-failid) tuleks teie serverist täielikult eemaldada.

  • Täname soovituse eest - me oleme seda teinud (kasutades 404-sid, kuid saame selle hõlpsalt 410-ks muuta). Probleem on aga selles, et hoolimata 404-st või 410-st võtab Google nende lehtede eemaldamine kaua aega. Tundub, et Google teeb päevas paarsada lehte - arvestades, et meil on 100 000, on see mitu aastat. Soovime seda kiirendada ja taotleda eemaldamist, seega ka minu taotlus partii eemaldamise tööriista järele.
  • 1 Veebimeistri tööriistade API-s pole midagi, mis minu kontrollitud lehti eemaldaks, see oleks olnud teie parim valik. Järgmine parim asi, mida teha, on luua sisselogimiseks PHP CURL-skript ja need eemaldada, kui see on tasuv.

Tegin teistmoodi, mis sobib mis tahes brauseri jaoks, ja seda on LIVE-st väga lihtne eemaldada kuni 1 sekundis. Las ma selgitan, kuidas mul läks.

Kõigepealt peate koguma oma indekseeritud URL-i, mille soovite eemaldada, selle asemel, et aru saada, mis on indekseeritud, ja saata mõned taotlused indekseerimata lehtede puudumise kohta.

Selle teabe kogumiseks võite teha mõne skripti, lihtsalt avada Google'ile sokk koos mõne sertifikaadi ja SSL-iga ning saata GET oma seansile ... või helistada ilvesele - ebaturvaline https: //www.google.com ... unusta lisada “filter=0” !!! Nüüd saate Google'ilt koguda kuni 100 tulemust (kui panete üle 100, saate lihtsalt 100). Otsingustring peab olema umbes selline: "sait: teie domeen.xxx + SOME_STRING", kus SOME_STRING sõltub sellest, mida soovite eemaldada. Seejärel korrake seda, et Google'ilt võimalikult palju URL-i fecheerida, tavaliselt üle 1000 (mul on tavaliselt igal pääsul umbes 10 000 URL-i). Muidugi peate sisestama viivituse, või Google väidab, et olete robot, kasutage vähemalt 45 sekundilist viivitust. Või võib-olla teil on piisavalt avalikku IP-d ja saate iga otsingu jaoks teha faili „ifconfig $ new_ip”. Ma kulutan umbes 24 tundi (1 otsing sekundis, 255 avalik IP), et koguda oma saidi jaoks palju Google'i registrist URL-e.

Nüüd dubleerimiste vältimiseks ja eemaldatava URL-i kehtiva loendi saamiseks filtreerige tulemused, tellige see ja tehke ainulaadne teave. Nüüd huvitav osa ... Ma kasutan Xlibi: eelistatud brauseri avamiseks (Firefox, Chromium, Seamonkey), minge nupule Sumit, oodake 2 sekundit ja sulgege aken.

Kolme enam-vähem kiire arvutiga saate eemaldada umbes 1 URL sekundis, see tähendab 15 sekundi pärast, saate häiriva teate "olete jõudnud piirini". Kiirema arvutiga saate selle lehe salvestada ja otsida "jõudnud" ja seejärel pane oma skript tund aega magama.

Tõmbamisosa ja eemaldamise osa vahel saate mängida pidevas tsüklis (hoolitsege selle eest, et teie tarkvara teeb head tööd !!).

Nüüd saate kogutud URL-i ette valmistada ka saidimap.xml või mõne page.html loomiseks, et see Google'ile mingil moel saata, kui olete need lehed juba oma saidilt eemaldanud või tagastanud 401, saate kiiremini minna lihtsalt otsingu ja vahemälu eemaldamisega , aga ka indeksi eemaldamisega.

Ma tegin kõik need ülesanded, kui mingi vea tõttu pean umbes 240000 lehte võimalikult kiiresti eemaldama.

Siin on minu töötav skript (Perl) eemaldamiseks:

#!/usr/bin/perl use X11::GUITest qw/ StartApp WaitWndowViewable SendKeys /; $pre_string=”https://www.google.com/webmasters/tools/removals-request?hl=en&authuser=0&siteUrl=http://YOURSITEHERE/&url=”; open (IN, “list_url.txt”); while (!eof(IN)) { $a = substr(,0,-1); $a =~ s/=/\%3D/g; $a =~ s/ /\%20/g; $a =~ s/&/\%26/; $a = $pre_string.$a; if ($a !~ /’/) { print “$counter $a\n”; &send; if ($counter > 999) { exit; } $counter++; } } close IN; exit; sub send() { StartApp(“/YOURBROWSERPATH/seamonkey -new-window ‘$a'”); sleep 2; my ($GEditWinId) = WaitWindowViewable(‘Search Console – Remove URLs – http://YOURSITE.com/ – Seamonkey’); # modify if you use other browser if (!$GEditWinId) { die (“Couldn’t find the window in time !!!”); } # send several tabs for ($g=0;$g<22;$g++) t');  sleep 0.2; Sendkeys(' '); # Send SPACE over the Submit button sleep 2; #Close the application with Control-W SendKeys('^(W)'); } 

Nüüd on mul võimalik tuua Google'ist reaalajas register, jagada see kiiresse arvutisse ja teha täielikud eemaldamistaotlused vähem kui 15 minutiga, kuna päevas lubatud maksimaalne arv on alla 1000 taotluse (Google'i piiratud)

Kõik see toimib automaatselt, pideva protsesside toomise ja eemaldamise teel, esitamiseks indeksi eemaldamise loomisega ja isegi kiiremini arvutiga, vaadates vastust, näiteks "limiit on täis. Proovige hiljem" või kogudes juba taotletud eemaldamise URL-i

Meil oli just see probleem.

See oli tõesti kole, 60 000 lehekülge rämpsposti, mis loodi meie rämpsfiltris oleva augu tõttu. Kustutasime kõik lehed käsitsi, põhjustades Google'is 404 tõrke.

Kuud hiljem olid koledad lehed endiselt Google SERP-ides.

Otsisime Google Webmasterist hulgi eemaldamise tööriistu, ei vedanud, selge, et ükshaaval eemaldamine ei sobinud Google'i tööriista abil.

Otsustasime, et parim viis on lisada kõik 404 lehte oma lehele robots.txt fail keelamisloendisse (lugege seda üles, kui te pole kindel, mis see on).

Trikk on see, et teha seda mõne minuti jooksul, tegime järgmist:

  1. Minge Google'i veebimeistri tööriistadesse, roomake vead ja laadige see alla aadressile .csv vigu.

  2. Avatud .csv, tõstke veerg URL-idega esile

  3. Kleepige URL-id lihttekstiredaktorisse (eemaldab raamid). Saate täielike URL-ide loendi.

  4. Nüüd peate muutma http://www.yoursite.co.uk/page-you-want-to-delte sisse Disallow: /page-you-want-to-delete.

  5. Nii kleepige loend Ms Wordi või samalaadsesse tekstitöötlusprogrammi

  6. Minge jaotisse „muuda“ http://www.yoursite.co.uk asendada nimega Disallow: .

  7. Näpistage, kuni olete õigesti aru saanud, kleepige tulemused väljamõeldud tekstivormingu eemaldamiseks põhitekstiredaktorisse.

  8. Pange tähele, et teil on URL-id vormingus valmis kopeerimiseks ja otse oma robots.txt.

  • 1 Lihtsalt uudishimulik: miks kasutada sõna WORD leidmiseks ja asendamiseks? Iga tekstiredaktor saab seda teha.

none: Charles Robertson | none

none