Bongkar Cara Kerja Search Engine Google Beserta Contohnya

convert -resize 630x360

Google bisa dibilang merupakan contoh "Mesin Pencari" yang paling terkenal.

Sekarang mungkin akan menjelaskan bagaimana "Mesin Pencari" ini bekerja, tapi ada lebih banyak hal yang terjadi di balik layar dari pada apa yang kita lihat. Lebih penting lagi, kita bisa memanfaatkannya untuk keuntungan kita untuk menemukan segala macam hal yang tidak akan ditemukan.

Meneliti secara keseluruhan - terutama dalam pandangan Cyber Security, merangkum hampir semua hal yang Anda lakukan sebagai seorang pentester. hanya dengan menggunakan search engine kita bisa mempelajari sikap-sikap dalam melakukan riset, dan informasi apa yang bisa Anda dapatkan dari riset tersebut.

"Mesin Pencari" seperti Google adalah pengindeks yang sangat besar - khususnya, pengindeks konten yang tersebar di seluruh World Wide Web.

Hal-hal penting dalam berselancar di internet ini menggunakan "Crawler" atau "Spider" untuk mencari konten ini di seluruh World Wide Web.

Apa itu Crawler dan Bagaimana Cara Kerjanya?

Crawler ini menemukan konten melalui berbagai cara. Salah satunya adalah dengan mengunjungi URL langsung suatu website, di mana sebuah URL dikunjungi oleh crawler dan informasi mengenai jenis konten situs web dikembalikan ke mesin pencari. 

Faktanya, ada banyak informasi yang digali oleh perayap modern - tetapi kita akan membahas bagaimana ini digunakan nanti. Metode lain yang digunakan perayap untuk menemukan konten adalah dengan mengikuti setiap dan semua URL yang ditemukan dari situs web yang telah dirayapi sebelumnya. Sama seperti virus dalam arti bahwa ia ingin melintasi/menyebar ke semua tempat yang ia bisa.

Mari Kita Visualisasikan Beberapa Hal...

Diagram di bawah ini adalah abstraksi tingkat tinggi tentang cara kerja crawler web. Setelah web crawler menemukan domain seperti bikinbalik.com, web crawler akan mengindeks seluruh konten domain, mencari kata kunci dan informasi lain.


cara kerja crawler

Pada diagram di atas, "bikinbalik.com" telah di-crawl karena memiliki kata kunci "Apple", "Banana", dan "Pear". Kata kunci ini disimpan dalam kamus oleh crawler, yang kemudian mengembalikannya ke mesin pencari, yaitu Google. 

Karena ketekunan ini, Google sekarang tahu bahwa domain "bikinbalik.com" memiliki kata kunci "Apple", "Banana", dan "Pear". 

Karena hanya satu situs web yang dirayapi, jika pengguna mencari "Apple"... "bikinbalik.com" akan muncul. 

Hal ini akan menghasilkan perilaku yang sama jika pengguna mencari "Pisang". 

Karena konten yang diindeks dari perayap melaporkan domain tersebut memiliki "Banana", maka domain tersebut akan ditampilkan kepada pengguna.


Seperti yang diilustrasikan di bawah ini, seorang pengguna mengirimkan query ke mesin pencari "Pear". Karena mesin pencari hanya memiliki konten dari satu situs web yang telah dirayapi dengan kata kunci "Pear", maka domain tersebut akan menjadi satu-satunya domain yang ditampilkan kepada pengguna. 

Ilustrasi Pengguna Query ke Search Engine

Namun, seperti yang telah kami sebutkan sebelumnya, perayap berusaha menjelajahi, yang disebut sebagai crawler, setiap URL dan file yang dapat mereka temukan! Katakanlah jika "bikinbalik.com" memiliki kata kunci yang sama seperti sebelumnya ("Apple", "Banana", dan "Pear"), tetapi juga memiliki URL ke situs web lain "paslen.com", maka crawler akan mencoba menjelajahi semua yang ada di URL tersebut (paslen.com) dan mengambil konten dari setiap file di dalam domain tersebut.


Hal ini diilustrasikan dalam diagram di bawah ini. Crawler pada awalnya menemukan "bikinbalik.com", tempat perayap merayapi konten situs web - menemukan kata kunci yang sama ("Apple", "Banana", dan "Pear") seperti sebelumnya, tetapi juga menemukan URL eksternal. Setelah perayap selesai pada "bikinbalik.com", perayap akan melanjutkan untuk merayapi konten situs web "paslen.com", di mana kata kunci ("Tomatoes", "Strawberries", dan "Pineneapples") ditemukan di dalamnya. Kamus perayap sekarang berisi konten "bikinbalik.com" dan "paslen.com", yang kemudian disimpan dan disimpan di dalam mesin pencari.

Crawler bikinbalik dan paslen

Rangkuman

Jadi sebagai rangkuman, mesin pencari sekarang memiliki pengetahuan tentang dua domain yang telah dirayapi:

1. bikinbalik.com

2. paslen.com

Meskipun perlu diperhatikan bahwa "paslen.com" hanya dirayapi karena direferensikan oleh domain pertama "bikinbalik.com". Karena referensi ini, mesin pencari mengetahui hal-hal berikut tentang kedua domain tersebut:

Kamus Keyword Search Engine

Atau seperti yang diilustrasikan di bawah ini:

ilustrasi kamus keyword search engine

Sekarang mesin pencari memiliki pengetahuan tentang keywords, misalnya jika pengguna mencari "Pear", maka domain "bikinbalik.com" akan ditampilkan - karena ini adalah satu-satunya domain yang dicrawler yang mengandung "Pear":

Pengguna mencari keyword pear di search engine.png

Demikian juga, katakanlah dalam kasus ini pengguna sekarang mencari "Stroberi". Domain "paslen.com" akan ditampilkan, karena ini adalah satu-satunya domain yang telah dirayapi oleh mesin pencari yang mengandung kata kunci "Strawberries":

Pengguna mencari keyword Strawberries di search engine.png

Ini bagus... Tapi bayangkan jika sebuah situs web memiliki banyak URL eksternal (seperti yang sering terjadi!) Itu akan membutuhkan banyak perayapan yang harus dilakukan. Selalu ada kemungkinan bahwa situs web lain mungkin memiliki informasi yang sama dengan yang dirayapi oleh situs web lain - bukan? Jadi, bagaimana "Mesin Pencari" memutuskan hirarki domain yang ditampilkan kepada pengguna?

Dalam diagram di bawah ini, jika pengguna mencari kata kunci seperti "Tomatoes" (yang berisi situs web 1-3), siapa yang memutuskan situs web mana yang akan ditampilkan dalam urutan yang mana?

3 website 2 keyword sama dan 1 keyword beda

Asumsi logisnya adalah situs web 1 -> 3 yang akan ditampilkan... Tapi bukan seperti itu cara kerja dan/atau penamaan domain di dunia nyata.

Jadi, siapa (atau apa) yang menentukan hierarki? Nah...

Jawab Pertanyaan dibawah Ini, Tujuan Untuk Mengukur Seberapa Paham Mengenai Cara Kerja Search Engine?

1. Sebutkan istilah kunci dari apa yang digunakan oleh "Crawler" ?

2. Apa nama teknik yang digunakan "Search Engine" untuk mengambil informasi tentang situs web?

3. Apa contoh jenis konten yang dapat dikumpulkan dari sebuah situs web?

Catatan: Untuk Jawaban Bisa Masukan di Kolom Komentar

Pengoptimalan Mesin Pencari

Pengoptimalan Mesin Pencari atau SEO adalah topik yang lazim dan menguntungkan di mesin pencari modern. Bahkan, sangat banyak, sehingga seluruh bisnis memanfaatkan untuk meningkatkan "peringkat" SEO domain. Secara abstrak, mesin pencari akan "memprioritaskan" domain yang lebih mudah diindeks. Ada banyak faktor yang menentukan seberapa "optimal" sebuah domain - menghasilkan sesuatu yang mirip dengan sistem penilaian poin.

Untuk menyoroti beberapa pengaruh pada bagaimana poin-poin ini dinilai, faktor-faktor seperti:

  • Seberapa responsif situs web Anda terhadap berbagai jenis peramban, yaitu Google Chrome, Firefox, dan Internet Explorer - ini termasuk ponsel!
  • Betapa mudahnya merayapi situs web Anda (atau jika perayapan bahkan diperbolehkan) melalui penggunaan "Sitemaps"
  • Jenis kata kunci apa yang dimiliki situs web Anda (misalnya, dalam contoh kami, jika pengguna mencari query seperti "Colours", tidak ada domain yang akan dikembalikan

- karena mesin pencari tidak (belum) merayapi domain yang memiliki kata kunci apa pun yang berkaitan dengan "Colours"

Ada banyak kerumitan dalam cara berbagai mesin pencari secara individual "memberi nilai" atau memberi peringkat pada domain-domain ini - termasuk algoritme yang sangat luas. Tentu saja, perusahaan yang menjalankan mesin pencari ini seperti Google tidak membagikan secara pasti bagaimana pandangan hirarkis domain pada akhirnya. Meskipun, pada akhirnya ini adalah bisnis, Anda bisa membayar untuk mengiklankan/mendongkrak urutan domain Anda.

Ada berbagai alat online - terkadang disediakan oleh penyedia mesin pencari itu sendiri yang akan menunjukkan kepada Anda seberapa optimal domain Anda. Sebagai contoh, mari kita gunakan PageSpeed Insight untuk memeriksa peringkat BikinBalik:

PageSpeed Insight SEO 100 Per 100

PageSpeed Insight SEO 100 Per 100

Menurut PageSpeed Insight, bikinbalik memiliki peringkat SEO 100/100 (per 19/10/2023). Itu saangat baik sekali dan akan menunjukkan pembenaran tentang bagaimana skor ini dihitung di bawah ini pada halaman.

Tapi... Siapa atau Apa yang Mengatur "Crawler" ini?

Selain mesin pencari yang menyediakan "Crawler" ini, pemilik situs web/server web pada akhirnya menentukan konten apa saja yang bisa di-crawl oleh "Crawler". Mesin pencari ingin mengambil semua yang ada di dalam situs web - tetapi ada beberapa kasus di mana kita tidak ingin semua konten situs web kita diindeks! Dapatkah Anda memikirkannya...? Bagaimana dengan halaman login administrator rahasia? Kita tidak ingin semua orang dapat menemukan direktori tersebut - terutama melalui pencarian di Google.

Memperkenalkan Robots.txt...

Next Post Previous Post
No Comment
Add Comment
comment url