# Cập nhật robots.txt để cho phép SquareHub Assistant thu thập dữ liệu từ trang web của bạn

> Khoa Tuyên · Cập nhật lần cuối ngày 8 thg 12, 2025

SquareHub sử dụng **Firecrawl** nội bộ để tải và lập chỉ mục nội dung trang web của bạn. Điều này cho phép SquareHub Assistant trả lời các câu hỏi bằng cách sử dụng thông tin từ trang web của bạn.

However, if your website’s robots.txt has **Disallow** rules, Firecrawl will respect them and skip crawling those pages.

Khi điều đó xảy ra:

-   Không có tài liệu nào từ trang web của bạn sẽ được thêm vào SquareHub
    
-   Trợ lý sẽ không nhận được bất kỳ ngữ cảnh bổ sung nào
    
-   Câu trả lời có thể trở nên không đầy đủ hoặc chung chung
    

Để đảm bảo Trợ lý hoạt động đúng cách, bạn cần cho phép Firecrawl thu thập dữ liệu từ trang web của bạn.

## **Bước 1: Kiểm tra robots.txt của bạn**

Truy cập:

```
https://yourdomain.com/robots.txt
```

Tìm kiếm bất kỳ mục Disallow: nào có thể chặn các user agent.

## **Bước 2: Thêm Quy tắc Allow cho Firecrawl**

Yêu cầu quản trị viên hoặc nhà phát triển trang web của bạn thêm các dòng sau vào file robots.txt:

```
User-agent: FirecrawlAgent
Allow: /
```

Điều này thông báo cho Firecrawl rằng nó được phép thu thập dữ liệu toàn bộ trang web của bạn, ngay cả khi các bot khác bị hạn chế.

## **Bước 3: Lưu và Xuất bản**

Sau khi cập nhật robots.txt, đảm bảo file được triển khai và có thể truy cập công khai.

Bạn có thể xác minh bằng cách truy cập:

```
https://yourdomain.com/robots.txt
```

và kiểm tra rằng các quy tắc mới xuất hiện.
