サイト内にある全ての記事を抽出し、決まったテキストが文章中にある記事を洗い出したいです。
①サイトのURL(〇〇.com)を入力するとサイトマップを抽出
ここでいうサイトマップはサイト内にあるコンテンツを全て抽出します。
②全ての記事から「ABC」と文章中に記載がある記事を全て抽出
③その状態のテキストをデータベースに保存しておく(再度サイトのURLで確認しない限りデータベースに残り続ける)
④データベースに保存してあるサイトURLの記事は毎月1回自動で全記事のテキストを再確認する
こちらはバブルで可能でしょうか?
こんにちは。
私も初心者ですが、わかる範囲でお答えさせていただきます。
書いてらっしゃる操作をbubbleで完結させるのは難しいと思います。
bubbleはあくまで、「DBへのデータ入力の受け皿と、そのデータを出力をする機能を持つソフト」の認識で、そのソースとなるデータを外部から引っ張ってくるには、別の操作が必要だと思います。
私も似たようなことをやっていますが、ネット上のデータ収集はPythonでコードをを書いて(いわゆるWebスクレイピングという手法)、そのデータを別のツール経由でbubbleに反映しております。
Pythonの専門的な知識もまだありませんが、各サイトもHTML構造がそれぞれ違うため、書いてらっしゃる「記事」がどこに当たるかもきちんとPython上で指示しなければならず、各サイトごとにPythonコードを書いてます。Webスクレイピングを行うツールのOctoparseもありますが、私の作業は結構カスタマイズが必要なので、Pythonでコードを書いてます。
以上になります。ご参考になれば幸いです。
「いいね!」 2