クイックメニュー
スレタイ検索

CSVファイルのスレ

1名無しさん@お腹いっぱい。 [sage]
AAS
おそらく一番簡単なデータベースと思われるCSVファイルについていろいろ語りましょう。

03/07/0217:58(???.net)


288NAME IS NULL

AAS

NG

イキりマンがいるとダメだ

2022/09/08(木)14:00:37.37(ZUZFeHFR.net)


289NAME IS NULL [sage]

AAS

NG

まさかcsvのソートができないなんて上から目線で言うやつがいるとは思わんかった。

2022/09/08(木)23:42:26.53(???.net)


290NAME IS NULL [sage]

AAS

NG

ではイキリマンとは違う事を
正解を示すことで証明していただきたい

2022/09/09(金)10:39:32.97(???.net)


291NAME IS NULL [sage]

AAS

NG

ふふふそうはいかない
お前に利は与えぬ

2022/09/09(金)21:39:53.42(???.net)


292NAME IS NULL

AAS

NG

ふふふ

2022/09/09(金)23:06:48.13(ybJikvqo.net)


293NAME IS NULL

AAS

NG

ソートするだけならマージソートでやれば良い
マージソートはレコードをシーケンシャルに読み書きしていくだけで良い

CSVが100GBで、1レコードが1KBだと仮定するとレコード数は1億
log2(1億) = 26.5
27回はスプリットとマージを繰り返さないといけない
100GB * 27 * 2(読みと書き) = 5400GB
ストレージの読み書き速度が500MB/sだとして3時間

性能要件的に3時間が是か非か

SQLiteやPostgreSQLにデータを入れてSQLでソートするにしても
DBではデータがノーマライズされるうえにインデックスも構築されるから
なんだかんだで同じくらい時間がかかりそう

RedshiftやBigQueryといった分散処理ができるDBを使えば速いだろうけど
ネットワークの速度が100MB/sだと仮定するとデータを転送するだけで16分かかるから
なんだかんだで20分前後かなあ

ストレージのIOがボトルネックになるとしてそれを改善するには
CSVを1回読んでレコードの(sortkey, offset, length)の組を抜き出してその組をソートして最後にレコードを抜き出すのが良い
1つの(sortkey, offset, length)が40バイトだとしてそれが1億あると4GB、PCのメモリが10GBならオンメモリでソートできそう

RFC4180に従う汎用的なCSVを入力として受け付けるならoffset, lengthの計算がちと面倒かもね
入力の生データを保持してCSVをパースできるならレコードをパースして生データからoffset, lengthを計算すればよいけれども
対応してるライブラリがあるかはわからない、CSVのパーサを自作する必要があるかも

2022/09/11(日)01:48:03.55(Mo970C1D.net)


294NAME IS NULL

AAS

NG

10GBに収まるギリギリまでメモリ上でソートすればいいので27回も繰り返す必要はないのか
ストレージ上のデータがメモリ上では10倍になるとしてメモリ上でソートできるのは100万レコードくらいかな
100万レコードが100個できるとして
log2(100) = 6.6
100GB * 7 * 2(読みと書き) = 1400GB
ストレージの読み書き速度が500MB/sだとして47分
結構速いな

2022/09/11(日)02:08:10.54(Mo970C1D.net)


295NAME IS NULL [sage]

AAS

NG

Excel365で開くと、最初は問題なく開けるのに、
しばらく使ってから開くと文字化けするのはなに?
文字化けするファイルもしないファイルも文字コードは同じ
PC再起動すれば一時的に直るけど、またしばらく使ってると再発する

2023/05/24(水)21:48:12.59(???.net)


296NAME IS NULL

AAS

NG

BOMが消されてるんじゃない?

2023/06/03(土)19:09:16.93(WlpZXlkv.net)


297NAME IS NULL

AAS

NG

例えば.登録記号「JА119Υ」は「マッチポンプ集団東京消防庁0332122111」だが
クソ航空機に生活や仕事を妨害されたら…アプリ「ADS-B UnfilTered...」で登録記號を確認
ttps://jasearch.info/ ←ここで検索して使用者特定
ADS-B出してない日の丸ロコ゛機体は自閉隊か税金泥棒系業者だか゛、スクショも晒しつつ、ググって電話番号なども晒そう!
ヘリタンク2000Lで10000kWh火力發電した際に発生するのと同等のCO2を排出するが、この氣候変動させて世界中の人々を死に追いやってる
正義の鉄槌によって処刑されるべきテロリストどもを徹底的に非難しよう! スマホのパケづまりが酷いのもWifiが遅いのもクソ航空無線の
広大な帯域汚染による電波不足か゛原因だし、国民の財産電波をタダで使ってカンコーた゛のと殺人を推進する有害放送で儲けて「―方的」
「自称」「思い込んで」だのプロパカ゛ンダ丸出しのテレビ放送廃止、さらに今と゛き深夜に騷音まき散らして近隣に多大な損害を与えながら
新聞配達させてる情弱知障も非難して人の住居上空を飛ぶ害虫を皆殺しにする気で報復しよう! 
(ref.) ttρs://www.call4.jp/info.php?type=items&id〓I0000062
Τtps://haneda-projеcT.jimdofrеe.com/ , https://flight-route.com
Тtps://n-souonhigaisosyoudan.amebaownd.сom/

2024/03/27(水)22:50:10.46(FMPNQ0LGM)

名前

メール

本文