Lire des fichiers volumineux en Java

J'ai besoin des conseils de quelqu'un qui connaît très bien Java et les problèmes de mémoire. J'ai un gros fichier (quelque chose comme 1.5 GB) et j'ai besoin de couper ce fichier dans de nombreux (100 petits fichiers par exemple) Fichiers plus petits.

Je sais généralement comment le faire (en utilisant un BufferedReader), mais je voudrais savoir si vous avez des conseils concernant la mémoire, ou des conseils pour le faire plus rapidement.

Mon fichier contient du texte, il n'est pas binaire et j'ai environ 20 caractères par ligne.

53
demandé sur Sergey Brunov 2010-03-01 16:41:13

10 réponses

Tout d'abord, si votre fichier contient des données binaires, l'utilisation de BufferedReader serait une grosse erreur (car vous convertiriez les données en chaîne, ce qui est inutile et pourrait facilement corrompre les données); vous devriez utiliser un BufferedInputStream à la place. Si ce sont des données de texte et que vous devez les diviser le long des sauts de ligne, l'utilisation de BufferedReader est correcte (en supposant que le fichier contient des lignes d'une longueur raisonnable).

En ce qui concerne la mémoire, il ne devrait y avoir aucun problème si vous utilisez un tampon de taille décente (j'utiliserais au moins 1 Mo pour faire bien sûr, la HD fait principalement de la lecture et de l'écriture séquentielles).

Si la vitesse s'avère être un problème, vous pouvez jeter un oeil aux paquets java.nio - ceux-ci sont supposés être plus rapides que java.io,

25
répondu Michael Borgwardt 2015-12-03 13:08:34

Pour économiser de la mémoire, ne pas stocker/dupliquer inutilement les données en mémoire (c'est-à-dire ne pas les affecter à des variables en dehors de la boucle). Juste traiter la sortie immédiatement dès que l'entrée est en.

Peu importe que vous utilisiez BufferedReader ou non. Cela ne coûtera pas beaucoup plus de mémoire comme certains semblent implicitement le suggérer. Il ne frappera au plus haut que quelques % de la performance. La même chose s'applique à L'utilisation de NIO. Cela ne fera qu'améliorer l'évolutivité, pas la mémoire utiliser. Cela ne deviendra intéressant que lorsque vous aurez des centaines de threads en cours d'exécution sur le même fichier.

Il suffit de faire une boucle dans le fichier, d'écrire chaque ligne immédiatement dans un autre fichier au fur et à mesure que vous lisez, de compter les lignes et, s'il atteint 100, de passer au fichier suivant, etc.

Exemple de coup d'Envoi:

String encoding = "UTF-8";
int maxlines = 100;
BufferedReader reader = null;
BufferedWriter writer = null;

try {
    reader = new BufferedReader(new InputStreamReader(new FileInputStream("/bigfile.txt"), encoding));
    int count = 0;
    for (String line; (line = reader.readLine()) != null;) {
        if (count++ % maxlines == 0) {
            close(writer);
            writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("/smallfile" + (count / maxlines) + ".txt"), encoding));
        }
        writer.write(line);
        writer.newLine();
    }
} finally {
    close(writer);
    close(reader);
}
28
répondu BalusC 2010-03-01 17:43:04

Vous pouvez envisager d'utiliser des fichiers mappés en mémoire, via FileChannel. s.

Généralement beaucoup de choses plus rapide pour les gros fichiers. Il y a des compromis de performance qui pourraient le rendre plus lent, donc YMMV.

Réponse connexe: Java NIO FileChannel versus FileOutputstream performance / utilité

12
répondu Ryan Emerle 2017-05-23 12:26:12

C'est un très bon article: http://java.sun.com/developer/technicalArticles/Programming/PerfTuning/

En résumé, pour de bonnes performances, vous devriez:

  1. évitez d'accéder au disque.
  2. évitez d'accéder au système d'exploitation sous-jacent.
  3. évitez les appels de méthode.
  4. évitez de traiter les octets et les caractères individuellement.

Par exemple, Pour réduire l'accès à disque, vous pouvez utiliser un grand tampon. L'article décrit divers approche.

4
répondu b.roth 2010-03-01 13:51:35

Cela doit-il être fait en Java? I. e. est-il besoin d'être indépendant de la plateforme? Si ce n'est pas le cas, je suggère d'utiliser la commande 'split' dans *nix. Si vous le vouliez vraiment, vous pouvez exécuter cette commande via votre programme java. Bien que je n'aie pas testé, j'imagine qu'il fonctionne plus rapidement que N'importe quelle implémentation Java Io que vous pourriez proposer.

3
répondu Mike 2010-03-01 14:46:59

Vous pouvez utiliser java.nio qui est plus rapide que le flux d'Entrée/Sortie classique:

Http://java.sun.com/javase/6/docs/technotes/guides/io/index.html

1
répondu Kartoch 2010-03-01 13:44:12

Oui. Je pense aussi que l'utilisation de read() avec des arguments comme read(Char[], int init, int fin) est une meilleure façon de lire un fichier volumineux (Par exemple: lire (tampon, 0, tampon.la longueur))

Et j'ai également rencontré le problème des valeurs manquantes de L'utilisation du BufferedReader au lieu de BufferedInputStreamReader pour un flux d'entrée de données binaire. Donc, l'utilisation de BufferedInputStreamReader est beaucoup mieux dans ce cas.

1
répondu Namalak 2010-10-27 06:55:45

N'utilisez pas read sans arguments. C'est très lent. Mieux vaut le lire dans le tampon et le déplacer rapidement dans le fichier.

Utilisez bufferedInputStream car il prend en charge la lecture binaire.

Et c'est tout.

0
répondu oneat 2010-03-01 13:44:53

Sauf si vous lisez accidentellement dans le fichier d'entrée entier au lieu de le lire ligne par ligne, votre limitation principale sera la vitesse du disque. Vous pouvez essayer de commencer avec un fichier contenant 100 lignes et l'écrire dans 100 fichiers différents une ligne dans chaque et faire fonctionner le mécanisme de déclenchement sur le nombre de lignes écrites dans le fichier actuel. Ce programme sera facilement évolutif à votre situation.

0
répondu Thorbjørn Ravn Andersen 2010-03-01 14:51:23

package all.is.well;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import junit.framework.TestCase;

/**
 * @author Naresh Bhabat
 * 
Following  implementation helps to deal with extra large files in java.
This program is tested for dealing with 2GB input file.
There are some points where extra logic can be added in future.


Pleasenote: if we want to deal with binary input file, then instead of reading line,we need to read bytes from read file object.



It uses random access file,which is almost like streaming API.


 * ****************************************
Notes regarding executor framework and its readings.
Please note :ExecutorService executor = Executors.newFixedThreadPool(10);

 *  	   for 10 threads:Total time required for reading and writing the text in
 *         :seconds 349.317
 * 
 *         For 100:Total time required for reading the text and writing   : seconds 464.042
 * 
 *         For 1000 : Total time required for reading and writing text :466.538 
 *         For 10000  Total time required for reading and writing in seconds 479.701
 *
 * 
 */
public class DealWithHugeRecordsinFile extends TestCase {

	static final String FILEPATH = "C:\\springbatch\\bigfile1.txt.txt";
	static final String FILEPATH_WRITE = "C:\\springbatch\\writinghere.txt";
	static volatile RandomAccessFile fileToWrite;
	static volatile RandomAccessFile file;
	static volatile String fileContentsIter;
	static volatile int position = 0;

	public static void main(String[] args) throws IOException, InterruptedException {
		long currentTimeMillis = System.currentTimeMillis();

		try {
			fileToWrite = new RandomAccessFile(FILEPATH_WRITE, "rw");//for random write,independent of thread obstacles 
			file = new RandomAccessFile(FILEPATH, "r");//for random read,independent of thread obstacles 
			seriouslyReadProcessAndWriteAsynch();

		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		Thread currentThread = Thread.currentThread();
		System.out.println(currentThread.getName());
		long currentTimeMillis2 = System.currentTimeMillis();
		double time_seconds = (currentTimeMillis2 - currentTimeMillis) / 1000.0;
		System.out.println("Total time required for reading the text in seconds " + time_seconds);

	}

	/**
	 * @throws IOException
	 * Something  asynchronously serious
	 */
	public static void seriouslyReadProcessAndWriteAsynch() throws IOException {
		ExecutorService executor = Executors.newFixedThreadPool(10);//pls see for explanation in comments section of the class
		while (true) {
			String readLine = file.readLine();
			if (readLine == null) {
				break;
			}
			Runnable genuineWorker = new Runnable() {
				@Override
				public void run() {
					// do hard processing here in this thread,i have consumed
					// some time and ignore some exception in write method.
					writeToFile(FILEPATH_WRITE, readLine);
					// System.out.println(" :" +
					// Thread.currentThread().getName());

				}
			};
			executor.execute(genuineWorker);
		}
		executor.shutdown();
		while (!executor.isTerminated()) {
		}
		System.out.println("Finished all threads");
		file.close();
		fileToWrite.close();
	}

	/**
	 * @param filePath
	 * @param data
	 * @param position
	 */
	private static void writeToFile(String filePath, String data) {
		try {
			// fileToWrite.seek(position);
			data = "\n" + data;
			if (!data.contains("Randomization")) {
				return;
			}
			System.out.println("Let us do something time consuming to make this thread busy"+(position++) + "   :" + data);
			System.out.println("Lets consume through this loop");
			int i=1000;
			while(i>0){
			
				i--;
			}
			fileToWrite.write(data.getBytes());
			throw new Exception();
		} catch (Exception exception) {
			System.out.println("exception was thrown but still we are able to proceeed further"
					+ " \n This can be used for marking failure of the records");
			//exception.printStackTrace();

		}

	}
}
0
répondu RAM 2016-10-11 01:50:42