Pandas kütüphanesi, piton tabanlı veri bilimini kolay bir sürüş haline getirir. Verileri okumak, birleştirmek, sıralamak, temizlemek ve daha fazlası için popüler bir Python kütüphanesidir. Pandaların kullanımı ve veri kümelerine uygulanması kolay olsa da, öğrenmesi ihtiyaç duyulan birçok veri manipülatif işlevi vardır.
Pandaları kullanabilirsiniz, sadece verilerle ilgili sorunları çözmek için azca kullanıyor olma ihtimaliniz yüksek. İşte her veri bilimcinin bilmesi ihtiyaç duyulan panda işlevlerini manipüle eden kıymetli veri listemiz.
Pandaları Sanal Ortamınıza Yükleyin
Devam etmek için ilkin, pip kullanarak sanal ortamınıza pandalar yüklediğinizden güvenilir olun:
pip install pandas
Yükledikten sonrasında içe aktarın Pandalar Senaryonun en üstünde, ve devam edelim.
1. pandalar. Veri Çerçevesi
Kullandığınız Pandalar. DataFrame() pandalarda bir DataFrame oluşturmak için. Bu işlevi kullanmanın iki yolu vardır.
Bir sözlüğü Pandalar. DataFrame() fonksiyon. Burada, her anahtar bir sütundur, değerler ise satırlardır:
import pandas
DataFrame = pandas.DataFrame({"A" : (1, 3, 4), "B": (5, 9, 12)})
print(DataFrame)
Öteki yöntem, DataFrame’i satırlar içinde oluşturmaktır. Sadece burada, değerleri (satır öğeleri) sütunlardan ayıracaksınız. Her listedeki veri sayısı (satır verileri) sütun sayısıyla da aynı olmalıdır.
import pandas
DataFrame = pandas.DataFrame(((1, 4, 5), (7, 19, 13)), columns= ("J", "K", "L"))
print(DataFrame)
2. Pandalarda Excel yada CSV’den Okuma ve Excel’e Yazma
Pandalarla Excel yada CSV dosyalarını okuyabilir yada yazabilirsiniz.
Excel yada CSV dosyalarını okuma
Excel dosyasını okumak için:
#Replace example.xlsx with the your Excel file path
DataFrame = DataFrame.read_excel("example.xlsx")
CSV dosyasını şu şekilde okuyabilirsiniz:
#Replace example.csv with the your CSV file path
DataFrame = DataFrame.read_csv("example.csv")
Excel yada CSV’ye yazma
Excel yada CSV’ye yazmak iyi malum bir panda işlemidir. Ve yeni hesaplanan tabloları ayrı veri tablolarına kaydetmek için kullanışlıdır.
Excel sayfasına yazmak için:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
CSV’ye yazmak istiyorsanız:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Pandaları kullanarak dataframe’deki her sütunun merkezi eğilimlerini de hesaplayabilirsiniz.
Her sütunun averaj kıymetini şu şekilde alabilirsiniz:
DataFrame.mean()
Ortanca yada mod kıymeti için, averaj() ile ortanca() yada mode().
4. DataFrame.transform
pandaların DataFrame.transform() DataFrame değerlerini değiştirir. Bir işlevi bağımsız değişken olarak kabul eder.
Mesela, aşağıdaki kod, Python’un lambda işlevini kullanarak DataFrame’deki her kıymeti üçe çarpar:
DataFrame = DataFrame.transform(lambda y: y*3)
print(DataFrame)
5. DataFrame.isnull
Bu işlev bir Boole kıymeti döndürür ve boş değerler içeren tüm satırları Doğru:
DataFrame.isnull()
Yukarıdaki kodun sonucunu daha büyük veri kümeleri için okumak zor olabilir. Böylece isnull().toplam() yerine işlev görür. Bu, her sütun için tamamlanmamış tüm değerlerin bir özetini döndürür:
DataFrame.isnull().sum()
6. Dataframe.info
Bu, bir sonraki informasyon() fonksiyonu mühim bir panda operasyonudur. Bunun yerine, her sütun için tamamlanmamış olmayan değerlerin özetini döndürür:
DataFrame.info()
7. DataFrame.describe
Bu, bir sonraki describe() işlevi size bir DataFrame’in özet istatistiklerini verir:
DataFrame.describe()
8. DataFrame.replace
DataFrame.replace() yöntemi pandalarda, seçilen satırları öteki değerlerle değiştirebilirsiniz.
Mesela, geçersiz satırları Nan:
# Ensure that you pip install numpy for this to work
import numpy
import pandas
# Adding an inplace keyword and setting it to True makes the changes permanent:
DataFrame.replace((invalid_1, invalid_2), numpy.nan, inplace=True)
print(DataFrame)
9. DataFrame.fillna
Bu işlev, boş satırları belirli bir değerle doldurmanızı sağlar. Tüm Nan veri kümesindeki averaj değere haiz satırlar, mesela:
DataFrame.fillna(df.mean(), inplace = True)
print(DataFrame)
Sütuna özgü de olabilirsiniz:
DataFrame('column_name').fillna(df(column_name).mean(), inplace = True)
print(DataFrame)
10. DataFrame.dropna
Bu, bir sonraki dropna() yöntem, boş değerler içeren tüm satırları kaldırır:
DataFrame.dropna(inplace = True)
print(DataFrame)
11. DataFrame.insert
Pandaları kullanabilirsiniz. insert() işleviyle DataFrame’e yeni bir sütun ekleyebilirsiniz. Üç anahtar kelimeyi kabul eder, sütun adı, verilerinin bir sıralaması ve yersütun dizinidir.
Şöyleki çalışır:
DataFrame.insert(column = 'C', value = (3, 4, 6, 7), loc=0)
print(DataFrame)
Yukarıdaki kod sıfır sütun dizinine yeni sütunu ekler (ilk sütun olur).
12. DataFrame.loc
Kullanabilirsiniz Hayır! belirli bir dizindeki öğeleri bulmak için. Üçüncü satırdaki tüm öğeleri görüntülemek için, mesela:
DataFrame.loc(2)
13. DataFrame.pop
Bu işlev pandas DataFrame’den belirtilen bir sütunu kaldırmanızı sağlar.
Kabul eder. madde anahtar sözcüğü, oluşturulan sütunu döndürür ve DataFrame’in geri kalanından ayırır:
DataFrame.pop(item= 'column_name')
print(DataFrame)
14. DataFrame.max, min
Pandaları kullanarak maksimum ve minimum değerleri elde almak kolaydır:
DataFrame.min()
Yukarıdaki kod her sütun için en düşük kıymeti döndürür. Maksimum kıymeti elde etmek için, min ile Max.
15. DataFrame.join
Bu, bir sonraki join() pandaların işlevi, DataFrame’leri değişik sütun adlarıyla birleştirmenizi sağlar. Sol, sağ, iç yada dış birleştirmeyi kullanabilirsiniz. DataFrame’i öteki iki kişiyle beraber sola katmak için:
#Left-join longer columns with shorter ones
newDataFrame = df1.join((df_shorter2, df_shorter3), how='left')
print(newDataFrame)
Benzer sütun adlarına haiz DataFrame’lere katılmak için, bu tarz şeyleri sola yada sağa bir sonek dahil larak ayırt edebilirsiniz. Bunu, Lsuffix yada rsuffix anahtar sözcük:
newDataFrame = df1.join((df2, rsuffix='_', how='outer')
print(newDataFrame)
16. DataFrame.combine
Bu, bir sonraki birleştir() işlevi, belirlenen ölçütlere nazaran benzer sütun adları içeren iki DataFrame’i birleştirmek için kullanışlıdır. Kabul eder. fonksiyon anahtar sözcük.
Mesela, yalnızca en büyük değerlere nazaran benzer sütun adlarına haiz iki DataFrame’i birleştirmek için:
newDataFrame = df.combine(df2, numpy.minimum)
print(newDataFrame)
Not: Ek olarak hususi bir seçim işlevi tanımlayabilir ve numpy.minimum.
17. DataFrame.astype
Bu, bir sonraki astype() işlevi belirli bir sütunun yada DataFrame’in veri türünü değiştirir.
DataFrame’deki tüm değerleri mısra olarak değiştirebilmek için, mesela:
DataFrame.astype(str)
18. DataFrame.sum
Bu, bir sonraki toplam() pandas işlevi her sütundaki değerlerin toplamını verir:
DataFrame.sum()
Ek olarak, tüm öğelerin toplam toplamını cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandaların drop() işlevi DataFrame’deki belirli satırları yada sütunları siler. Sütun adlarını yada satır dizinini ve kullanmak için bir eksen sağlamanız gerekir.
Belirli sütunları kaldırmak için, mesela:
df.drop(columns=('colum1', 'column2'), axis=0)
1, 3 ve 4 dizinlerine satır bırakmak için, mesela:
df.drop((1, 3, 4), axis=0)
20. DataFrame.corr
Tamsayı yada kayan sütunlar arasındaki bağınt bulmak ister misiniz? pandalar kullanarak bunu başarmanıza destek olabilir corr() fonksiyon:
DataFrame.corr()
Yukarıdaki kod, tüm tamsayı yada kayan sütunlar arasındaki korelasyon sırasını içeren yeni bir DataFrame döndürür.
21. DataFrame.add
Bu, bir sonraki add() işlevi, DataFrame’deki her değere belirli bir sayı eklemenizi sağlar. Bir DataFrame üstünden yineleme yaparak ve her öğede emek vererek çalışır.
Tamsayılar yada kayan yüzeyler içeren belirli bir sütundaki değerlerin her birine 20 eklemek için, mesela:
DataFrame('interger_column').add(20)
22. DataFrame.sub
Toplama işlevi şeklinde, DataFrame’deki yada belirli bir sütundaki her değerden bir sayı da çıkarabilirsiniz:
DataFrame('interger_column').sub(10)
23. DataFrame.mul
Bu pandaların ekleme işlevinin çarpım versiyonudur:
DataFrame('interger_column').mul(20)
24. DataFrame.div
Benzer şekilde, bir sütundaki yada DataFrame’deki her veri noktasını belirli bir sayıya bölebilirsiniz:
DataFrame('interger_column').div(20)
25. DataFrame.std
std() işlevi, pandas ek olarak bir DataFrame’deki her sütun için standart sapmayı hesaplamanıza olanak tanır. Bir veri kümesindeki her sütunda yineleme yaparak ve her biri için standart sapmayı hesaplayarak çalışır:
DataFrame.std()
26. DataFrame.sort_values
Değerleri belirli bir sütuna nazaran artan yada azalan şekilde de sıralayabilirsiniz. DataFrame’i azalan düzende sıralamak için, mesela:
newDataFrame = DataFrame.sort_values(by = "colmun_name", descending = True)
27. DataFrame.melt
Bu, bir sonraki melt() pandas işlevi, DataFrame’deki sütunları tek tek satırlara çevirir. DataFrame’in anatomisini açığa çıkarmak şeklinde. Böylece, her sütuna atanan kıymeti açıkça görüntülemenizi sağlar.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Bu işlev, her sütundaki toplam unsur sayısını döndürür:
DataFrame.count()
29. DataFrame.query
pandaların sorgu() öğeleri dizin numaralarını kullanarak çağırmanızı sağlar. Öğeleri üçüncü satıra almak için, mesela:
DataFrame.query('4') # Call the query on the fourth index
30. DataFrame.where
Bu, bir sonraki where() işlevi, bir sütunda belirli değerleri almak için bir koşulu kabul eden bir pandas sorgusudur. Mesela, 30 yaşından minik tüm yaşları Yaş sütun:
DataFrame.where(DataFrame('Age') < 30)
Yukarıdaki kod, 30 yaşından minik tüm yaşları içeren sadece Nan koşulu karşılamayan satırlara.
Pandalarla Pro Şeklinde Verileri İşle
pandas, Python ile minik ve büyük ölçekli veri kümelerini işlemek için işlevler ve yöntemler hazinesidir. Kütüphane ek olarak çözümleme yada makine öğrenimi için verileri temizlemek, doğrulamak ve hazırlamak için de kullanışlıdır.
Ustalaşmak için vakit ayırın, bir veri bilimcisi olarak hayatınızı kesinlikle kolaylaştırır ve çabaya kıymet. Bu yüzden tüm işlevleri almak için çekinmeyin Üstesinden gelebilirsin.