کار با فایل ها در R

کار با فایل ها در R

کار با فایل ها در R

عملیاتی که با استفاده از برنامه R بر روی یک prompt/terminal انجام می شود در جایی ذخیره نمی شود. اما در صنعت نرم افزار، بیشتر برنامه ها برای ذخیره اطلاعات دریافتی از برنامه نوشته می شوند. یکی از این راه ها ذخیره اطلاعات واکشی شده در یک فایل است. بنابراین دو عملیات رایجی که می توان روی یک فایل انجام داد عبارتند از: خواندن فایل ها در R، نوشتن فایل ها در R

خواندن داده ها در R

هنگامی که یک برنامه خاتمه می یابد، کل داده ها از بین می روند. ذخیره سازی در یک فایل حتی اگر برنامه خاتمه یابد، داده های ما را حفظ می کند. اگر مجبور باشیم تعداد زیادی داده را وارد کنیم، وارد کردن همه آنها زمان زیادی می برد. با این حال، اگر فایلی حاوی تمام داده ها داشته باشیم، با استفاده از چند دستور در R به راحتی می توانیم به محتویات فایل دسترسی داشته باشیم. شما به راحتی می توانید اطلاعات خود را بدون هیچ تغییری از یک کامپیوتر به کامپیوتر دیگر منتقل کنید. بنابراین آن فایل ها را می توان در فرمت های مختلف ذخیره کرد. ممکن است در فایل txt. (مقدار جدا شده از تب) یا در قالب جدولی مانند فایل csv (مقدار جدا شده با کاما) ذخیره شود یا ممکن است در اینترنت یا ابر باشد. R روش های بسیار آسان تری برای خواندن آن فایل ها ارائه می دهد.

یکی از فرمت های مهم برای ذخیره یک فایل در یک فایل متنی است. R روش های مختلفی را ارائه می دهد که می توان داده ها را از یک فایل متنی خواند. تابع read.delim()  برای خواندن فایل های .txt به کار می رود.

myData = read.delim(“geniran.txt”, header = FALSE)

print(myData)

نوشتن در فایل متنی  در R

فایل های متنی تقریباً در هر برنامه ای در زندگی روزمره ما به عنوان گامی برای “دنیای بدون کاغذ” استفاده می شود. دستور زیر برای نوشتن در یک فایل متنی است:

write.table(my_data, file = “my_data.txt”, sep = “”)

ساختار های داده در R

ساختار داده روش خاصی برای سازماندهی داده ها در رایانه است تا بتوان از آنها به طور مؤثر استفاده کرد. ساختارهای داده در برنامه نویسی R ابزارهایی برای نگهداری مقادیر متعدد هستند. ساختارهای داده پایه R اغلب بر اساس ابعاد آنها و اینکه آیا آنها همگن هستند (همه عناصر باید از نوع یکسان باشند) یا ناهمگن (عناصر اغلب انواع مختلفی دارند) سازماندهی می شوند. این باعث ایجاد شش نوع داده می شود که بیشتر در تجزیه و تحلیل داده ها مورد استفاده قرار می گیرند.

ضروری ترین ساختارهای داده مورد استفاده در R عبارتند از:

  • Vectors
  • Lists
  • Dataframes
  • Matrices
  • Arrays
  • Factors

Vectors

بردار مجموعه ای مرتب از انواع داده های پایه با طول معین است. تنها نکته کلیدی در اینجا این است که همه عناصر یک بردار باید از نوع داده یکسان باشند، به عنوان مثال ساختارهای داده همگن. بردارها ساختارهای داده یک بعدی هستند.

Lists

لیست یک شیء عمومی است که از مجموعه ای مرتب شده از اشیاء تشکیل شده است. لیست ها ساختارهای داده ناهمگن هستند. اینها نیز ساختارهای داده یک بعدی هستند. یک لیست می تواند لیستی از بردارها، لیستی از ماتریس ها، لیستی از کاراکترها و لیستی از توابع و غیره باشد.

Dataframes

Dataframe ها اشیاء داده های عمومی R هستند که برای ذخیره داده های جدولی استفاده می شوند. Dataframe ها محبوب ترین اشیاء داده در برنامه نویسی R هستند زیرا ما در دیدن داده ها در شکل جدولی راحت هستیم. آنها ساختارهای داده دو بعدی و ناهمگن هستند. اینها لیستی از بردارهای با طول مساوی هستند.

فریم های داده دارای محدودیت های زیر هستند:

یک قاب داده باید نام ستون داشته باشد و هر ردیف باید یک نام منحصر به فرد داشته باشد.

هر ستون باید تعداد موارد یکسانی داشته باشد.

هر مورد در یک ستون باید از یک نوع داده باشد.

ستون های مختلف ممکن است انواع داده های متفاوتی داشته باشند.

برای ایجاد یک قاب داده از تابع data.frame() استفاده می کنیم.

Matrices

ماتریس یک آرایش مستطیلی از اعداد در ردیف ها و ستون ها است. در یک ماتریس، همانطور که می دانیم ردیف ها آنهایی هستند که به صورت افقی اجرا می شوند و ستون ها آنهایی هستند که به صورت عمودی اجرا می شوند. ماتریس ها ساختارهای داده دو بعدی و همگن هستند. برای ایجاد یک ماتریس در R باید از تابعی به نام ماتریس استفاده کنید. آرگومان های این ماتریسمجموعه ای از عناصر در بردار هستند. شما باید تعداد سطرها و تعداد ستون هایی را که می خواهید در ماتریس خود داشته باشید را ارسال کنید و این نکته مهمی است که باید به خاطر داشته باشید که به طور پیش فرض ماتریس ها به ترتیب ستونی هستند.

Arrays

آرایه ها اشیاء داده R هستند که داده ها را در بیش از دو بعد ذخیره می کنند. آرایه ها ساختارهای داده n بعدی هستند. آنها ساختارهای داده ای همگن هستند. برای ایجاد یک آرایه در R باید از تابعی به نام () array استفاده کنید. آرگومان های این آرایه  مجموعه ای از عناصر در بردارها هستند.

Factors

فاکتورها اشیاء داده ای هستند که برای دسته بندی داده ها و ذخیره آن در سطوح استفاده می شوند. آنها برای ذخیره داده های دسته بندی مفید هستند. آنها می توانند هم رشته ها و هم اعداد صحیح را ذخیره کنند. آنها برای دسته بندی مقادیر منحصر به فرد در ستون هایی مانند “درست” یا “نادرست”، یا “MALE” یا “FEMALE” و غیره مفید هستند. آنها در تجزیه و تحلیل داده ها برای مدل سازی آماری مفید هستند.

 

 

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

3.5 / 5. تعداد رای دهندگان: 2

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید